关键词 "Dark GPU" 的搜索结果, 共 14 条, 只显示前 480 条
字节开源DreamO,统一图像定制框架,把图像换装、换脸、换造型、换风格以及组合操作装在了一起 支持ID、IP、Try-On等组合,支持16GB/24GB显卡运行,用于虚拟试穿、商品广告、营销广告什么的比较实用 四个能力: IP,处理角色形象,支持人物、物体、动物等输入 ID,人脸身份处理 Try-On,虚拟试穿,可以同时换多件衣服 Style,风格迁移,目前还不能和其他任务组合 DreamO正
Challympics 是专注于人工智能和技术创新的赛事平台,汇聚多种类型的赛事,涵盖创新创意、量子计算、AIGC 大模型方案应用、人工智能应用等多个领域。平台为开发者和创新者提供一个展示创意和技能的舞台,推动人工智能技术在各个领域的应用和发展。 Challympics的主要功能 赛事组织与管理:平台定期发布各类人工智能和技术创新相关的赛事信息,涵盖创新创意、量子计算、AIGC 大模型方案
ViLAMP(VIdeo-LAnguage Model with Mixed Precision)是蚂蚁集团和中国人民大学联合推出的视觉语言模型,专门用在高效处理长视频内容。基于混合精度策略,对视频中的关键帧保持高精度分析,显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色,在长视频理解任务中,展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧(约3小时)
BILIVE 是基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站,综合多种模态模型,兼容超低配置机器,无需 GPU 即可运行,适合个人用户和小型服务器使用。 1. Introduction Have you notice
FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独特的夸奖提升用户心情,犀利怼语模式以幽默风趣的方式帮助用户释放压力。FunGPT 采用 1.8B 系列轻量化模型,结合 AWQ 量化技术,既节省 GPU 内存又提升推理速度。 FunGPT的主要功能 甜言蜜语模式:当用户情绪低
AnimeGamer 是基于多模态大型语言模型(MLLM)构建的,可以生成动态动画镜头和角色状态更新,为用户提供无尽的动漫生活体验。它允许用户通过开放式语言指令与动漫角色互动,创建独特的冒险故事。该产品的主要优点包括:动态生成与角色交互的动画,能够在不同动漫之间创建交互,丰富的游戏状态预测等。 快速入门 🔮 环境设置 要设置推理环境,您
Moondream是一个免费开源的小型的人工智能视觉语言模型,虽然参数量小(Moondream1仅16亿,Moondream2为18.6亿)但可以提供高性能的视觉处理能力,可在本地计算机甚至移动设备或 Raspberry Pi 上运行,能够快速理解和处理输入的图像信息并对用户提出的问题进行解答。该模型由开发人员vikhyatk推出,使用SigLP、Phi-1.5和LLaVa训练数据集和模型权重初始
FaceAge是一款AI人脸识别扫描模型,它通过数万张患者照片和公共图像数据库进行训练,能够精准判断个人衰老迹象。 模型描述 FaceAge 深度学习流程包括两个阶段:面部定位和提取阶段,以及带有输出线性回归器的特征嵌入阶段,可提供生物年龄的连续估计。 第一阶段通过在照片中定位人脸并在其周围定义一个边界框来预处理输入数据。然后对图像进行裁剪、调整大小,并在所有 RGB 通道上对像
SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,精准识别手语动作并实时转化为口语文本。模型具备高准确率和上下文理解能力,响应延迟低于0.5秒。SignGemma采用高效架构设计,可在消费级GPU上运行,支持端侧部署,保护用户隐私。
SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。 SmolVLA的主要功能 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及
MNN轻量级高性能推理引擎 通用性 - 支持TensorFlow、Caffe、ONNX等主流模型格式,支持CNN、RNN、GAN等常用网络。 高性能 - 极致优化算子性能,全面支持CPU、GPU、NPU,充分发挥设备算力。 易用性 - 转换、可视化、调试工具齐全,能方便地部署到移动设备和各种嵌入式设备中。 什么是 TaoAvatar?它是阿里最新研究
LLIA(Low-Latency Interactive Avatars)是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成,支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术,减少初始视频生成的延迟,结合一致性模型训练策略和模型量化技术,显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态(如说话、倾听、空闲)及面部表情的精细控制
Seaweed APT2是字节跳动推出的创新的AI视频生成模型,通过自回归对抗后训练(AAPT)技术,将双向扩散模型转化为单向自回归生成器,实现高效、高质量的视频生成。模型能在单次网络前向评估(1NFE)中生成包含多帧视频的潜空间帧,显著降低了计算复杂性,通过输入回收机制和键值缓存(KV Cache)技术,支持长时间视频生成,解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。能在单块GPU
MegaFold是一个跨平台系统,用于加速蛋白质结构预测模型(例如 AlphaFold3、AlphaFold2)。 为什么选择 MegaFold? 跨平台支持:通过优化的基于 Triton 的内核,支持在异构设备上执行,包括 NVIDIA GPU 和 AMD GPU。 易于使用:只需更改几行代码即可获得巨大的性能提升 速度提升:每次迭代训练时间加快高达 1.73 倍 减少内存:将
只显示前20页数据,更多请搜索
Showing 73 to 86 of 86 results