搜索结果

关键词 "Multimodal capabilities" 的搜索结果，共 3 条, 只显示前 480 条

DreamFit

DreamFit是什么 DreamFit是字节跳动团队联合清华大学深圳国际研究生院、中山大学深圳校区推出的虚拟试衣框架，专门用在轻量级服装为中心的人类图像生成。框架能显著减少模型复杂度和训练成本，基于优化文本提示和特征融合，提高生成图像的质量和一致性。DreamFit能泛化到各种服装、风格和提示指令，生成高质量的人物图像。DreamFit支持与社区控制插件的无缝集成，降低使用门槛。 Dre

BILIVE

BILIVE 是基于 AI 技术的开源工具，专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕，支持语音识别、自动切片精彩片段，生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站，综合多种模态模型，兼容超低配置机器，无需 GPU 即可运行，适合个人用户和小型服务器使用。 1. Introduction Have you notice

MMaDA

MMaDA（Multimodal Large Diffusion Language Models）是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构，具备模态不可知的设计，消除对特定模态组件的需求，引入混合长链推理（CoT）微调策略，统一跨模态的CoT格式，推出UniGRPO，针对扩散基础模型的统

只显示前20页数据，更多请搜索