梅斯AI导航站
首页 梅斯小智 MCP 排行榜 资讯 临床指南 期刊 梅斯公开课 收录

搜索结果

关键词 "multi-modal inputs" 的搜索结果, 共 3 条, 只显示前 480 条

4oimage

4oimage

Users can easily generate high-quality images and customize unique 3D character models with just a few inputs. The platform supports multilingual input and is ideal for various use cases such as illus

MSQA

MSQA

MSQA(Multi-modal Situated Question Answering)是大规模多模态情境推理数据集,提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对,覆盖9个问题类别,基于3D场景图和视觉-语言模型在真实世界3D场景中收集。MSQA用文本、图像和点云的交错多模态输入,减少单模态输入的歧义。引入MSNN(Multi-modal Next-step Navi

Wan Animate

Wan Animate

Wan Animate by Alibaba Wan2.2 enables animation of any character in videos. Supporting image and video inputs, it uses reference characters and motion to create custom animated videos. It accurately c

只显示前20页数据,更多请搜索

« Previous Next »

Showing 25 to 27 of 27 results

1 2

©Copyrigh2012-至今 梅斯(MedSci)

本站旨在介绍医药健康研究进展和信息,不作为诊疗方案推荐。如需获得诊断或治疗方面指导,请前往正规医院就诊。

用户应遵守著作权法,尊重著作权人合法权益,不违法上传、存储并分享他人作品。投诉、举报、维权邮箱:editor@medsci.cn,或在此留言

备案号 沪ICP备14018916号-1 沪公网安备 31010402000380 信息举报中心 违法和不良信息举报中心 上海网警网络110