关键词 "3D maps" 的搜索结果, 共 14 条, 只显示前 480 条
MSQA(Multi-modal Situated Question Answering)是大规模多模态情境推理数据集,提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对,覆盖9个问题类别,基于3D场景图和视觉-语言模型在真实世界3D场景中收集。MSQA用文本、图像和点云的交错多模态输入,减少单模态输入的歧义。引入MSNN(Multi-modal Next-step Navi
Sketch2Anim 是爱丁堡大学联合Snap Research、东北大学推出的自动化框架,能将2D草图故事板直接转换为高质量的3D动画。基于条件运动合成技术,用3D关键姿势、关节轨迹和动作词精确控制动画的生成。框架包含两个核心模块,多条件运动生成器和2D、3D神经映射器。Sketch2Anim能生成自然流畅的3D动画,支持交互式编辑,极大地提高动画制作的效率和灵活性。 Sketch2Anim
Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 LLM 进行粗略布局规划,基于视觉模块细化布局生成图像指导,用优化模块调整物体姿态确保物理合理性,基于判断模块验证场景的空间连贯性。Scenethesis 能生成多样化的室内外场景,具有高度的真实感和物理合理性,广泛应用在虚拟内容
Model Medicines 拥有人工智能药物研发公司中公开研发管线规模最大的公司之一。该公司拥有 192 种化合物,针对 26 个治疗靶点。所有化合物均通过该公司的 GALILEO 平台发现,该平台旨在研究 3D 蛋白质结构中相互作用的原子“群”。 今年4月,Model及其合作伙伴的研究团队发布了一份预印本,确定了RdRp Thumb-1位点,该位点代表了正义单链RNA病毒中一个潜在的可用药
AnimeGamer 是基于多模态大型语言模型(MLLM)构建的,可以生成动态动画镜头和角色状态更新,为用户提供无尽的动漫生活体验。它允许用户通过开放式语言指令与动漫角色互动,创建独特的冒险故事。该产品的主要优点包括:动态生成与角色交互的动画,能够在不同动漫之间创建交互,丰富的游戏状态预测等。 快速入门 🔮 环境设置 要设置推理环境,您
Aurora是微软研究院推出的13亿参数的大气基础模型,基于从海量大气数据中提取有价值信息,用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构,处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色,包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测,计算速度比传统数值天气模型快约5000倍。模型提高了预测精度,降低计算成本,为应对气候变化和极端天气事件提
HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基于精准的表情编码器减少追踪误差,提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性,结合物理渲染模型,实现真实的重光照效果。HRAvatar在多个指标上优于现有方法,支持实时渲染(约155 FPS),为数
RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型,支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑,支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对,结合真实视频和3D渲染数据,在预训练的图像照明编辑扩散框架(IC-Light)基础上,插入可
Google Beam是谷歌推出的AI驱动的3D视频通信平台。基于先进的AI技术和3D成像,将2D视频流转换为逼真的3D效果,让远程通话更自然、更直观。用户能像面对面一样进行眼神交流和读懂细微表情,增强沟通效果。Google Beam支持实时语音翻译,打破语言障碍,让全球用户无缝交流。平台基于Google Cloud的强大支持,具备企业级可靠性,支持无缝集成到现有工作流程中。 Google Be
通义万相AI视频是阿里推出的一款完全免费的AI视频生成工具,支持文生视频和图生视频两种方式,可以根据用户提供的文字提示词或图片,自动创作出具有影视级画面质感的高清视频(最长6秒)。通义万相AI视频支持多种艺术风格,包括但不限于古风、科幻、动画等,并且特别优化了对中式元素的理解和表现。通义万相AI视频能处理多语言输入,支持“灵感扩写”功能,一键帮用户完善提示词,还自带“音频生成”功能,视频生成自带音
3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术,将输入图像分解为重叠区域,基于预训练的3D对象生成器分别生成每个区域的3D内容,基于掩码修正流修复过程填补缺失的几何结构,同时保持结构连续性。3DTown 支持生成具有高几何质量和纹理保真度的连贯3D场景,在多种风格的场景生成中表现出色,优于现有的先进方法。
有言是由魔珐科技推出的一个一站式AIGC视频创作和3D数字人生成平台,通过提供海量超写实3D虚拟人角色,帮助用户无需真人出镜即可制作视频。该平台基于魔珐自研的AIGC技术,支持用户输入文字快速生成3D内容,并提供自定义编辑、字幕、动效、背景音乐等后期包装功能,简化视频制作流程,让创作变得高效而有趣。 有言的主要功能 一站式服务:有言整合了从内容生成到后期制作的全套流程,为用户提供了从开始到
Cartwheel 是 AI 3D 动画生成平台,基于文本到动画(Text-to-Motion)技术,让用户仅需输入文本描述,快速生成高质量的 3D 角色动画。平台结合深度学习模型与传统动画技术,支持动作捕捉、自动化运动合成,与主流 3D 软件无缝集成。Cartwheel 的目标是简化 3D 动画制作流程,帮助动画师和艺术家节省时间,专注于创造性工作。 Cartwheel的主要功能 文本驱
TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流(Rectified Flow, RF)模型的高保真 3D 形状合成技术, 通过大规模修正流变换器架构、混合监督训练策略以及高质量数据集,实现了从单张输入图像到高保真 3D 网格模型的生成。TripoSG 在多个基准测试中表现出色,生成的 3D 模型具有更高的细节和更好的输入条件对齐。 TripoSG的主要功能
只显示前20页数据,更多请搜索
Showing 289 to 302 of 302 results