关键词 "VR" 的搜索结果, 共 20 条, 只显示前 480 条
Application mobile e-commerce avec système de paiement mobile money et gestion des livraisons
A Model Context Protocol (MCP) server for interacting with the Louvre museum's collection
RWKV开源发布了 RWKV7-G1 1.5B 推理模型(Reasoning Model)。模型基于 World v3.5 数据集训练,包含更多小说、网页、数学、代码和 reasoning 数据,总数据为 5.16T tokens。其具备其它同尺寸模型不具备的推理能力和任务能力,同时还支持现实世界 100+ 种语言。 在实际测试中,RWKV7-G1 1.5B 模型的推理逻辑性较强,能够完成有难度的
Nexus-Gen:图像理解、生成和编辑的统一模型,开源届的GPT-4o平替 待办事项 发布训练和推理代码。 发布模型检查点。 发布技术报告。 发布训练数据集。 什么是Nexus-Gen Nexus-Gen 是一个统一模型,它将 LLM 的语言推理能力与扩散模型的图像合成能力协同起来。为了对齐 LLM 和扩散模型的嵌入
Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3
DreamFit是什么 DreamFit是字节跳动团队联合清华大学深圳国际研究生院、中山大学深圳校区推出的虚拟试衣框架,专门用在轻量级服装为中心的人类图像生成。框架能显著减少模型复杂度和训练成本,基于优化文本提示和特征融合,提高生成图像的质量和一致性。DreamFit能泛化到各种服装、风格和提示指令,生成高质量的人物图像。DreamFit支持与社区控制插件的无缝集成,降低使用门槛。 Dre
IFAdapter是一种新型的文本到图像生成模型,由腾讯和新加坡国立大学共同推出。提升生成含有多个实例的图像时的位置和特征准确性。传统模型在处理多实例图像时常常面临定位和特征准确性的挑战,IFAdapter通过引入两个关键组件外观标记(Appearance Tokens)和实例语义图(Instance Semantic Map)解决问题。外观标记用于捕获描述中的详细特征信息,实例语义图则将特征与特
BILIVE 是基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站,综合多种模态模型,兼容超低配置机器,无需 GPU 即可运行,适合个人用户和小型服务器使用。 1. Introduction Have you notice
AnimeGamer 是基于多模态大型语言模型(MLLM)构建的,可以生成动态动画镜头和角色状态更新,为用户提供无尽的动漫生活体验。它允许用户通过开放式语言指令与动漫角色互动,创建独特的冒险故事。该产品的主要优点包括:动态生成与角色交互的动画,能够在不同动漫之间创建交互,丰富的游戏状态预测等。 快速入门 🔮 环境设置 要设置推理环境,您
HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基于精准的表情编码器减少追踪误差,提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性,结合物理渲染模型,实现真实的重光照效果。HRAvatar在多个指标上优于现有方法,支持实时渲染(约155 FPS),为数
VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力。在多个基准测试中,VRAG-RL显著优于现有方法,展现在视
VTable: 不只是高性能的多维数据分析表格,更是行列间创作的方格艺术家!免费,开源,基于Canvas 的 百万数据秒级渲染前端表格组件库 VTable是字节跳动开源可视化解决方案 VisActor 的组件之一。 在现代应用程序中,表格组件是不可或缺的一部分,它们能够快速展示大量数据,并提供良好的可视化效果和交互体验。VTable是一款基于可视化渲染引擎VRender的高性能表格组件库,为用
AIRI 是开源的 AI 虚拟角色灵魂项目,能让用户拥有可互动的数字伴侣。AIRI 支持 Web、macOS 和 Windows 平台,具备多模态交互能力,包括聊天、玩游戏(如《我的世界》《异星工厂》)等。桌面版能独立运行,不干扰其他工作,支持 VRM 和 Live2D 模型,具备自动眨眼、视线追踪等动画效果。AIRI 支持语音交互,能接入多种大语言模型和语音服务。AIRI的官网地址官网地址:ht
Seed GR-3 是字节跳动 Seed 团队推出的通用机器人模型,具备高泛化能力、长程任务处理能力和柔性物体操作能力。Seed GR-3融合视觉 – 语言 – 动作信息的“大脑”、三合一数据训练法(机器人数据、VR 人类轨迹数据、公开图文数据)及定制的灵活“身体”ByteMini,实现对新物体、新环境和复杂指令的理解与执行。GR-3 在长序列任务、双臂协同操作和柔性物体操作中表现出色,是迈向通用
探索空间智能前沿的最新进展,并创建持久、可导航且可控制的 3D 世界。此外,还将在Marble.worldlabs.ai上推出 Marble 模型的有限访问 Beta 预览版,用户可以在此查看和创建 3D 世界。给定一个图像或文本提示,我们的模型就能生成一个 3D 世界,让你可以随心所欲地探索——没有时间限制、没有变形、没有不一致性。与我们之前的结果相比,我们生成的世界更大、风格更加多样,并且拥有
YuLan-OneSim(玉兰-万象)是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型(LLM)Agents 模拟人类社会行为,无需编程构建模拟场景,基于自然语言交互生成代码。YuLan-OneSim提供50多个涵盖8个主要社会科学领域的默认场景,支持高达10万Agents的大规模模拟,基于外部反馈自动优化LLM。YuLan-OneSim具备AI社会研究者功
LatticeWorld 是一个开创性的多模态 3D 世界生成框架,由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5(UE5)相结合,能通过简单的文本描述和视觉指令,快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。与传统手工创作相比,LatticeWorld 的效率提升超过 90 倍,且
WonderPlay:WonderPlay 是由斯坦福大学和犹他大学共同推出的一款创新型框架,它能将一张静态图片和用户自定义的动作,转化为一个动态的 3D 场景。该框架的核心在于其独特的物理模拟与视频生成闭环技术。它首先利用物理求解器模拟粗略的 3D 动态,然后驱动视频生成器合成更逼真的视频,最后用生成的视频来更新 3D 场景。这种“模拟与生成”的循环,确保了最终效果既符合物理规律,又具备极高的视
Shedevrum 是由俄罗斯搜索引擎 Yandex 推出的一款 AI 智能图片生成工具。您只需输入简单的描述性文本,例如“海边的日落”,该工具就能基于其强大的神经网络技术生成相应的图像,甚至可以模仿不同艺术家的风格进行创作。除了静态图像,Shedevrum 还能生成视频内容。目前,免费版每天可生成 50 张图像,而安装应用程序后即可享受无限制生成。该工具支持俄语和英语输入,旨在为创作者提供一个强
# Framepack AI:革命性的AI视频生成模型Framepack AI是一种突破性的神经网络结构,用于AI视频生成。它采用创新的“下一帧预测”技术,并结合独特的固定长度上下文压缩机制,使用户能够生成高质量、高帧率(30fps)的视频,长度可达120秒,且硬件门槛极低(仅需配备6GB VRAM的消费级NVIDIA GPU)。## Framepack AI的独特之处是什么?Framepack
只显示前20页数据,更多请搜索
Showing 49 to 68 of 68 results