3D 世界 - 梅斯AI导航站

Genie Envisioner

智元机器人推出行业首个机器人世界模型开源平台Genie Envisioner（GE）。GE基于约3000小时真实机器人操控视频数据，整合未来帧预测、策略学习与仿真评估，形成闭环架构，使机器人实现从“看”到“想”再到“动”的端到端推理与执行。链接： Project page：https://genie-envisioner.github.io/ Arxiv：https://a

Baichuan-M2

Baichuan-M2在HealthBench上得到60.1的高分，以32B的较小尺寸不仅反超OpenAI 最新开源模型gpt-oss120b（得分57.6），更是力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型。针对医疗领域用户隐私考虑下的模型私有化部署需求，我们对Baichuan-M2进行了极致轻量化，量化后的模型精度接近无损，可以在RTX409

AIRI

AIRI 是开源的 AI 虚拟角色灵魂项目，能让用户拥有可互动的数字伴侣。AIRI 支持 Web、macOS 和 Windows 平台，具备多模态交互能力，包括聊天、玩游戏（如《我的世界》《异星工厂》）等。桌面版能独立运行，不干扰其他工作，支持 VRM 和 Live2D 模型，具备自动眨眼、视线追踪等动画效果。AIRI 支持语音交互，能接入多种大语言模型和语音服务。AIRI的官网地址官网地址：ht

Draw A Fish

Draw A Fish 是独特的线上AI画鱼网站，用户可以用鼠标随意画一条鱼，点击“放生”后，这条鱼会进入一个全球共享的虚拟鱼缸，与来自世界各地的鱼一起游动。网站无需注册，操作简单，只需几秒钟就能完成创作并分享。网站界面简洁，提供七种颜色供选择，用户可以轻松绘制出各种奇形怪状的鱼。完成作品后，用户可以在“最新”“热门”或“随机”模式下浏览其他用户的创作，为其点赞。用户可以为自己的鱼创建“个人鱼缸”

Youtu-agent – 腾讯优图推出的开源智能体框架

Youtu-agent 是腾讯优图实验室推出的开源智能体框架，用在构建、运行和评估自主智能体。框架基于开源模型DeepSeek-V3实现领先性能，支持多种模型 API 和工具集成，具备强大的智能体能力，如数据分析、文件处理和深度研究。框架用灵活的架构设计，支持 YAML 配置和自动智能体生成，简化开发流程。Youtu-agent 在 WebWalkerQA 和 GAIA 基准测试中表现出色，适用智

Seed GR-3 – 字节跳动推出通用机器人模型

Seed GR-3 是字节跳动 Seed 团队推出的通用机器人模型，具备高泛化能力、长程任务处理能力和柔性物体操作能力。Seed GR-3融合视觉 – 语言 – 动作信息的“大脑”、三合一数据训练法（机器人数据、VR 人类轨迹数据、公开图文数据）及定制的灵活“身体”ByteMini，实现对新物体、新环境和复杂指令的理解与执行。GR-3 在长序列任务、双臂协同操作和柔性物体操作中表现出色，是迈向通用

AiTmed-医疗助手

AiTmed使命是通过简化行政管理任务来革新医疗保健，这些任务往往会使医护人员无法专注于真正重要的工作——患者护理。我们相信，医护人员应该拥有完全的自由，能够专注于患者，而不受文档和行政管理任务的束缚。通过利用先进技术，AiTmed 致力于帮助医护人员将全部精力投入到患者身上，最大限度地减少文书工作时间，最大限度地提高护理时间。 Gary Chen 博士是世界知名的手部和骨科外科医生，AiTme

QuarkMed

阿里巴巴正式发布其医疗大模型QuarkMed，它在一项模拟中国执业医师资格考试的测试中，取得了70%的惊人准确率，性能超越一众顶尖模型。其成功的秘诀并非单一技术突破，而是一套严谨的组合拳：世界级的数据工程 (1T tokens的权威分级数据) 与独创的“四段式”训练心法，系统性地将通用AI锻造成领域专家。更重要的是，该项目为行业揭示了两条关于AI可靠性的黄金法则：• 法则一：在高风险领域，RAG（

Seedream-完美支持中文的强大图像生成模型

字节跳动开源的图像生成大模型，目前是第4版Seedream 4, 这是字节跳动最新发布的豆包图像创作模型。该模型集成了文生图、图像编辑、多图融合、组图生成等多种能力，最高支持4K分辨率图像生成主要亮点多模态玩法拓展：灵活支持文本、图像的组合输入，允许文生图、图生图、图像编辑、多图编辑、组图生成等创作模式，玩法创意多样。风格化美感提升：支持高度自由的艺术风格迁移，从巴洛克到赛博朋克风，风格百变，更可

ST-Raptor--开源表格问答工具

上海交通大学等开源了一款半结构化表格问答工具：ST-Raptor，无需微调，准确率超GPT-4o 做文档智能、财务审核、报表自动化、医疗质控、法律合规的可以看看它通过视觉理解、结构化解析以及语言推理，来解决复杂、不规则表格的问答问题也就是说可以用它对Excel报表、网站上的表格以及Markdown、csv文件进行问答，比如学术表、财务报表 ST-Raptor先用VLM识别表格整体和单元格内容，

Marble--李飞飞创立的空间智能模型

探索空间智能前沿的最新进展，并创建持久、可导航且可控制的 3D 世界。此外，还将在Marble.worldlabs.ai上推出 Marble 模型的有限访问 Beta 预览版，用户可以在此查看和创建 3D 世界。给定一个图像或文本提示，我们的模型就能生成一个 3D 世界，让你可以随心所欲地探索——没有时间限制、没有变形、没有不一致性。与我们之前的结果相比，我们生成的世界更大、风格更加多样，并且拥有

UnifoLM-WMA-0

项目主页：https://unigen-x.github.io/unifolm-world-model-action.github.io/开源代码网址：https://github.com/unitreerobotics/unifolm-world-model-action

GPT-5-Codex – OpenAI推出的Agent编程优化模型

GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型，基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务，如从零搭建项目、代码重构、调试、测试和代码审查等。模型能根据任务复杂度动态调整思考时间，简单任务秒回，复杂任务深度思考，支持独立完成长达 7 小时的复杂任务。模型代码审查能力出色，能精准发现关键缺陷，减少无效评论。GPT-5-Codex 支持多模态输入，能在云端查看图

Evoker – 一站式AI创作平台，支持文本、图像和视频生成

Evoker 是一站式 AI 创作平台，激发创意灵感并加速创作过程。支持文本、图像和视频生成，提供多模态创作体验。用户可以在一个聊天框中轻松创作和完善作品，平台提供灵感市场，帮助用户发现新想法和创意触发点。Evoker 集成了多种先进的 AI 模型和工具，支持多模型共享上下文，使创作过程更加连贯。提供 Figma 插件，让用户在熟悉的工作环境中完成设计咨询或创作。Evoker的主要功能多模态创作：

YuLan-OneSim – 玉兰-万象，人大高瓴AI团队推出的社会模拟器

YuLan-OneSim（玉兰-万象）是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型（LLM）Agents 模拟人类社会行为，无需编程构建模拟场景，基于自然语言交互生成代码。YuLan-OneSim提供50多个涵盖8个主要社会科学领域的默认场景，支持高达10万Agents的大规模模拟，基于外部反馈自动优化LLM。YuLan-OneSim具备AI社会研究者功

AI Quests – 谷歌联合斯坦福大学推出的AI教育工具

AI Quests 是谷歌研究团队与斯坦福学习加速器联合推出的游戏化教育工具，通过沉浸式冒险活动，让11至14岁的学生学习人工智能（AI）及在现实世界中的应用。学生将扮演谷歌研究人员的角色，解决与气候、健康和科学相关的问题。首个任务是洪水预测，未来将有糖尿病视网膜病变检测和大脑映射等任务。每个任务配有课程计划、教师指南和真实研究人员的视频信息，帮助学生理解AI的实际应用。AI Quests主要功能

CWM – Meta开源的代码世界模型

CWM（Code World Model）是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域，让模型能够通过模拟代码执行过程，更深层次地理解和生成代码，而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色，例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开，旨在推动代码生成和理解领域的研究，并帮助开发者更高效地

Lessie AI – 全球首个网红搜索AI智能体

Lessie AI 号称是全球首个**“人物搜索”AI 智能体**（People Search AI Agent），致力于帮助您高效连接任何人、链接世界。这款专注于网红营销的 AI 工具目前处于免费测试阶段，每月提供 1500 次免费网红搜索额度。Lessie AI 能在短短 30 秒内，为您在 TikTok、YouTube 和 Instagram 等主流社交媒体平台上，找到 500+ 位与您的品

LatticeWorld – 开创性的多模态 3D 世界生成框架

LatticeWorld 是一个开创性的多模态 3D 世界生成框架，由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5（UE5）相结合，能通过简单的文本描述和视觉指令，快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。与传统手工创作相比，LatticeWorld 的效率提升超过 90 倍，且

GDPVAL – OpenAI开源的衡量 AI 经济价值的评估框架

GDPval 是由 OpenAI 推出的一个全新评估框架，旨在衡量 AI 模型在真实经济价值任务上的表现。该框架从对美国 GDP 贡献最大的 9 个行业中，选取了 44 种职业，设计了 1320 个贴近实际工作场景的真实任务（其中 220 个已开源）。这些任务涵盖了软件开发、法律文书、机械工程、护理计划等多个领域。每项任务都由平均拥有 14 年经验的专业人士设计和审核，确保评估结果能真实反映 AI

WonderPlay - 从单张图片生成动态 3D 世界

WonderPlay：WonderPlay 是由斯坦福大学和犹他大学共同推出的一款创新型框架，它能将一张静态图片和用户自定义的动作，转化为一个动态的 3D 场景。该框架的核心在于其独特的物理模拟与视频生成闭环技术。它首先利用物理求解器模拟粗略的 3D 动态，然后驱动视频生成器合成更逼真的视频，最后用生成的视频来更新 3D 场景。这种“模拟与生成”的循环，确保了最终效果既符合物理规律，又具备极高的视

Sketch To - AI 图像转素描转换器

Sketch To | AI 图像转素描转换器使用我们强大且免费的 AI 生成器，立即将您的照片转化为艺术品，让您的素描草图焕发生机。核心功能：1. 双重 AI 驱动：将任何照片转换为细节丰富的素描，或者反转此过程，将您的画作转变为逼真的照片级图像。2. 标准模型永久免费：获得高质量的创意转换效果，完美适用于社交媒体、创意项目和业余爱好——完全免费，永不过期。3. 专业模型升级：解锁世

bodyvisualizer - 3D人体模型

BodyVisualizer.org is a fitness - focused platform centered on body visualization, boasting advanced 3D technology. Function - wise, it offers real - time 3D body modeling for instant accurate body mo

Lynx - 一张照片就能生成逼真个人视频

lynx 是由字节跳动研发的高保真个性化视频生成模型，仅需输入一张人像照片，即可生成身份高度一致的动态视频。该模型基于扩散 transformer（dit）架构构建，并创新性地引入了 id-adapter 和 ref-adapter 两个轻量级适配模块，分别用于精准控制人物身份和精细保留面部细节。lynx 配备专用人脸编码器提取面部特征，结合 x-nemo 技术增强表情表现力，通过 lbm 算法模

搜索结果