PDF - 梅斯AI导航站

WebSailor

WebSailor 是阿里通义实验室开源的网络智能体，专注于复杂信息检索与推理任务。通过创新的数据合成方法（如 SailorFog-QA）和训练技术（如拒绝采样微调和 DUPO 算法），在高难度任务中表现出色，在 BrowseComp 等评测中超越多个知名模型，登顶开源网络智能体榜单。WebSailor 的推理重构技术能高效处理复杂任务，生成简洁且精准的推理链。在复杂场景中表现出色，在简单任务中展

RoboBrain

RoboBrain 2.0 是强大的开源具身大脑模型，能统一感知、推理和规划，支持复杂任务的执行。RoboBrain 2.0 包含 7B（轻量级）和 32B（全规模）两个版本，基于异构架构，融合视觉编码器和语言模型，支持多图像、长视频和高分辨率视觉输入，及复杂任务指令和场景图。模型在空间理解、时间建模和长链推理方面表现出色，适用机器人操作、导航和多智能体协作等任务，助力具身智能从实验室走向真实场景

RoboOS

RoboOS 2.0 是智谱开源的跨本体大小脑协同框架，专为具身智能设计。框架支持多机器人协作，基于集成MCP协议和无服务器架构实现轻量化部署，降低开发门槛。框架包含基于云计算的大脑模块，负责高级认知与多智能体协同；分布式小脑模块群，专司机器人专项技能执行；及实时共享内存机制，强化环境态势感知能力。RoboOS 2.0 提供标准化接口，消除硬件适配差异，用技能商店实现机器人技能模块的智能匹配与一键

EXAONE

EXAONE 4.0是韩国LG AI Research推出的自研混合推理大模型。模型融合通用自然语言处理和高级推理能力，支持韩语、英语和西班牙语。模型分为32B的专业版和1.2B的端侧版，前者基于多项国家级认证考试，适用高专业领域，后者体积小、性能优，支持本地运行，适合隐私和安全要求高的场景。EXAONE 4.0在国际高难度基准测试中表现优异，如MMLU-Pro 81.8分、AIME 2025 8

Seed Diffusion

Seed Diffusion是字节跳动Seed团队推出的实验性扩散语言模型，专注于代码生成任务。模型通过两阶段扩散训练、约束顺序学习和强化高效并行解码等关键技术，实现显著的推理加速。模型的推理速度达到2146 tokens/s，比同等规模的自回归模型快5.4倍，在多个代码基准测试中表现与自回归模型相当，在代码编辑任务上超越自回归模型。Seed Diffusion展示了离散扩散模型作为下一代生成模型

Jenova

Jenova 是先进的人工智能平台，帮助用户高效地从研究到生成报告。通过集成多种强大的 AI 模型，如 GPT-4o、Claude 和 Gemini，提供更精准的搜索结果和更智能的交互体验。与传统的搜索引擎相比，Jenova 能理解复杂的查询意图，能实时联网获取最新信息，确保用户获取到的信息是最新的。Jenova 的功能丰富多样，支持文档处理、图像识别、语音转文字等多种功能。用户可以上传各种格式的

ImageBind

ImageBind是Meta公司推出的开源多模态AI模型，将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥梁，实现其他模态数据的隐式对齐，无需直接的模态间配对数据。ImageBind在跨模态检索、零样本分类等任务中展现出色的性能，为创建沉浸式、多感官的AI体验提供新的可能性。 ImageBind的项目地址项目官网：imagebind

SelectYet

SelectYet是实用的AI文献分析工具，基于先进的AI技术和“记忆摘要”技术，为研究人员提供高效便捷的文献处理服务。用户只需输入研究主题、上传PDF文献，设置自定义分析选项，可快速启动分析。工具能对海量文献进行结构化分析，快速提取关键信息，形成文献综述，加速信息筛选和整理的过程。SelectYet接入了deepseek-R1/V3模型，未来将融合更多模型的优势，提升分析的准确性和效率。 Se

LandPPT

LandPPT 是AI演示文稿生成平台，能将文档内容快速转换为专业的 PPT 演示文稿。LandPPT支持 OpenAI、Claude、Gemini 等多种 AI 模型，兼容 PDF、Word、Markdown 等文件格式，支持智能解析内容，生成结构清晰的大纲和精美的 PPT 页面。平台提供丰富的模板系统和自定义功能，用户基于现代化的 Web 界面进行可视化编辑、实时预览和多格式导出。LandPP

DreamVVT

DreamVVT 是字节跳动和清华大学（深圳）联合推出的视频虚拟试穿（Video Virtual Try-On, VVT）技术，基于扩散 Transformer（DiTs）框架，通过两阶段方法实现高保真且时间连贯的虚拟试穿效果。第一阶段从输入视频中采样关键帧，结合视觉语言模型（VLM）生成语义一致的试穿图像；第二阶段利用骨骼图和运动信息，结合预训练视频生成模型，确保视频的动态连贯性。DreamVV

Klear-Reasoner

Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型，专注于提升数学和代码推理能力。模型通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，核心创新是 GPPO算法，通过保留被裁剪的梯度信息，解决传统方法中探索能力受限和负样本收敛慢的问题，在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reas

ToonComposer

ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学研究人员共同推出的生成式 AI 工具，几秒能将草图转化成专业级动画。ToonComposer基于生成式后关键帧技术，将传统动画制作中的中间帧生成和上色环节整合为自动化过程，仅需一个草图和一个上色参考帧，能生成高质量的动画视频。工具支持稀疏草图注入和区域控制，让艺术家能准控制动画效果，大幅减少人工工作量，提高创作效率，为

Waver 1.0 – 字节跳动推出的AI视频生成模型

Waver 1.0 是字节跳动推出的新一代视频生成模型，基于修正流 Transformer 架构，支持文本到视频（T2V）、图像到视频（I2V）和文本到图像（T2I）生成，可在单一框架内完成，无需切换模型。支持高达 1080p 的分辨率和 2-10 秒的灵活视频长度，擅长捕捉复杂运动，生成的视频在运动幅度和时间一致性上表现出色。在 Waver-Bench 1.0 和 Hermes 运动测试集上，W

OmniHuman– 字节推出的数字人动画生成模型

OmniHuman-1.5 字节推出的先进的AI模型，能从单张图片和语音轨道生成富有表现力的数字人动画。模型基于双重系统认知理论，融合多模态大语言模型和扩散变换器，模拟人类的深思熟虑和直觉反应。模型能生成动态的多角色动画，支持通过文本提示进行细化，实现更精准的动画效果。OmniHuman-1.5 的动画具有复杂的角色互动和丰富的情感表现，为动画制作和数字内容创作带来全新的可能性，大大提升创作效率和

ReadyBase – AI PDF生成平台，自动布局生成个性化文档

ReadyBase 是在线 AI 驱动的PDF生成工具，将原始数据或提示快速转换为精美的 PDF 文档。用户只需输入文字、数据或图片等信息，平台会根据内容自动生成排版清晰、逻辑合理的文档，提供多种模板供选择。支持直接接入 AI 模型和研究数据库，丰富文档内容，能以 PDF、高分辨率图片等多种格式导出。可根据反馈或新数据进行调整。适用于多种场景，如销售、市场、高管汇报、客户交付和教育领域等，支持自定

Seed GR-3 – 字节跳动推出通用机器人模型

Seed GR-3 是字节跳动 Seed 团队推出的通用机器人模型，具备高泛化能力、长程任务处理能力和柔性物体操作能力。Seed GR-3融合视觉 – 语言 – 动作信息的“大脑”、三合一数据训练法（机器人数据、VR 人类轨迹数据、公开图文数据）及定制的灵活“身体”ByteMini，实现对新物体、新环境和复杂指令的理解与执行。GR-3 在长序列任务、双臂协同操作和柔性物体操作中表现出色，是迈向通用

rStar2-Agent-强大的主动式强化学习推理模型

微软研究院的一个研究团队探索了使用主动式强化学习（agentic reinforcement learning）来实现这一目标，也就是说，模型会与专用工具环境中的工具进行交互，并根据收到的反馈调整其推理方式。而他们的探索成果便是 rStar2-Agent，这是一种强大的主动式强化学习方法。使用该方法，这个微软团队训练了一个 14B 的推理模型 rStar2-Agent-14B—— 该模型达到前沿级

MarkItDown--一键把各种格式的文件转化为结构化 Markdown格式

微软开源的一个项目 MarkItDown，这么小的一个工具获得了 7w+ star。但它干的事儿特别朴素，把各种格式的文件（Word、PDF、Excel、PPT、图片、音频、HTML、JSON、甚至 zip 包）一键变成结构化 Markdown。是的，保留标题、列表、表格、链接结构的那种 Markdown。为什么我会觉得这个工具值得讲讲？因为这其实解决了一个我们常常下意识忽略的问题：在做

FunAudio-ASR-阿里巴巴推出FunAudio-ASR语音识别大模型

阿里巴巴推出FunAudio-ASR语音识别大模型，专为解决企业落地难题。模型通过创新的Context增强模块，有效优化了“幻觉”“串语种”等关键问题。在高噪声等复杂场景下，其识别准确率显著提升，幻觉率从78.5%降至10.7%。目前，FunAudio-ASR 已在钉钉的“AI听记”、视频会议、DingTalk A1硬件等多个场景中应用，验证了其在真实企业环境中的稳定性和高精度识别能力，特别是在垂

YuLan-OneSim – 玉兰-万象，人大高瓴AI团队推出的社会模拟器

YuLan-OneSim（玉兰-万象）是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型（LLM）Agents 模拟人类社会行为，无需编程构建模拟场景，基于自然语言交互生成代码。YuLan-OneSim提供50多个涵盖8个主要社会科学领域的默认场景，支持高达10万Agents的大规模模拟，基于外部反馈自动优化LLM。YuLan-OneSim具备AI社会研究者功

SimpleFold – 苹果开源的轻量级蛋白质折叠预测AI模型

SimpleFold 是苹果公司推出的轻量级蛋白质折叠预测 AI 模型。模型基于流匹配（Flow Matching）技术，跳过多序列比对（MSA）等复杂模块，直接从随机噪声生成蛋白质的三维结构，大幅降低计算成本。在 CAMEO22 和 CASP14 等权威基准测试中，SimpleFold 表现出色，无需昂贵的多序列比对和三角注意机制，能达到与顶尖模型（如 AlphaFold2、RoseTTAFol

Qianfan-VL – 百度开源的视觉理解模型

Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸，不仅具备出色的通用能力，还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型，并在百度自研的昆仑芯 P800 上完成了全流程计算任务，展现出卓越的性能和效率。核心功能多尺寸模型：提供从轻量级到大规模的三种版本，满足不同企业和开发者的需求，适用于各种场景，从端上实

LatticeWorld – 开创性的多模态 3D 世界生成框架

LatticeWorld 是一个开创性的多模态 3D 世界生成框架，由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5（UE5）相结合，能通过简单的文本描述和视觉指令，快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。与传统手工创作相比，LatticeWorld 的效率提升超过 90 倍，且

GDPVAL – OpenAI开源的衡量 AI 经济价值的评估框架

GDPval 是由 OpenAI 推出的一个全新评估框架，旨在衡量 AI 模型在真实经济价值任务上的表现。该框架从对美国 GDP 贡献最大的 9 个行业中，选取了 44 种职业，设计了 1320 个贴近实际工作场景的真实任务（其中 220 个已开源）。这些任务涵盖了软件开发、法律文书、机械工程、护理计划等多个领域。每项任务都由平均拥有 14 年经验的专业人士设计和审核，确保评估结果能真实反映 AI