MMaDA

字节跳动多模态扩散模型文本推理文本到图像生成长链推理

MMaDA（Multimodal Large Diffusion Language Models）是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构，具备模态不可知的设计，消除对特定模态组件的需求，引入混合长链推理（CoT）微调策略，统一跨模态的CoT格式，推出UniGRPO，针对扩散基础模型的统一策略梯度强化学习算法，基于多样化的奖励建模，统一推理和生成任务的后训练，确保性能一致提升。MMaDA在多项任务上展现出超越现有模型的性能，为多模态AI的发展提供新的方向。

MMaDA的主要功能

文本生成：能生成高质量的文本内容，支持从简单的文本描述到复杂的推理任务。
多模态理解：理解和处理文本与图像的结合，支持对图像内容的详细描述和基于图像的问答。
文本到图像生成：根据文本描述生成相应的图像，支持从抽象概念到具体场景的生成。
复杂推理任务：支持处理数学问题、逻辑推理等复杂任务，提供详细的推理过程和准确的答案。
跨模态协同学习：基于统一的架构和训练策略，实现文本和图像模态之间的协同学习和优化。

MMaDA的技术原理

统一的扩散架构：用统一的扩散架构，基于共享的概率公式和模态不可知的设计，消除对特定模态组件的需求。模型能无缝处理文本和图像数据。在预训练阶段，模型基于掩码标记预测任务联合训练文本和图像模态。模型学习从噪声数据中恢复原始数据。
混合长链推理（Mixed Long Chain-of-Thought, CoT）微调策略：基于统一的CoT格式对齐不同任务的推理过程。CoT格式包括逐步推理轨迹和最终结果，模型能生成详细的推理过程。用多样化的推理数据进行微调，包括数学问题、逻辑推理和多模态推理任务。让模型在处理复杂任务时表现出色。
统一的策略梯度强化学习算法（UniGRPO）：UniGRPO基于多样化的奖励建模，统一推理和生成任务的后训练。奖励函数包括正确性、格式、CLIP分数等，确保模型在不同任务上都能表现出色。UniGRPO用多步去噪学习，让模型能从部分噪声数据中学习，更好地用扩散模型的多步生成能力。

MMaDA的项目地址

GitHub仓库： https://github.com/Gen-Verse/MMaDA
HuggingFace模型库： https://huggingface.co/Gen-Verse/MMaDA
arXiv技术论文： https://arxiv.org/pdf/2505.15809
在线体验： https://huggingface.co/spaces/Gen-Verse/MMaDA

MMaDA 包括一系列反映不同训练阶段的检查点：

MMaDA-8B-Base：经过预训练和指令调整。具备基本的文本生成、图像生成、图像字幕和思维能力。
MMaDA-8B-MixCoT（即将推出）：经过混合长链思维（CoT）微调。能够进行复杂的文本、多模态和图像生成推理。将于两周内发布。
MMaDA-8B-Max（即将推出）：基于UniGRPO强化学习。擅长复杂推理和出色的视觉生成。将于1个月后发布。

MMaDA 功能概述。

待办事项

发布 MMaDA-8B-MixCoT 和 MMaDA-8B-Max
发布基于OpenRLHF的UniGRPO训练代码。

⚙️ 快速入门

首先，搭建环境：

pip install -r requirements.txt

启动本地 Gradio 演示：

python app.py

或者通过我们的Huggingface Demo在线试用。

🚀 推理

对于批次级推理，我们在此提供推理脚本。

1.文本生成

对于文本生成，我们遵循LLaDA的配置和生成脚本。简单运行：

python generate.py

2. 多模态生成

对于多模式生成和文本到图像生成，首先登录您的 wandb 帐户：

wandb login

多模式生成的推理演示，您可以在 wandb 上查看结果：

python3 inference_mmu.py config=configs/mmada_demo.yaml mmu_image_root=./mmu_validation question='Please describe this image in detail.'

3. 文本到图像生成

对于多模式生成和文本到图像生成，首先登录您的 wandb 帐户：

wandb login

文本到图像生成的推理演示，您可以在 wandb 上查看结果：

python3 inference_t2i.py config=configs/mmada_demo.yaml batch_size=1 validation_prompts_file=validation_prompts/text2image_prompts.txt guidance_scale=3.5 generation_timesteps=15
mode='t2i'

rStar2-Agent-强大的主动式强化学习推理模型

<p><br></p><p style="text-align: justify;"><strong>微软研究院的一个研究团队探索了使用主动式强化学习（agentic reinforcement learning）来实现这一目标，也就是说，模型会与专用工具环境中的工具进行交互，并根据收到的反馈调整其推理方式。</strong></p><p style="text-align: justify;"><strong>而他们的探索成果便是 rStar2-Agent，这是一种强大的主动式强化学习方法。使用该方法，这个微软团队训练了一个 14B 的推理模型 rStar2-Agent-14B—— 该模型达到前沿级别的性能，媲美甚至超越了 671B 的 DeepSeek-R1！</strong></p><p style="text-align: justify;"><img src="https://img.medsci.cn/aisite/img/171dbe93eb801be10faf26f167cd9668.png" alt="" data-href="" style=""> </p><p>•论文标题：rStar2-Agent: Agentic Reasoning Technical Report</p><p>•论文地址：https://arxiv.org/pdf/2508.20722</p><p>•代码地址：https://github.com/microsoft/rStar</p>

GPT-5

<p>GPT-5 是 OpenAI 最新推出的人工智能模型，是目前最强模型，面向所有用户开放。GPT-5是一个统一系统，包括一个基础模型用在解答常见问题，一个深度推理模型（GPT-5 思维模块）用在处理复杂难题，一个实时路由模块根据对话类型、问题复杂度、工具需求和用户指令（如“仔细思考”）智能调度模型。GPT-5 在编程、写作、数学、健康等多个领域表现出色，大幅减少幻觉和错误，回答更贴近真实情况。GPT-5 支持多模态输入，能处理图像和文本。GPT-5 提供免费、Plus 和 Pro 三种模式，满足不同用户的需求。</p>

Le Chat

<p>研究模式可将 Le Chat 转变为一个协调的研究助手，能够规划、明确需求、搜索和综合信息。提出一个有深度的问题，它会将其分解，收集可靠的资料，并构建一个结构清晰、有参考文献支持且易于理解的报告。</p> <p>它由工具增强型深度研究 Agent 驱动，但设计得简单、透明且真正有帮助，仿佛与一个组织良好的研究伙伴合作。</p> <p>Mistral AI 也在官网展示了一些用例。深度研究模式能够追踪市场趋势、撰写商业策略书、做个人计划以及最重要的、进行学术研究。</p> <p>语音模式可以像和人聊天一样与 Le Chat 交流 —— 无需打字。你可以在散步时头脑风暴、在处理杂事时快速获取答案或转录会议内容。它由 Mistral 新的语音输入模型 Voxtral 驱动，专为自然、低延迟的语音识别而构建，能跟上用户的工作速度。</p>

EXAONE

<p>EXAONE 4.0是韩国LG AI Research推出的自研混合推理大模型。模型融合通用自然语言处理和高级推理能力，支持韩语、英语和西班牙语。模型分为32B的专业版和1.2B的端侧版，前者基于多项国家级认证考试，适用高专业领域，后者体积小、性能优，支持本地运行，适合隐私和安全要求高的场景。EXAONE 4.0在国际高难度基准测试中表现优异，如MMLU-Pro 81.8分、AIME 2025 85.3分等，展现其强大的复杂任务处理能力。</p> <h2 style="font-size: 20px;">EXAONE 4.0的主要功能</h2> <ul> <li>高级推理能力：EXAONE 4.0在科学、数学、编程等复杂任务上表现出色，支持分步思考和逻辑推理，解决高难度问题。</li> <li>多语言支持：支持韩语、英语和西班牙语，增强在全球范围内的适用性。</li> <li>函数调用与MCP接口：支持函数调用和MCP（Model Context Protocol）接口，为Agent类应用提供底层支撑，便于与其他系统集成。</li> <li>专业版与端侧版： <ul> <li>专业版（32B）：基于法律、会计、医学等六项国家级认证考试，适用高专业领域。</li> <li>端侧版（1.2B）：体积小，支持本地运行，适合对隐私和安全要求较高的场景。</li> </ul> </li> <li>教育与商业应用：支持教育机构免费使用，提供商业API服务，便于企业快速集成和应用。</li> </ul> <h2 style="font-size: 20px;">EXAONE 4.0的项目地址</h2> <ul> <li>项目官网：https://www.lgresearch.ai/blog/view?seq=575</li> <li>技术论文：https://www.lgresearch.ai/data/cdn/upload/EXAONE_4_0.pdf</li> </ul>

Qwen VLo

<p>Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级，能“看懂”世界，能基于理解进行高质量的再创造，实现了从感知到生成的跨越。能精准理解图像内容，在此基础上进行一致性和高质量的生成。用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰，模型能灵活响应并生成符合预期的结果。Qwen VLo 支持多语言指令，打破语言壁垒，为全球用户提供便捷的交互体验。具备动态分辨率训练与生成的能力，支持任意分辨率和长宽比的图像生成，适用于多种场景。</p> <ul> <li>多模型同台竞技：用户在同一界面选择多个Qwen模型进行对话和任务处理，直观比较不同模型的性能和特点，方便找到最适合特定任务的模型。</li> <li>上传文档，精准问答：支持上传多种格式文档，基于文档内容精准回答问题，极大提高从大量文档中提取特定信息的效率。</li> <li>HTML预览：回答内容支持HTML格式展示，包括文字排版、图片插入、链接添加等。</li> <li>看图说话：用户上传图片后，Qwen Chat能理解图片内容并进行描述或回答相关问题，适用于图像识别、内容创作、教育等多领域。</li> <li>类似Artifacts功能：生成代码片段、文件、图表、svg及互动式React组件等人工制品，为开发者和专业人士提供高效的工作支持。</li> </ul>

MiniMax-M1

<p>MiniMax-M1是MiniMax团队最新推出的开源推理模型，基于混合专家架构（MoE）与闪电注意力机制（lightning attention）相结合，总参数量达 4560 亿，每个token激活 459 亿参数。模型超过国内的闭源模型，接近海外的最领先模型，具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度，提供40 和80K两种推理预算版本，适合处理长输入和复杂推理任务。在基准测试中，MiniMax-M1在多个性能指标上超越DeepSeek等开源模型，在复杂软件工程、长上下文理解和工具使用等任务中表现出色。模型高效的计算能力和强大的推理能力使其成为下一代语言模型代理的强大基础。</p> <h2 style="font-size: 20px;">MiniMax-M1的主要功能</h2> <ul> <li>长上下文处理：支持100万token的输入和8万toke 的输出，适合处理长文档和复杂推理任务。</li> <li>高效推理：提供40K和80K两种推理预算版本，优化计算资源，降低推理成本。</li> <li>多领域任务优化：在数学推理、软件工程、长上下文理解和工具使用等任务中表现出色，适应多样化应用场景。</li> <li>功能调用：支持结构化功能调用，能识别、输出外部函数调用参数，便于与外部工具交互。</li> </ul> <h2 style="font-size: 20px;">MiniMax-M1的项目地址</h2> <ul> <li>官方网站： <a href="https://www.minimax.io/" target="_blank" rel="noopener">https://www.minimax.io/</a> </li> <li>GitHub仓库：<a class="external" href="https://github.com/MiniMax-AI/MiniMax-M1" target="_blank" rel="noopener nofollow">https://github.com/MiniMax-AI/MiniMax-M1</a></li> <li>HuggingFace模型库：<a class="external" href="https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094" target="_blank" rel="noopener nofollow">https://huggingface.co/collections/MiniMaxAI/minimax-m1</a></li> <li>技术论文：<a class="external" href="https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf" target="_blank" rel="noopener nofollow">https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report</a></li> </ul> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">1.模型概述</h2> <a id="user-content-1-model-overview" class="anchor" href="https://github.com/MiniMax-AI/MiniMax-M1#1-model-overview" aria-label="永久链接：1. 模型概述"></a></div> <p>我们推出了 MiniMax-M1，这是世界上第一个开放权重、大规模混合注意力推理模型。MiniMax-M1 由混合专家混合 (MoE) 架构和闪电注意力机制提供支持。该模型基于我们之前的<a href="https://huggingface.co/MiniMaxAI/MiniMax-Text-01" rel="nofollow">MiniMax-Text-01 模型</a>开发，该模型包含总共 4560 亿个参数，每个 token 激活 459 亿个参数。与 MiniMax-Text-01 一致，M1 模型原生支持 100 万个 token 的上下文长度，是 DeepSeek R1 上下文大小的 8 倍。此外，MiniMax-M1 中的闪电注意力机制可以高效扩展测试时计算 - 例如，与 DeepSeek R1 相比，M1 在 10 万个 token 的生成长度下消耗 25% 的 FLOP。这些特性使 M1 特别适合于需要处理长输入和广泛思考的复杂任务。 MiniMax-M1 使用大规模强化学习 (RL) 进行训练，其应用范围广泛，涵盖从传统数学推理到基于沙盒的真实软件工程环境等各种问题。我们为 M1 开发了一个高效的 RL 扩展框架，重点关注以下两个方面：(1) 我们提出了 CISPO，这是一种新颖的算法，它通过裁剪重要性采样权重而非标记更新来提升性能，其性能优于其他竞争性 RL 变体；(2) 我们的混合注意力机制设计能够自然地提升 RL 的效率，并利用混合架构来应对扩展 RL 时面临的独特挑战。我们分别训练了两个版本的 MiniMax-M1 模型，其思考预算分别为<a href="https://huggingface.co/MiniMaxAI/MiniMax-M1-40k" rel="nofollow">40K</a>和 <a href="https://huggingface.co/MiniMaxAI/MiniMax-M1-80k" rel="nofollow">80K</a>。在标准基准测试集上的实验表明，我们的模型优于其他强大的开放权重模型，例如原始的 DeepSeek-R1 和 Qwen3-235B，尤其是在复杂的软件工程、工具使用和长上下文任务方面。凭借对测试时计算能力的高效扩展，MiniMax-M1 为下一代语言模型智能体推理和应对真实世界挑战奠定了坚实的基础。</p> <p><a href="https://github.com/MiniMax-AI/MiniMax-M1/blob/main/figures/TextBench.png" target="_blank" rel="noopener noreferrer"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/06/18/1750271122_SKpcXzudsj.png"></a><br>领先的商业模型和开放权重模型在竞赛级数学、编码、软件工程、代理工具使用和长上下文理解任务中的基准性能比较。此处我们使用 MiniMax-M1-80k 模型来表示 MiniMax-M1。</p> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">2.评估</h2> <a id="user-content-2-evaluation" class="anchor" href="https://github.com/MiniMax-AI/MiniMax-M1#2-evaluation" aria-label="永久链接：2. 评估"></a></div> <p>MiniMax-M1 在核心基准测试中的表现。</p> <table tabindex="0"> <thead> <tr> <th align="left">类别</th> <th align="left">任务</th> <th align="center">MiniMax-M1-80K</th> <th align="center">MiniMax-M1-40K</th> <th align="center">Qwen3-235B-A22B</th> <th align="center">DeepSeek-R1-0528</th> <th align="center">DeepSeek-R1</th> <th align="center">Seed-Thinking-v1.5</th> <th align="center">克劳德4号作品</th> <th align="center">双子座 2.5 专业版 (06-05)</th> <th align="center">OpenAI-o3</th> </tr> </thead> <tbody> <tr> <td align="left"> </td> <td align="left">延伸思考</td> <td align="center">8万</td> <td align="center">4万</td> <td align="center">32千</td> <td align="center">64千</td> <td align="center">32千</td> <td align="center">32千</td> <td align="center">64千</td> <td align="center">64千</td> <td align="center">10万</td> </tr> <tr> <td align="left">数学</td> <td align="left">2024年国际微电子展览会</td> <td align="center">86.0</td> <td align="center">83.3</td> <td align="center">85.7</td> <td align="center">91.4</td> <td align="center">79.8</td> <td align="center">86.7</td> <td align="center">76.0</td> <td align="center">92.0</td> <td align="center">91.6</td> </tr> <tr> <td align="left"> </td> <td align="left">2025年国际医疗设备展览会</td> <td align="center">76.9</td> <td align="center">74.6</td> <td align="center">81.5</td> <td align="center">87.5</td> <td align="center">70.0</td> <td align="center">74.0</td> <td align="center">75.5</td> <td align="center">88.0</td> <td align="center">88.9</td> </tr> <tr> <td align="left"> </td> <td align="left">数学-500</td> <td align="center">96.8</td> <td align="center">96.0</td> <td align="center">96.2</td> <td align="center">98.0</td> <td align="center">97.3</td> <td align="center">96.7</td> <td align="center">98.2</td> <td align="center">98.8</td> <td align="center">98.1</td> </tr> <tr> <td align="left">通用编码</td> <td align="left">LiveCodeBench （8月24日至5月25日）</td> <td align="center">65.0</td> <td align="center">62.3</td> <td align="center">65.9</td> <td align="center">73.1</td> <td align="center">55.9</td> <td align="center">67.5</td> <td align="center">56.6</td> <td align="center">77.1</td> <td align="center">75.8</td> </tr> <tr> <td align="left"> </td> <td align="left">全栈基准测试</td> <td align="center">68.3</td> <td align="center">67.6</td> <td align="center">62.9</td> <td align="center">69.4</td> <td align="center">70.1</td> <td align="center">69.9</td> <td align="center">70.3</td> <td align="center">--</td> <td align="center">69.3</td> </tr> <tr> <td align="left">推理与知识</td> <td align="left">GPQA 钻石</td> <td align="center">70.0</td> <td align="center">69.2</td> <td align="center">71.1</td> <td align="center">81.0</td> <td align="center">71.5</td> <td align="center">77.3</td> <td align="center">79.6</td> <td align="center">86.4</td> <td align="center">83.3</td> </tr> <tr> <td align="left"> </td> <td align="left">HLE （无需工具）</td> <td align="center">8.4*</td> <td align="center">7.2*</td> <td align="center">7.6*</td> <td align="center">17.7*</td> <td align="center">8.6*</td> <td align="center">8.2</td> <td align="center">10.7</td> <td align="center">21.6</td> <td align="center">20.3</td> </tr> <tr> <td align="left"> </td> <td align="left">斑马逻辑</td> <td align="center">86.8</td> <td align="center">80.1</td> <td align="center">80.3</td> <td align="center">95.1</td> <td align="center">78.7</td> <td align="center">84.4</td> <td align="center">95.1</td> <td align="center">91.6</td> <td align="center">95.8</td> </tr> <tr> <td align="left"> </td> <td align="left">MMLU-Pro</td> <td align="center">81.1</td> <td align="center">80.6</td> <td align="center">83.0</td> <td align="center">85.0</td> <td align="center">84.0</td> <td align="center">87.0</td> <td align="center">85.0</td> <td align="center">86.0</td> <td align="center">85.0</td> </tr> <tr> <td align="left">软件工程</td> <td align="left">已通过 SWE-bench 验证</td> <td align="center">56.0</td> <td align="center">55.6</td> <td align="center">34.4</td> <td align="center">57.6</td> <td align="center">49.2</td> <td align="center">47.0</td> <td align="center">72.5</td> <td align="center">67.2</td> <td align="center">69.1</td> </tr> <tr> <td align="left">长上下文</td> <td align="left">OpenAI-MRCR （128k）</td> <td align="center">73.4</td> <td align="center">76.1</td> <td align="center">27.7</td> <td align="center">51.5</td> <td align="center">35.8</td> <td align="center">54.3</td> <td align="center">48.9</td> <td align="center">76.8</td> <td align="center">56.5</td> </tr> <tr> <td align="left"> </td> <td align="left">OpenAI-MRCR （1M）</td> <td align="center">56.2</td> <td align="center">58.6</td> <td align="center">--</td> <td align="center">--</td> <td align="center">--</td> <td align="center">--</td> <td align="center">--</td> <td align="center">58.8</td> <td align="center">--</td> </tr> <tr> <td align="left"> </td> <td align="left">LongBench-v2</td> <td align="center">61.5</td> <td align="center">61.0</td> <td align="center">50.1</td> <td align="center">52.1</td> <td align="center">58.3</td> <td align="center">52.5</td> <td align="center">55.6</td> <td align="center">65.0</td> <td align="center">58.8</td> </tr> <tr> <td align="left">代理工具的使用</td> <td align="left">TAU-工作台（航空公司）</td> <td align="center">62.0</td> <td align="center">60.0</td> <td align="center">34.7</td> <td align="center">53.5</td> <td align="center">--</td> <td align="center">44.0</td> <td align="center">59.6</td> <td align="center">50.0</td> <td align="center">52.0</td> </tr> <tr> <td align="left"> </td> <td align="left">TAU 工作台（零售）</td> <td align="center">63.5</td> <td align="center">67.8</td> <td align="center">58.6</td> <td align="center">63.9</td> <td align="center">--</td> <td align="center">55.7</td> <td align="center">81.4</td> <td align="center">67.0</td> <td align="center">73.9</td> </tr> <tr> <td align="left">事实性</td> <td align="left">简单问答</td> <td align="center">18.5</td> <td align="center">17.9</td> <td align="center">11.0</td> <td align="center">27.8</td> <td align="center">30.1</td> <td align="center">12.9</td> <td align="center">--</td> <td align="center">54.0</td> <td align="center">49.4</td> </tr> <tr> <td align="left">总助理</td> <td align="left">多重挑战</td> <td align="center">44.7</td> <td align="center">44.7</td> <td align="center">40.0</td> <td align="center">45.0</td> <td align="center">40.7</td> <td align="center">43.0</td> <td align="center">45.8</td> <td align="center">51.8</td> <td align="center">56.5</td> </tr> </tbody> </table> <p>* 在纯文本 HLE 子集上进行。</p> <p>我们的模型是用<code>temperature=1.0</code>、来评估的<code>top_p=0.95</code>。</p> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">SWE-bench 方法论</h3> <a id="user-content-swe-bench-methodology" class="anchor" href="https://github.com/MiniMax-AI/MiniMax-M1#swe-bench-methodology" aria-label="永久链接：SWE-bench 方法论"></a></div> <p>我们报告了基于无代理框架的结果。与原始流程不同，我们的方法采用了两阶段定位流程（不包含任何基于嵌入的检索机制）：首先进行粗粒度文件定位，然后进行针对特定文件和代码元素的细粒度定位。我们模型的值是根据在我们基础架构上运行的 n=486 个已验证任务子集计算得出的。排除的 14 个与 <code>"astropy__astropy-7606"</code>我们内部基础架构不 <code>"astropy__astropy-8707"</code>兼容的测试用例如下： <code>"astropy__astropy-8872"</code><code>"django__django-10097"</code><code>"matplotlib__matplotlib-20488"</code><code>"psf__requests-2317"</code><code>"psf__requests-2931"</code><code>"psf__requests-5414"</code><code>"pylint-dev__pylint-6528"</code><code>"pylint-dev__pylint-7277"</code><code>"sphinx-doc__sphinx-10435"</code><code>"sphinx-doc__sphinx-7985"</code><code>"sphinx-doc__sphinx-8269"</code><code>"sphinx-doc__sphinx-8475"</code></p> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">TAU-bench 方法论</h3> <a id="user-content-tau-bench-methodology" class="anchor" href="https://github.com/MiniMax-AI/MiniMax-M1#tau-bench-methodology" aria-label="永久链接：TAU-bench 方法论"></a></div> <p>我们使用 GPT-4.1 作为用户模型，不使用任何自定义工具来评估 TAU-Bench。最大交互步骤数为 40。我们的通用系统提示如下：</p> <div class="snippet-clipboard-content notranslate position-relative overflow-auto"> <pre class="notranslate"><code>- In each round, you need to carefully examine the tools provided to you to determine if any can be used. - You must adhere to all of the policies. Pay attention to the details in the terms. Solutions for most situations can be found within these policies. </code></pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> </div>

dots.llm1

<p>小红书hi lab（Humane Intelligence Lab，人文智能实验室）团队首次开源文本大模型 dots.llm1。 dots.llm1是一个中等规模的Mixture of Experts (MoE)文本大模型，在较小激活量下取得了不错的效果。该模型充分融合了团队在数据处理和模型训练效率方面的技术积累，并借鉴了社区关于 MoE 的最新开源成果。hi lab团队开源了所有模型和必要的训练信息，包括Instruct模型、长文base模型、退火阶段前后的多个base模型及超参数等内容，希望能对大模型社区有所贡献。</p> <p>模型地址：</p> <p>https://huggingface.co/rednote-hilab</p> <p>https://github.com/rednote-hilab/dots.llm1</p> <p> </p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/06/10/1749585141_kdK0LKiG3N.png"></p> <p> </p> <p>先来了解下dots.llm1的基本情况：</p> <p> </p> <ul class="list-paddingleft-2"> <li> <p>模型参数：总参数量142B、激活参数14B</p> </li> <li> <p>MoE配置：6in128 Expert、2个共享Expert</p> </li> <li> <p>预训练数据：11.2T token高质量数据，显著优于开源数据</p> </li> <li> <p>训练效率：基于Interleaved 1F1B 流水并行的AlltoAll overlap和高效Grouped GEMM的MoE训练框架</p> </li> </ul> <p> </p> <p>再来看下dots.llm1的模型效果，dots.llm1在预训练阶段一共使用了11.2T 高质量token，然后经过两阶段sft训练，得到dots.llm1 base模型和instruct模型，在综合指标上打平Qwen2.5 72B模型，具体指标对照情况如下：</p> <p> </p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/06/11/1749585142_u21K0jxI80.png"></p> <p> </p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/06/11/1749585142_Xrg6JkEWuA.png"></p> <p> </p> <p>关于dots.llm1开源，hi lab团队做到了迄今为止行业最大力度：</p> <p> </p> <ul class="list-paddingleft-1"> <li> <p>开源dots.llm1.inst模型，做到开箱即用</p> </li> </ul> <ul class="list-paddingleft-1"> <li> <p>开源一系列pretrain base模型，包括预训练过程中每经过1T tokens后所保存的checkpoint——是目前开源中间checkpoint模型中，首个参数超过千亿的大模型</p> </li> </ul> <ul class="list-paddingleft-1"> <li> <p>退火两阶段训练对应的模型checkpoint</p> </li> <li> <p>长文base模型</p> </li> <li> <p>详细介绍了lr schedule和batch size等信息，便于大家做Continue Pretraining和Supervised Fine-tuning</p> </li> <li> <p>基于Interleaved 1F1B流水并行的AlltoAll overlap优化已经提交至NVIDIA Megatron-LM社区，会在未来一段时间正式发版</p> </li> </ul>

QwenLong-L1

<p>QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的，基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升在长文本场景下的推理能力。模型在多个长文本文档问答（DocQA）基准测试中表现优异，平均准确率达到了70.7%，超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型，且与Claude-3.7-Sonnet-Thinking相当。QwenLong-L1-32B能处理复杂的多跳推理、逻辑推理和数学推理问题，适用于法律、金融、科研等多个领域，展现强大的长文本处理和推理能力。</p> <h2 style="font-size: 20px;">QwenLong-L1-32B的主要功能</h2> <ul> <li>长文本推理：处理复杂的长文本任务，如多跳推理、逻辑推理和数学推理。</li> <li>稳定训练：基于课程引导的强化学习和难度感知的回顾性采样，确保训练过程稳定。</li> <li>混合奖励：结合基于规则和基于模型的奖励，平衡精确性和召回率。</li> <li>广泛适用性：适用于多种实际应用场景，如法律文档分析、财务报告解读、科研论文阅读等。</li> <li>高性能表现：在多个长文本文档问答（DocQA）基准测试中，表现优于现有的旗舰模型，如OpenAI-o3-mini和Qwen3-235B-A22B。</li> </ul> <h2 style="font-size: 20px;">QwenLong-L1-32B的项目地址</h2> <ul> <li>GitHub仓库：<a class="external" href="https://github.com/Tongyi-Zhiwen/QwenLong-L1" target="_blank" rel="noopener nofollow">https://github.com/Tongyi-Zhiwen/QwenLong-L1</a></li> <li>HuggingFace模型库：<a class="external" href="https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B" target="_blank" rel="noopener nofollow">https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B</a></li> <li>arXiv技术论文：<a class="external" href="https://arxiv.org/pdf/2505.17667" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2505.17667</a></li> <li> </li> </ul>

Pixel Reasoner

<p>视觉语言模型（VLM），基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作，如放大图像区域或选择视频帧，更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法，基于指令调优让模型熟悉视觉操作，用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩，显著提升视觉密集型任务的性能。</p> <h2 style="font-size: 20px;">Pixel Reasoner的主要功能</h2> <ul> <li>直接视觉操作：直接对视觉输入（如图像和视频）进行操作，例如放大图像区域（zoom-in）、选择视频帧（select-frame）等，更细致地捕捉视觉细节。</li> <li>增强视觉理解：识别和理解图像中的细小物体、微妙的空间关系、嵌入的小文本及视频中的细微动作。</li> <li>多模态推理：更全面地处理复杂的视觉语言任务，如视觉问答（VQA）、视频理解等。</li> <li>自适应推理：根据任务需求自适应地决定是否使用视觉操作，在不同类型的视觉任务中实现更优的推理效果。</li> </ul> <h2 style="font-size: 20px;">Pixel Reasoner的项目地址</h2> <ul> <li>项目官网：<a class="external" href="https://tiger-ai-lab.github.io/Pixel-Reasoner/?utm_source=medsci" target="_blank" rel="noopener">https://tiger-ai-lab.github.io/Pixel-Reasoner/</a></li> <li>GitHub仓库：<a class="external" href="https://github.com/TIGER-AI-Lab/Pixel-Reasoner" target="_blank" rel="noopener nofollow">https://github.com/TIGER-AI-Lab/Pixel-Reasoner</a></li> <li>HuggingFace模型库：<a class="external" href="https://huggingface.co/collections/TIGER-Lab/pixel-reasoner-682fe96ea946d10dda60d24e" target="_blank" rel="noopener nofollow">https://huggingface.co/collections/TIGER-Lab/pixel-reasoner</a></li> <li>arXiv技术论文：<a class="external" href="https://arxiv.org/pdf/2505.15966" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2505.15966</a></li> <li>在线体验Demo：<a class="external" href="https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner" target="_blank" rel="noopener nofollow">https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner</a></li> </ul>

Gemini Diffusion

<p>Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同，基于逐步细化噪声生成输出，能快速迭代纠正错误，让Gemini Diffusion在文本生成任务中表现出色，具备快速响应、生成更连贯文本和迭代细化等能力。Gemini Diffusion性能在外部基准测试中与更大规模模型相当，速度更快。Gemini Diffusion作为实验性演示提供，用户加入等待名单获取访问权限。</p> <h2 style="font-size: 20px;">Gemini Diffusion的主要功能</h2> <ul> <li>快速响应：Gemini Diffusion能用显著高于传统模型的速度生成文本内容，极大地提高文本生成的效率。</li> <li>更连贯的文本：模型支持一次性生成整个文本块，让生成的文本在逻辑和连贯性上更接近人类的写作风格。</li> <li>迭代细化：在生成过程中，逐步纠正错误。</li> <li>强大的编辑能力：在文本编辑任务中表现出色，例如在数学和代码生成中，快速优化和修正错误。</li> <li>高效生成：在外部基准测试中，性能与更大规模的模型相当，生成速度更快，适合需要快速生成高质量文本的场景。</li> </ul> <h2 style="font-size: 20px;">Gemini Diffusion的技术原理</h2> <ul> <li>扩散模型的工作原理：扩散模型是生成模型，基于逐步去除噪声生成目标内容。与传统的自回归模型（如GPT）不同，后者是逐词生成文本，扩散模型能并行生成文本，显著提高生成速度。</li> <li>噪声细化过程：在生成过程中，模型基于多个步骤逐步减少噪声，每一步都对生成的文本进行细化和优化。逐步细化的过程让模型在生成过程中纠正错误，生成更高质量的文本。</li> <li>优化与训练：基于大量的文本数据进行训练，学习如何从噪声中生成高质量的文本。在训练过程中，模型不断优化参数，更好地理解和生成各种类型的文本内容。</li> </ul> <h2 style="font-size: 20px;">Gemini Diffusion的项目地址</h2> <ul> <li>项目官网：<a class="external" href="https://deepmind.google/models/gemini-diffusion/?utm_source=medsci" target="_blank" rel="noopener">https://deepmind.google/models/gemini-diffusion/</a></li> </ul>

NVILA

<p>NVILA是NVIDIA推出的系列视觉语言模型，能平衡效率和准确性。模型用“先扩展后压缩”策略，有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化，减少资源消耗，在多项图像和视频基准测试中达到或超越当前领先模型的准确性，包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型，及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等新功能，拓宽其在多个领域的应用潜力。</p> <p><img src="https://img.medsci.cn/aisite/img//WYi46KaJqJeee2iQHNZVUhQnRPi5OqY21fF1nk5k.png"></p> <h2 style="font-size: 20px;">NVILA的主要功能</h2> <ul> <li>高分辨率图像和长视频处理：NVILA能高效处理高分辨率图像和长视频，保持高准确性。</li> <li>效率优化：在整个生命周期中，从训练到部署，NVILA进行了系统化的效率优化。</li> <li>时间定位：支持视频中的时间定位功能。</li> <li>机器人导航：作为机器人导航的基础，实现实时部署。</li> <li>医疗多模态应用：在医疗领域整合多个专家模型，提高诊断和决策的准确性。</li> </ul> <h2 style="font-size: 20px;">NVILA的技术原理</h2> <ul> <li>“扩展-压缩”方法：先提升空间和时间分辨率，再压缩视觉令牌平衡准确性和效率。</li> <li>动态S2：适应不同长宽比的图像，提取多尺度高分辨率特征。</li> <li>FP8混合精度训练：加速模型训练，且保持准确性。</li> <li>数据集修剪：用DeltaLoss方法筛选训练数据，去除过于简单或困难的样本。</li> <li>量化技术：用W8A8和W4A16量化技术，提高模型部署的效率。</li> <li>参数高效微调：针对不同下游任务，选择性地微调模型的不同部分，减少内存需求。</li> </ul> <h2 style="font-size: 20px;">NVILA的项目地址</h2> <ul> <li>GitHub仓库：<a class="external" href="https://github.com/NVlabs/VILA" target="_blank" rel="noopener nofollow">https://github.com/NVlabs/VILA</a>（即将开源）</li> <li>HuggingFace模型库：<a class="external" href="https://huggingface.co/collections/Efficient-Large-Model/nvila-674f8163543890b35a91b428" target="_blank" rel="noopener nofollow">https://huggingface.co/collections/Efficient-Large-Model/nvila</a>(即将开源)</li> <li>arXiv技术论文：<a class="external" href="https://arxiv.org/pdf/2412.04468" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2412.04468</a></li> </ul>

BAGEL

<p>BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，其中70亿为活跃参数。采用混合变换器专家架构（MoT），通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练，使用海量多模态标记数据进行预训练，包括语言、图像、视频和网络数据。在性能方面，BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型。文本到图像生成质量与SD3相当，在图像编辑场景中也优于许多开源模型。BAGEL能进行自由形式的图像编辑、未来帧预测、三维操作和世界导航等任务。</p> <p><img src="https://img.medsci.cn/aisite/img//FIs3cV9aGm5V4DFjJR9Bc1bLGxg3CQ5wHx1m8I9R.png"></p> <h2 style="font-size: 20px;">BAGEL的主要功能</h2> <ul> <li>图像与文本融合理解：BAGEL能深入理解图像和文本之间的关系，准确地将图像内容与文本描述相结合。</li> <li>视频内容理解：BAGEL能处理视频数据，理解视频中的动态信息和语义内容。能捕捉视频的关键信息并进行有效的分析。</li> <li>文本到图像生成：用户可以通过输入文本描述来生成相应的图像。BAGEL能根据文本内容生成高质量、与描述匹配的图像。</li> <li>图像编辑与修改：BAGEL支持对现有图像进行编辑和修改。BAGEL能根据指令生成修改后的图像，实现自由形式的图像编辑。</li> <li>视频帧预测：BAGEL能预测视频中的未来帧。基于视频的前几帧，模型可以生成后续的帧内容，恢复视频的完整性。</li> <li>三维场景理解与操作：BAGEL能理解和操作三维场景。可以对三维物体进行识别、定位和操作，例如在虚拟环境中移动物体、改变物体的属性等。</li> <li>世界导航：BAGEL具备世界导航能力，可以在虚拟或现实的三维环境中进行路径规划和导航。</li> <li>跨模态检索：BAGEL能实现跨模态检索功能，例如根据文本描述检索与之匹配的图像或视频，或者根据图像内容检索相关的文本信息。</li> <li>多模态融合任务：在多模态融合任务中，BAGEL可以将来自不同模态的数据（如图像、文本、语音等）进行有效融合，生成综合的结果。</li> </ul> <h2 style="font-size: 20px;">BAGEL的技术原理</h2> <ul> <li>双编码器设计：BAGEL采用了混合变换器专家架构（MoT），架构包含两个独立的编码器。一个编码器负责处理图像的像素级特征，另一个编码器则专注于图像的语义级特征。双编码器设计使模型能同时捕捉图像的低层次细节和高层次语义信息。</li> <li>专家混合机制：在MoT架构中，每个编码器内部包含多个专家（Expert）模块。这些专家模块可以看作是小的子网络，每个专家专注于处理特定类型的特征或任务。通过在训练过程中动态选择最合适的专家组合，模型能更高效地处理复杂的多模态数据。</li> <li>标记化处理：BAGEL将输入的多模态数据（如图像、文本）转化为一系列标记（Token）。对于图像，模型会将其分割成多个小块（Patch），每个小块被视为一个标记；对于文本，每个单词或子词也被视为一个标记。</li> <li>预测任务：模型的训练目标是预测下一个标记组。在训练过程中，模型会看到一部分标记序列，尝试预测接下来的标记。</li> <li>压缩与学习：通过这种预测任务，模型能学习到多模态数据的内在结构和关系。预测下一个标记的过程迫使模型压缩和理解输入数据的关键信息，提高其对多模态数据的理解和生成能力。</li> <li>海量数据：为了训练BAGEL，字节跳动使用了来自语言、图像、视频和网络数据的数万亿个多模态标记进行预训练。数据涵盖了各种场景和领域，模型能学习到广泛的多模态特征和模式。</li> <li>优化策略：在训练过程中，BAGEL采用了先进的优化策略，如混合精度训练、分布式训练等，提高训练效率和模型性能。</li> </ul> <h2 style="font-size: 20px;">BAGEL的项目地址</h2> <ul> <li>项目官网：<a class="external" href="https://bagel-ai.org/?utm_source=medsci" target="_blank" rel="noopener">https://bagel-ai.org/</a></li> <li>Github仓库：<a class="external" href="https://github.com/bytedance-seed/BAGEL" target="_blank" rel="noopener nofollow">https://github.com/bytedance-seed/BAGEL</a></li> <li>HuggingFace模型库：<a class="external" href="https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT" target="_blank" rel="noopener nofollow">https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT</a></li> <li>arXiv技术论文：<a class="external" href="https://arxiv.org/pdf/2505.14683" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2505.14683</a></li> </ul>

FastVLM

<p>苹果 FastVLM 的模型让你的 iPhone 瞬间拥有了&ldquo;火眼金睛&rdquo;，不仅能看懂图片里的各种复杂信息，还能像个段子手一样跟你&ldquo;贫嘴&rdquo;!而且最厉害的是，它速度快到飞起，苹果官方宣称，<span class="spamTxt">首次</span>给你&ldquo;贫嘴&rdquo;的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!</p> <h2>视觉语言模型的 &ldquo;成长烦恼&rdquo;</h2> <p>现在的视觉语言模型，就像个不断进化的小天才，能同时理解图像和文本信息。它的应用可广了，从帮咱们理解图片里的内容，到辅助创作图文并茂的作品，都不在话下。一般来说，VLMs 是把预训练的视觉骨干网络提取的视觉 token，通过投影层传给预训练的大语言模型（LLM）。之前好多研究都在探索怎么训练和微调这几个组件，让模型变得更强。</p> <p><img src="https://img.medsci.cn/aisite/img//U3ew2Zxe7xpStapByEFHD6dscHiRetGuexJZM0XD.png" alt=""></p> <p>研究发现，提高图像分辨率能显著提升 VLMs 在一些任务上的表现，尤其是处理那些文字和图表丰富的图像时。你想啊，图片越清晰，模型能 &ldquo;看&rdquo; 到的细节就越多，理解起来不就更准确嘛!但这也带来了不少麻烦。一方面，很多预训练的视觉编码器不太支持高分辨率图像，强行用的话，预训练效率会变得<span class="spamTxt">超级</span>低。为了解决这个问题，有人尝试持续预训练视觉骨干网络，让它适应高分辨率;还有人把图像切成小块，像拼图一样分别处理，不过这也挺麻烦的。</p> <p>另一方面，高分辨率推理的计算成本太高了!不管是直接进行高分辨率推理，还是把图像切块后进行低分辨率推理，都会产生很大的延迟。而且高分辨率图像生成的 token 更多，这又增加了 LLM 处理这些 token 的时间，导致整个模型输出首个 token 的时间（TTFT）变长。这就好比你让一个人一下子处理太多任务，他肯定会手忙脚乱，速度变慢。</p> <h2>FastVLM 来 &ldquo;救场&rdquo;</h2> <p>面对这些难题，苹果的研究团队搞出了 FastVLM，它就像是给 VLMs 注入了一剂 &ldquo;加速药水&rdquo;，能在保证性能的同时，大幅提升运行效率。</p> <h3>架构设计:另辟蹊径的 &ldquo;智慧结晶&rdquo;</h3> <p>FastVLM 的核心是 FastViTHD 这个新型混合视觉编码器。在探索 VLM 架构时，团队发现混合视觉编码器（卷积层加上 Transformer 块）是个不错的选择。卷积层可以轻松处理不同分辨率的图像，Transformer 块则能进一步优化视觉 token，让 LLM 更好地理解。</p> <p><img src="https://img.medsci.cn/aisite/img//5ph8Q2brWEUDkUKhT6IiBW2fZfTAod56cqTxuqzV.jpg" alt="" width="1296" height="511"></p> <p>他们用的 FastViT 就是基于这种架构，经过 MobileCLIP 预训练，效果还不错。比如，在相同的 VLM 基准测试中，FastViT 生成视觉 token 的速度比 ViT 模型快4倍多，准确率也更高。</p> <p><img src="https://img.medsci.cn/aisite/img//cXCHlcPxkiCJi7WaNZa0e0G02oPpOw2y8ccUPcHa.png" alt=""></p> <p>不过，团队并没有满足于此。为了让模型在高分辨率下表现更出色，他们又设计了 FastViTHD。这个新架构在 FastViT 的基础上做了不少改进。它增加了一个额外的阶段和下采样层，让 self - attention 层处理的张量更小，这样就能减少图像编码延迟，还能为计算密集型的 LLM 解码器生成更少的 token，从而降低 TTFT。打个比方，这就像是给模型的 &ldquo;信息高速公路&rdquo; 拓宽了车道，还优化了交通规则，让信息传递得又快又稳。</p> <h3>训练与优化:精心打磨的 &ldquo;成长之路&rdquo;</h3> <p>训练 FastVLM 就像培养一个优秀的运动员，需要精心规划。研究人员采用了两阶段训练法，和 LLaVA -1.5的设置类似。<span class="spamTxt">第一</span>阶段，只训练投影仪，用的是 LLaVA -558K 对齐数据集，训练时图像分辨率和骨干网络预训练分辨率一致。第二阶段，用 LLaVA -665K 监督微调数据集，把模型的所有模块都拿来训练，这时图像分辨率就设置成目标分辨率。</p> <p><img src="https://img.medsci.cn/aisite/img//6JnSmyX3jg8v775gb17Zrlko96eqdyJvjyQc9WFk.png" alt="" width="474" height="504"></p> <p>为了让模型更好地适应不同的任务和数据集，研究人员还做了很多优化。比如，他们尝试了多尺度特征提取，把网络不同阶段的信息整合起来，让模型能更好地理解图像。就像我们看一幅画，不仅要看整体，还要关注细节，多尺度特征提取就起到了这个作用。此外，他们还对比了不同的池化策略和连接器设计，发现用深度卷积进行池化能让模型性能更优。</p> <h3>实验结果:实力碾压的 &ldquo;高光时刻&rdquo;</h3> <p>在实验环节，FastVLM 简直就是 &ldquo;学霸&rdquo;，成绩相当亮眼!研究人员在主流基准测试中对 FastVLM 进行了全面评估，包括 GQA、ScienceQA、TextVQA 等多个任务。结果显示，在和其他模型的对比中，FastVLM 优势明显。</p> <p><img src="https://img.medsci.cn/aisite/img//pBqFFoYwxq7HE7g0VA9e1pOzJd9T89Zmgthk7lH5.png" alt="" width="598" height="257"></p> <p>和基于卷积的 ConvLLaVA 相比，同样的 LLM 和相似的训练数据规模下，FastVLM 在 TextVQA 任务上性能提升了8.4%，在 DocVQA 任务上提升了12.5%，而且速度还快了22%。在高分辨率下，这种优势更加明显，FastVLM 的速度比 ConvLLaVA 快了2倍，在多个基准测试中都取得了更好的成绩。</p> <p><img src="https://img.medsci.cn/aisite/img//V2o4nzMRSJ4GMgv59TbXxK9SbngIQ6acZK4fCPVk.png" alt="" width="462" height="474"></p> <p>和其他用多个视觉编码器的模型比，FastVLM 也毫不逊色。像 Cambrian -1用了多个视觉编码器，视觉编码在总 TTFT 中占比很大，而 FastVLM 用单个编码器，不仅速度比它快7.9倍，在相似的视觉指令调优数据集训练下，性能还超过了 Cambrian -1。就算是在对视觉 token 数量很敏感的文本丰富型评估任务中，FastVLM 也能凭借更少的视觉 token 取得更好的成绩。</p> <h2>FastVLM 的优势与意义</h2> <p>FastVLM 的出现，给视觉语言模型领域带来了新的希望。它<span class="spamTxt">最大</span>的优势就是在保证模型性能的同时，大幅提升了运行效率。以前的模型在处理高分辨率图像时，要么速度慢，要么准确率低，FastVLM 很好地解决了这些问题。</p> <p>对于我们普通用户来说，这意味着以后在手机上使用相关应用时，体验会大大提升。比如用图像搜索功能，以前可能要等半天才能出结果，现在用搭载 FastVLM 的应用，瞬间就能得到答案。对于开发者来说，FastVLM 提供了一个高效的模型框架，能让他们开发出更强大、更智能的应用。</p> <p>从更宏观的角度看，FastVLM 的成功也为未来的研究指明了方向。它证明了通过优化架构和训练方法，可以在资源有限的设备上实现高性能的视觉语言模型。相信在不久的将来，会有更多基于 FastVLM 的创新应用出现，让我们的生活变得更加智能和便捷。</p> <p>论文地址：https://www.arxiv.org/pdf/2412.13303&nbsp;</p> <p>项目地址：https://github.com/apple/ml-fastvlm&nbsp;</p>

RWKV7-G1

<p>RWKV开源发布了 RWKV7-G1 1.5B 推理模型（Reasoning Model）。模型基于 World v3.5 数据集训练，包含更多小说、网页、数学、代码和 reasoning 数据，总数据为 5.16T tokens。其具备其它同尺寸模型不具备的推理能力和任务能力，同时还支持现实世界 100+ 种语言。在实际测试中，RWKV7-G1 1.5B 模型的推理逻辑性较强，能够完成有难度的多语言、数学和代码任务。该模型已上线始智AI-wisemodel开源社区</p> <header class="page-header"><img class="avatar" itemprop="image" src="https://www.rwkv.com/images/avatar.png" alt="RWKV"> <div class="title-bar"> <h2 class="header-title" itemprop="jobTitle">RWKV Language Model</h2> </div> <div class="executive-summary" itemprop="description"> <p>RWKV (pronounced RwaKuv) is an RNN with great LLM performance and parallelizable like a Transformer. We are at&nbsp;<a href="https://huggingface.co/BlinkDL/rwkv7-g1" target="_blank" rel="noopener">RWKV7-G1</a>&nbsp;"GooseOne" reasoning model.</p> <p>It's combining the best of RNN and transformer - great performance, linear time, constant space (no kv-cache), fast training, infinite ctxlen, and free text embedding. And it's 100% attention-free, and a&nbsp;<a href="https://lfaidata.foundation/projects/rwkv/" target="_blank" rel="noopener">Linux Foundation AI project</a>.</p> </div> <div><a class="contact-button" href="https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-2" target="_blank" rel="noopener">G1 1.5B Demo</a><a class="contact-button" href="https://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace" target="_blank" rel="noopener">G1 Chat 💬</a><a class="contact-button" href="https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-1" target="_blank" rel="noopener">v7 3B Demo</a></div> <a href="https://arxiv.org/abs/2503.14456" target="_blank" rel="noopener"><img itemprop="image" src="https://www.rwkv.com/images/RWKV-paper.png" alt="RWKV-7 paper"></a> <div>&nbsp;</div> </header> <section class="content-section"><header class="section-header"> <h2>RWKV-Projects</h2> </header><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/BlinkDL/RWKV-LM" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-LM</p> <p class="project-item-description">Training RWKV (and latest developments)</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/josStorer/RWKV-Runner" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-Runner</p> <p class="project-item-description">RWKV GUI with one-click install and API</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://pypi.org/project/rwkv/" target="_blank" rel="noopener"> <p class="project-item-title">RWKV pip package</p> <p class="project-item-description">Official RWKV pip package</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/JL-er/RWKV-PEFT" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-PEFT</p> <p class="project-item-description">Finetuning RWKV (9GB VRAM can finetune 7B)</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/cgisky1980/ai00_rwkv_server" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-server</p> <p class="project-item-description">Fast WebGPU inference (NVIDIA/AMD/Intel), nf4/int8/fp16</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/search?o=desc&amp;q=rwkv&amp;s=updated&amp;type=Repositories" target="_blank" rel="noopener"> <p class="project-item-title">More... (400+ RWKV projects)</p> <p class="project-item-description">&nbsp;</p> </a></section> <section class="content-section"><header class="section-header"> <h2>Misc</h2> </header><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://huggingface.co/BlinkDL" target="_blank" rel="noopener"> <p class="project-item-title">RWKV raw weights</p> <p class="project-item-description">All latest RWKV weights</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://huggingface.co/BlinkDL" target="_blank" rel="noopener"><img src="https://www.rwkv.com/images/v7-world-eval.png"></a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://huggingface.co/RWKV" target="_blank" rel="noopener"> <p class="project-item-title">RWKV weights</p> <p class="project-item-description">HuggingFace-compatible RWKV weights</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://scholar.google.com/scholar?scisbd=2&amp;q=rwkv&amp;as_sdt=0,5" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-related papers</p> <p class="project-item-description">&nbsp;</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://wiki.rwkv.com/" target="_blank" rel="noopener"> <p class="project-item-title">RWKV wiki</p> <p class="project-item-description">Community wiki</p> </a></section>

microsoft phi

phi-4是一个最先进的开放模型，它基于合成数据集、来自筛选过的公共领域网站的数据以及获取的学术书籍和问答数据集构建而成。该方法的目标是确保小型模型能够使用专注于高质量和高级推理的数据进行训练。该模型 phi-4经过了严格的增强和校准过程，结合了监督微调和直接偏好优化，以确保精确的指令遵循和强大的安全措施。 14B 参数，密集解码器专用 Transformer 模型我们的模型旨在加速语言模型的研究，并将其作为生成式人工智能功能的基石。它适用于通用人工智能系统和应用（主要针对英语），这些系统和应用需要： 1. 内存/计算受限的环境。2 . 延迟受限的场景。3 . 推理和逻辑。训练数据集我们的训练数据是用于 Phi-3 的数据的扩展，包括来自以下各种来源的数据：对公开的文档进行严格的质量筛选，选择高质量的教育数据和代码。新创建的合成“类似教科书”的数据，用于教授数学、编码、常识推理、世界常识（科学、日常活动、心理理论等）。获得学术书籍和问答数据集。高质量的聊天格式监督数据涵盖各种主题，以反映人类在遵循指示、真实性、诚实和乐于助人等不同方面的偏好。多语言数据约占我们整体数据的 8%。我们注重能够提升模型推理能力的数据质量，并筛选公开的文档，确保其包含的知识水平符合要求。基准数据集我们phi-4使用OpenAI 的 SimpleEval和我们自己的内部基准进行了评估，以了解该模型的功能，更具体地说： MMLU：用于多任务语言理解的流行聚合数据集。数学：具有挑战性的竞赛数学问题。 GPQA：复杂的、研究生水平的科学问题。 DROP：复杂的理解和推理。 MGSM：多语言小学数学。 HumanEval：功能代码生成。 SimpleQA：事实回应。

DeepSeek-Prover

我们在 Lean 4 中引入了 DeepSeek-Prover-V2，这是一个专为形式化定理证明而设计的开源大型语言模型，其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链，并结合 DeepSeek-V3 的逐步推理，为强化学习创建初始冷启动。这一过程使我们能够将非形式化和形式化的数学推理整合到一个统一的模型中。通过递归证明搜索合成冷启动推理数据为了构建冷启动数据集，我们开发了一个简单而有效的递归定理证明流程，并利用 DeepSeek-V3 作为子目标分解和形式化的统一工具。我们促使 DeepSeek-V3 将定理分解为高级证明草图，同时在 Lean 4 中将这些证明步骤形式化，从而生成一系列子目标。我们使用规模较小的 7B 模型来处理每个子目标的证明搜索，从而减轻相关的计算负担。一旦解决了一个挑战性问题的分解步骤，我们就会将完整的分步形式化证明与 DeepSeek-V3 中的相应思路配对，以创建冷启动推理数据。利用合成冷启动数据进行强化学习我们以端到端的方式整理出一组尚未被 7B 证明器模型解决的挑战性问题子集，但所有分解后的子目标都已成功解决。通过组合所有子目标的证明，我们为原始问题构建了一个完整的形式化证明。然后，我们将该证明附加到 DeepSeek-V3 的思路链中，该思路链概述了相应的引理分解，从而将非形式化推理与后续形式化过程紧密结合。在合成冷启动数据上对证明器模型进行微调后，我们执行强化学习阶段，以进一步增强其连接非形式化推理和形式化证明构造的能力。遵循推理模型的标准训练目标，我们使用二元正确或错误反馈作为奖励监督的主要形式。最终模型 DeepSeek-Prover-V2-671B 在神经定理证明方面达到了最佳性能，在 MiniF2F 测试中达到了 $88.9$% 的通过率，并在 PutnamBench 的 658 个问题中解决了 49 个。DeepSeek-Prover-V2 为 miniF2F 数据集生成的证明可以ZIP 压缩包形式下载。 3. ProverBench：AIME 和教科书问题的形式化我们推出了 ProverBench，这是一个包含 325 个问题的基准数据集。其中 15 个问题取自近期 AIME 竞赛（AIME 24 和 25）中的数论和代数问题，形式化后呈现出真实的高中竞赛水平挑战。其余 310 个问题则取自精选的教科书示例和教学教程，构成了一个丰富多样且以教学法为基础的形式化数学问题集合。该基准旨在对高中竞赛问题和本科数学进行更全面的评估。 4. 模型和数据集下载我们发布了两种模型大小的 DeepSeek-Prover-V2：7B 和 671B 参数。DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 基础上进行训练。DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建，并扩展了上下文长度，最高可达 32K 个 token。

xiaomi mimo

在本研究中，我们推出了 MiMo-7B 系列模型，这一系列模型从零开始训练，专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明，我们的模型拥有非凡的推理潜力，甚至超越了规模更大的 32B 模型。此外，我们还对冷启动的 SFT 模型进行了强化学习训练，最终形成了 MiMo-7B-RL，它在数学和代码推理任务上均表现出色，性能堪比 OpenAI o1-mini。我们开源了 MiMo-7B 系列，包括基础模型、SFT 模型、基于基础模型训练的强化学习模型以及基于 SFT 模型训练的强化学习模型的检查点。我们相信，这份报告以及这些模型将为开发强大的推理 LLM 提供宝贵的见解，造福更广泛的社区。亮点预训练：为推理而生的基础模型我们优化了数据预处理流程，增强了文本提取工具包，并应用多维数据过滤来提高预训练数据中的推理模式密度。我们还采用多种策略来生成海量多样化的合成推理数据。我们采用三阶段数据混合策略进行预训练。总体而言，MiMo-7B-Base 在约 25 万亿个 token 上进行了预训练。我们将多标记预测作为额外的训练目标，以增强模型性能并加速推理。训练后食谱：先驱推理模型我们精选了 13 万道数学和代码题作为强化学习训练数据，可供基于规则的验证器进行验证。每道题都经过仔细的清理和难度评估，以确保质量。我们仅采用基于规则的准确率奖励机制，以避免潜在的奖励黑客攻击。为了缓解高难度代码问题的稀疏奖励问题，我们引入了测试难度驱动的代码奖励机制。通过为不同难度级别的测试用例分配细粒度的分数，我们能够利用密集的奖励信号更有效地优化策略。我们针对简单问题实施数据重采样策略，以提高推出采样效率并稳定策略更新，特别是在 RL 训练的后期阶段。强化学习基础设施我们开发了无缝部署引擎 (Seamless Rollout Engine)，以加速强化学习 (RL) 的训练和验证。

QwQ

QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比，QwQ 具备思考和推理能力，在下游任务，尤其是难题中能够取得显著的性能提升。QwQ-32B 是中型推理模型，其性能足以匹敌 DeepSeek-R1、o1-mini 等最先进的推理模型。 QwQ基于Qwen2.5开发，其代码已集成到最新的Hugging界面中transformers，建议您使用最新版本的transformers。 QwQ-32B 经过一系列基准测试，旨在评估其数学推理、编码能力和通用问题解决能力。 QwQ-32B 已在 Hugging Face 和 ModelScope 开源，采用了 Apache 2.0 开源协议。大家可通过 Qwen Chat 直接进行体验！

分类导航