强化学习 - 梅斯AI导航站

minimind

此开源项目旨在完全从0开始，仅用3块钱成本 + 2小时！即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量，最小版本体积是 GPT-3 的 1/7000，力求做到最普通的个人GPU也可快速训练。项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调，直接偏好强化学习(DPO

SkyReels

skyreels-极速短视频制作软件,智能AI技术,文字转短视频,一键生成小说推文视频,逼真视频.自媒体及个人可以高效快速智能的制作生动有趣的短视频作品，号称能连续生成长视频。昆仑万维SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型，其通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-

UI-TARS

UI-TARS-1.5 是一款基于强大的视觉语言模型构建的开源多模态代理，能够在虚拟世界中高效地执行各种任务。 UI-TARS-1.5 这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。 UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS，通过强化学习进一步增强了模型的高阶推理能力，使模型能够在“行动”前先进行“思考”。该版本

xiaomi mimo

在本研究中，我们推出了 MiMo-7B 系列模型，这一系列模型从零开始训练，专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明，我们的模型拥有非凡的推理潜力，甚至超越了规模更大的 32B 模型。此外，我们还对冷启动的 SFT 模型进行了强化学习训练，最终形成了 MiMo-7B-RL，它在数学和代码推理任务上均表现出色，性能堪比 OpenAI o1-mini。我们开

DeepSeek-Prover

我们在 Lean 4 中引入了 DeepSeek-Prover-V2，这是一个专为形式化定理证明而设计的开源大型语言模型，其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链，并结合 DeepSeek-V3 的逐步推理，为强化学习创建初始冷启动。这一过程使我们能够将非

ZeroSearch

阿里巴巴昨日在 Github 等平台开源了 ZeroSearch 大模型搜索引擎。这是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。 ZeroSearch 主要利用了大模型在大规模预训练过程中积累的丰富知识，将其转化为一个检索模块，能够根据搜索查询生成相关内容。同时，还可以动态控制生成内容的质量，这是传统搜索引擎所不具备的特殊功能。研究人员在 NQ、TriviaQA、Pop

Hunyuan Image

腾讯混元图像2.0模型（Hunyuan Image2.0），AI图像生成进入“毫秒级”时代。模型主要有两大特点：实时生图、超写实画质。（👇https://hunyuan.tencent.com/）速度快相比前代模型，腾讯混元图像2.0模型参数量提升了一个数量级，得益于超高压缩倍率的图像编解码器以及全新扩散架构，其生图速度显著快于行业领先模型，在同类商业产品每张图推理速度需要5到

KuaiMod

KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架，能高效识别和过滤有害及低质量内容。框架借鉴普通法（Common Law）体系，基于案例驱动的方式动态更新审核策略，快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型（VLM）和链式推理（Chain-of-Thought,中 CoT）技术，基于用户反馈进行强化学习，实现精准的内容判别。KuaiMod 离线测试准确率高

WebThinker

WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型（LRMs）在推理过程中自主进行网络搜索、网页导航和报告撰写。WebThinker基于深度网页探索器和自主思考、搜索、写作策略，让LRMs能动态获取信息，实时生成高质量研究报告。WebThinker基于强化学习的训练策略进一步优化工具使用效率。WebThinke

Isomorphic Labs

药物研发合作：礼来公司和诺华公司近期成果：与谷歌DeepMind联合开发AlphaFold3 近期新闻：扩大与诺华的小分子药物发现协议范围作为著名人工智能研究实验室 Google Deepmind 的姊妹公司，Isomorphic Labs 致力于开发深度学习、强化学习、主动学习、表征学习等领域的尖端计算技术，以解决药物研发中最棘手的一些挑战，以及当今生物、化学和医学研究中一

ProteinQure

专长：肽类药物的人工智能和量子计算。ProteinQure 应用量子计算设计肽类疗法，专注于免疫肿瘤学和代谢疾病。他们的人工智能工具能够提高肽类药物的稳定性和疗效，从而解决药物研发中的关键挑战。 ProteinQure成立于2017年，总部位于多伦多，将量子计算、强化学习和原子模拟相结合，设计新型蛋白质药物。利用这些混合技术，他们模拟了蛋白质折叠等基本过程，以及生物分子之间相互作用的基础物理学。

Codex

Codex 是一款支持并行处理多个任务的云端编程 Agent，能够提供如编程功能、回答代码库的问题、修复错误等功能。 Codex 基于 codex-1 模型驱动，OpenAI 方面表示这一模型由 o3 模型针对编程进行优化而得来。codex-1 通过强化学习在各种环境中，对现实世界的编码任务进行训练，从而能够生成接近人类风格和 PR 偏好的代码。在 OpenAI 自己的代码评估和内部

Cosmos-Reason1

英纬达发布了其最新的 Cosmos-Reason1系列模型，旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展，如何将这些能力扩展到物理环境中成为了一大挑战。物理 AI（Physical AI）不同于传统的人工智能，它依赖于视频等感官输入，并结合现实物理法则来生成反应。物理 AI 的应用领域包括机器人和自动驾驶车辆等，需要具备常识推理能

天工超级智能体Skywork Super Agents

昆仑万维面向全球市场，同步发布天工超级智能体（Skywork Super Agents）。这款产品采用了AI agent架构和deep research技术，能够一站式生成文档、PPT、表格（excel）、网页、播客和音视频多模态内容。它具有强大的deep research能力，在GAIA榜单上排名全球第一，超过了OpenAI Deep Research和Manus。天工超级智能体（Skywo

Devstral

Devstral是Mistral AI和All Hands AI推出的专为软件工程任务设计的编程专用模型。Devstral在解决真实世界软件问题上表现出色，在SWE-Bench Verified基准测试中，得分46.8%大幅领先其他开源模型。Devstral支持处理复杂代码库中的上下文关系、识别组件间联系及发现细微的代码错误。Devstral轻量级，能在单个RTX 4090或32GB内存的Mac上

MMaDA

MMaDA（Multimodal Large Diffusion Language Models）是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构，具备模态不可知的设计，消除对特定模态组件的需求，引入混合长链推理（CoT）微调策略，统一跨模态的CoT格式，推出UniGRPO，针对扩散基础模型的统

DMind

DMind是DMind研究机构发布的专为Web3领域优化的大型语言模型。针对区块链、去中心化金融和智能合约等场景深度优化，使用Web3数据微调采用RLHF技术对齐。DMind在Web3专项基准测试中表现优异，性能远超一线通用模型，推理成本仅为主流大模型的十分之一。包含DMind-1和DMind-1-mini两个版本，前者适合复杂指令和多轮对话，后者轻量级，响应快、延迟低，适合代理部署和链上工具。

Operator

Operator是OpenAI推出的首款AI智能体。能像人类一样操作网页浏览器的AI工具，可以自动完成各种在线任务，如预订餐厅、购买机票、填写表单等。Operator基于Computer-Using Agent（CUA）的新模型驱动，模型结合了GPT-4o的视觉能力和强化学习的高级推理能力。通过屏幕截图“观察”网页，使用虚拟鼠标和键盘进行操作。Operator目前处于研究预览阶段，仅对美国的Cha

Pixel Reasoner

视觉语言模型（VLM），基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作，如放大图像区域或选择视频帧，更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法，基于指令调优让模型熟悉视觉操作，用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩，显著提升视觉密集型任务的性能。 Pixel R

Qlib

Qlib 是一个开源的、面向 AI 的量化投资平台，旨在利用 AI 技术挖掘量化投资的潜力，赋能研究，创造价值，涵盖从探索想法到落地生产的全过程。Qlib 支持多种机器学习建模范式，包括监督学习、市场动态建模和强化学习。越来越多不同范式的 SOTA Quant 研究成果/论文正在 Qlib 中发布，以协作解决量化投资领域的关键挑战。例如，1）使用监督学习从丰富且异构的金融数据中挖掘市场复杂的非

QwenLong-L1

QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的，基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升在长文本场景下的推理能力。模型在多个长文本文档问答（DocQA）基准测试中表现优异，平均准确率达到了70.7%，超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型，且与Cla

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于超过200万小时的音频数据训练，支持13种语言。采用双自回归（Dual-AR）架构和强化学习与人类反馈（RLHF）技术，生成的声音高度自然、流畅，几乎与人类配音无异。模型支持超过50种情感和语调标记，用户可通过自然语言指令灵活调整语音表达。OpenAudio S1支持零样本和少样本语音克隆，仅需10到30秒的音频样本

Kimi-Dev

Kimi-Dev是Moonshot AI推出的开源代码模型，专为软件工程任务设计。模型拥有 72B 参数量，编程水平比最新的DeepSeek-R1还强，和闭源模型比较也表现优异。在 SWE-bench Verified数据集上达到60.4%的性能，超越其他开源模型，成为当前开源模型中的SOTA。Kimi-Dev 基于强化学习和自我博弈机制，能高效修复代码错误、编写测试代码。模型基于MIT协议开源，

MiniMax-M1

MiniMax-M1是MiniMax团队最新推出的开源推理模型，基于混合专家架构（MoE）与闪电注意力机制（lightning attention）相结合，总参数量达 4560 亿，每个token激活 459 亿参数。模型超过国内的闭源模型，接近海外的最领先模型，具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度，提供40 和80K两种推理预算版本，适合处理长输入

搜索结果