rStar2-Agent-强大的主动式强化学习推理模型

rStar2-Agent-强大的主动式强化学习推理模型

访问网站


微软研究院的一个研究团队探索了使用主动式强化学习(agentic reinforcement learning)来实现这一目标,也就是说,模型会与专用工具环境中的工具进行交互,并根据收到的反馈调整其推理方式。

而他们的探索成果便是 rStar2-Agent,这是一种强大的主动式强化学习方法。使用该方法,这个微软团队训练了一个 14B 的推理模型 rStar2-Agent-14B—— 该模型达到前沿级别的性能,媲美甚至超越了 671B 的 DeepSeek-R1!

•论文标题:rStar2-Agent: Agentic Reasoning Technical Report

•论文地址:https://arxiv.org/pdf/2508.20722

•代码地址:https://github.com/microsoft/rStar