关键词 "代码推理" 的搜索结果, 共 2 条, 只显示前 480 条
在本研究中,我们推出了 MiMo-7B 系列模型,这一系列模型从零开始训练,专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明,我们的模型拥有非凡的推理潜力,甚至超越了规模更大的 32B 模型。此外,我们还对冷启动的 SFT 模型进行了强化学习训练,最终形成了 MiMo-7B-RL,它在数学和代码推理任务上均表现出色,性能堪比 OpenAI o1-mini。 我们开
Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,专注于提升数学和代码推理能力。模型通过长思维链监督微调(long CoT SFT)和强化学习(RL)训练,核心创新是 GPPO算法,通过保留被裁剪的梯度信息,解决传统方法中探索能力受限和负样本收敛慢的问题,在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reas
只显示前20页数据,更多请搜索