关键词 "数学推理" 的搜索结果, 共 3 条, 只显示前 480 条
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,在下游任务,尤其是难题中能够取得显著的性能提升。QwQ-32B 是中型推理模型,其性能足以匹敌 DeepSeek-R1、o1-mini 等最先进的推理模型。 QwQ基于Qwen2.5开发,其代码已集成到最新的Hugging界面中transformers,建议您使用最新版本的transformers。 Q
我们在 Lean 4 中引入了 DeepSeek-Prover-V2,这是一个专为形式化定理证明而设计的开源大型语言模型,其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链,并结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非
QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的,基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略,显著提升在长文本场景下的推理能力。模型在多个长文本文档问答(DocQA)基准测试中表现优异,平均准确率达到了70.7%,超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型,且与Cla
只显示前20页数据,更多请搜索