QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的,基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略,显著提升在长文本场景下的推理能力。模型在多个长文本文档问答(DocQA)基准测试中表现优异,平均准确率达到了70.7%,超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型,且与Claude-3.7-Sonnet-Thinking相当。QwenLong-L1-32B能处理复杂的多跳推理、逻辑推理和数学推理问题,适用于法律、金融、科研等多个领域,展现强大的长文本处理和推理能力。
QwenLong-L1-32B的主要功能
- 长文本推理:处理复杂的长文本任务,如多跳推理、逻辑推理和数学推理。
- 稳定训练:基于课程引导的强化学习和难度感知的回顾性采样,确保训练过程稳定。
- 混合奖励:结合基于规则和基于模型的奖励,平衡精确性和召回率。
- 广泛适用性:适用于多种实际应用场景,如法律文档分析、财务报告解读、科研论文阅读等。
- 高性能表现:在多个长文本文档问答(DocQA)基准测试中,表现优于现有的旗舰模型,如OpenAI-o3-mini和Qwen3-235B-A22B。
QwenLong-L1-32B的项目地址
- GitHub仓库:https://github.com/Tongyi-Zhiwen/QwenLong-L1
- HuggingFace模型库:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B
- arXiv技术论文:https://arxiv.org/pdf/2505.17667