通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程涵盖智能体持续预训练(Agentic CPT)、监督微调(SFT)和强化学习(RL),形成完整的端到端训练链路。通义 DeepResearch 已赋能阿里巴巴内部多个应用,如高德地图的 AI 原生出行 Agent 和法律领域的“通义法睿”。
通义DeepResearch的主要功能
- 长周期深度信息检索:专为复杂、长周期的信息检索任务设计,能处理多步骤的推理和规划,适用于学术研究、市场分析、政策制定等场景。
- 多模式推理支持:支持 ReAct 模式和深度模式(Heavy Mode)。ReAct 模式严格遵循“思考-行动-观察”循环,适合评估模型的核心能力;深度模式通过迭代研究范式(IterResearch)提升复杂推理能力。
- 全流程合成数据生成:采用自研的全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限,支持从预训练到微调再到强化学习的完整训练链路。
- 端到端强化学习:通过定制化的强化学习算法(如 Group Relative Policy Optimization, GRPO),确保智能体的行为与高阶目标保持一致,提升模型在动态环境中的适应性和稳定性。
- 实际应用赋能:已成功应用于阿里巴巴内部多个场景,如高德地图的 AI 原生出行 Agent 和法律领域的“通义法睿”,展现出强大的实用性和价值。
- 开源共建:项目完全开源,提供完整的代码、模型和数据,鼓励开发者参与共建,推动深度研究智能体的发展和创新。
通义DeepResearch的项目地址
- 项目官网:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
- Github仓库:https://github.com/Alibaba-NLP/DeepResearch
- HuggingFace模型库:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B