WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行网络搜索、网页导航和报告撰写。WebThinker基于深度网页探索器和自主思考、搜索、写作策略,让LRMs能动态获取信息,实时生成高质量研究报告。WebThinker基于强化学习的训练策略进一步优化工具使用效率。WebThinker在复杂推理和报告生成任务中表现优异,显著提升LRMs在知识密集型任务中的可靠性和实用性。
WebThinker的主要功能
- 自主决策:LRM在推理过程中自主判断何时需要外部知识,何时需要更新报告。
- 深度探索:支持进行多步搜索和页面导航,深入挖掘信息。
- 动态撰写:模型能实时撰写、修改报告内容,配备专门的工具集(如写作、检查、编辑),确保报告的连贯性和完整性。
- 工具优化:优化LRM对研究工具的使用效率。
WebThinker的技术原理
- 深度网页探索器(Deep Web Explorer):赋予LRM超越传统简单搜索的能力,基于点击链接和按钮等交互元素在网页间导航,深入挖掘信息。模型自主决定搜索查询,持续探索直至收集到足够信息,返回精炼总结。
- 基于强化学习的训练策略:基于迭代式的在线直接偏好优化(DPO)训练,提升LRM对研究工具(包括搜索、导航、报告撰写工具)的利用效率。构建偏好数据集,优先选择能得出正确答案、高质量报告且工具使用更高效的推理路径。
- 运行模式:问题解决模式为LRM配备深度网页探索器,深入探索网络解决复杂问题。报告生成模式进一步赋予LRM写作、检查和编辑能力,在思考和搜索的同时,迭代式地撰写全面的研究报告。