WebSailor 是阿里通义实验室开源的网络智能体,专注于复杂信息检索与推理任务。通过创新的数据合成方法(如 SailorFog-QA)和训练技术(如拒绝采样微调和 DUPO 算法),在高难度任务中表现出色,在 BrowseComp 等评测中超越多个知名模型,登顶开源网络智能体榜单。WebSailor 的推理重构技术能高效处理复杂任务,生成简洁且精准的推理链。在复杂场景中表现出色,在简单任务中展现出强大的泛化能力。
- 完整的后训练方法使模型能够进行扩展思考和信息搜索,最终使它们能够成功完成以前被认为无法解决的极其复杂的任务。
- 推出SailorFog-QA,这是一个可扩展的 QA 基准测试,具有较高的不确定性和难度,采用新颖的数据合成方法,通过图形采样和信息混淆进行管理。SailorFog-QA 数据示例可在以下位置找到:
WebSailor/dataset/sailorfog-QA.jsonl
- 有效的训练后流程包括:(1)从专家轨迹中高质量地重建简洁推理,以进行清晰的监督;(2)一个两阶段的训练过程,涉及 RFT 冷启动阶段,然后是重复采样策略优化 (DUPO),这是一种高效的代理 RL 算法,在有效性和效率方面表现出色。
- WebSailor-72B 的表现明显优于所有开源代理和框架,同时缩小了与领先专有系统的性能差距,在 BrowseComp-en 上获得了12.0%的得分,在 BrowseComp-zh 上获得了30.1%的得分,在 GAIA 上获得了55.4% 的得分。
- 检查站很快就到了。