关键词 "proprietary dataset" 的搜索结果, 共 2 条, 只显示前 480 条
WebSailor 是阿里通义实验室开源的网络智能体,专注于复杂信息检索与推理任务。通过创新的数据合成方法(如 SailorFog-QA)和训练技术(如拒绝采样微调和 DUPO 算法),在高难度任务中表现出色,在 BrowseComp 等评测中超越多个知名模型,登顶开源网络智能体榜单。WebSailor 的推理重构技术能高效处理复杂任务,生成简洁且精准的推理链。在复杂场景中表现出色,在简单任务中展
GDPval 是由 OpenAI 推出的一个全新评估框架,旨在衡量 AI 模型在真实经济价值任务上的表现。该框架从对美国 GDP 贡献最大的 9 个行业中,选取了 44 种职业,设计了 1320 个贴近实际工作场景的真实任务(其中 220 个已开源)。这些任务涵盖了软件开发、法律文书、机械工程、护理计划等多个领域。每项任务都由平均拥有 14 年经验的专业人士设计和审核,确保评估结果能真实反映 AI
只显示前20页数据,更多请搜索
Showing 73 to 74 of 74 results