GDPval 是由 OpenAI 推出的一个全新评估框架,旨在衡量 AI 模型在真实经济价值任务上的表现。该框架从对美国 GDP 贡献最大的 9 个行业中,选取了 44 种职业,设计了 1320 个贴近实际工作场景的真实任务(其中 220 个已开源)。
这些任务涵盖了软件开发、法律文书、机械工程、护理计划等多个领域。每项任务都由平均拥有 14 年经验的专业人士设计和审核,确保评估结果能真实反映 AI 在现实世界中的应用潜力。
核心功能
- 评估 AI 经济价值:GDPval 通过模拟真实工作任务,帮助我们更好地理解 AI 在现实经济活动中的应用潜力及其所能创造的价值。
- 覆盖多样化职业:框架覆盖了对美国 GDP 贡献最大的 9 个行业,以及其中的 44 种关键职业,确保评估的广泛性和代表性。
- 贴近实际工作场景:任务设计基于真实的职业交付物,如法律简报、工程蓝图等,并包含参考文件与上下文,使其评估结果更具说服力。
- 专家级评估与评分:所有任务都由经验丰富的专业人士设计和审核,AI 模型的输出也由同行业的专家进行盲评,确保评估的准确性和可靠性。
- 助力 AI 发展:通过真实任务的评估,GDPval 为 AI 模型的改进提供了明确方向,有助于推动整个 AI 技术的进步。
技术原理
- 任务设计:任务选取基于对美国 GDP 贡献最大的行业,并从中挑选知识密集型职业。由行业专家设计任务,确保其代表性和可行性,任务交付物形式多样,包括文档、幻灯片、图表等。
- 评估过程:由同行业专家对 AI 生成的内容进行盲评,判断其与人类专家作品的优劣。此外,还开发了一个实验性的 “自动评分器”(AI 系统),用于预测人类专家的评分。
应用场景
- AI 模型性能评估:GDPval 可用于评估 AI 模型在真实工作场景中的能力,帮助开发者和研究人员了解其模型的实际表现。
- 人机协同:为行业专家提供一个框架,帮助他们评估 AI 在职业任务中的潜力,从而更好地实现人机协同工作。
- 企业决策支持:企业可以利用 GDPval 的评估结果,决定是否以及如何采用 AI 模型来优化业务流程,特别是在成本和效率方面。
- 项目官网:https://openai.com/index/gdpval/
- HuggingFace:https://huggingface.co/datasets/openai/gdpval
- 技术论文:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf