普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。
历史是关于时间中的人的科学。
——马克·布洛赫
人工智能已在诸多自然科学领域成为有力的研究助手,然而面对承载着文化意涵与历史记忆的人文学科,却仍旧表现得捉襟见肘。
究其原因,AI当前最缺乏的并非工具性能力,而是对人类智慧与文化的理解能力——这正是人文学科探究的核心。
在众多人文学科中,历史学因其海量的数据规模、多元的史料类型以及复杂的跨文化、跨时空特性,成为检验AI深度认知能力的理想试验场。
因此,AI不仅需要强大的识记能力,更需要深刻理解、精准判断与严谨推理的能力,才能够处理纷繁复杂的文献材料。
为此,普林斯顿大学AI实验室与复旦大学历史学系联合打造了HistBench与HistAgent,拉开了历史研究的AI时代的序幕。
论文地址:http://arxiv.org/abs/2505.20246
代码链接: https://github.com/CharlesQ9/HistAgent
HistBench作为全球首个历史领域评测基准,涵盖414道历史学者撰写的研究问题,横跨29种古今语言,覆盖全球多文明的历史演化脉络。
测试显示,主流大模型HistBench上准确率不足20%,暴露了通用AI在历史领域的认知短板。
而专为历史研究打造的HistAgent,集成文献检索、OCR识别、多语言翻译、档案检索与图像解译等核心工具,首次实现AI智能体在历史研究领域的深度定制与优化,在HistBench测试中准确率远超现有模型,并在GAIA通用基准斩获60%成绩,充分证明专业定制与通用能力可兼得!
HistBench:AI与历史的极限挑战
HistBench数据集共收录414道高质量历史问题,最初面向全球征集数千道题目,经由三轮筛选流程层层遴选而来:首先是初筛与标准化;其次由大模型初步预判以剔除低难度问题;最后由历史学专家进行复核校正,确保问题具备足够的研究价值与挑战强度。
参与出题与审核的专家层级涵盖面广,从历史学本科生、研究型硕博生,到海内外高校青年教师和资深教授,构成了一支多维度、跨年龄段的知识共同体,使题目既有理论深度,也具实践张力。
与传统知识问答不同,HistBench 强调方法论挑战与推理深度,特别注重AI在处理史料中的表现,如破损手稿、残缺碑铭、古地图、模糊音频等复杂材料。
长期以来,AI 评测体系主要由理工科主导,人文学科缺席,评估内容缺乏语言、模态与领域的多样性,也缺乏针对史学特点的精细化设计。
HistBench 正是在这一背景下诞生,旨在填补这一空白,推动AI在人文领域的系统性测试与能力突破。
全面覆盖历史研究的广度与深度
多语言覆盖:打破英语中心主义,覆盖29种语言,体现人文学科全球视野。
多模态史料:涵盖手稿、图像、音视频、历史文物等多种史料,真实模拟历史研究情境。
精细分级:问题从基础史料读取到跨学科深度分析均清晰分层,让模型表现一目了然。
HistBench覆盖20多个历史区域、36个子领域。这些子领域包括但不限于:
- 古典时代研究,涵盖古希腊、古罗马、中原汉唐、印度吠陀、两河与尼罗河流域等多个文明轴心区域的语言学、历史学与哲学文献传统
- 史学史与史学理论,历史学科的发展演变、范式更替与方法论革新;
- 全球史,包括人口迁徙、跨洋贸易、知识传播等;
- 传统史学研究,政治史、经济史和思想史,包括改革与革命、产业发展和观念流变等;
- 新文化史,包括性别史、城市史、日常生活史和物质文化研究等;
- 艺术史,包括图像史、雕塑史、电影史和音乐史等;
- 环境史,包括环保运动、生态思想和能源与资源管理等;
- 科学技术与医学史,包括早期科学机构、东西方科技交流、生物学、天文学、疫病史、卫生建制、医疗社会史等;
- 交叉学科:考古学、文学史、哲学史、新闻史、翻译史和历史地理学。
难度分层
HistBench精心设计三类难度等级,模拟真实历史研究挑战:
Level 1(基础):166题,原则上由历史背景助理设计,聚焦基本信息检索和提取。
Level 2(进阶):172题,原则上由研究生撰写,要求在材料处理或逻辑推理上构成一定难度。
Level 3(挑战):76题,原则上由资深学者设计,涉及小/死语言语言读取、多模态史料处理和跨学科分析。
HistAgent:AI历史研究助手
在历史学研究中,提出问题只是一个开始,真正重要的是如何处理材料并找到答案。
为此,团队研发了专为历史学研究服务的智能系统——HistAgent,它不是通用型AI的「人文拓展版」,而是从底层结构就面向史学研究进行功能搭建与优化的专业助手,从任务分解到工具集成,完全嵌入历史学者的工作流程。
HistAgent能够检索文献和史料,处理手稿、图像和地图等多模态材料,并结合历史知识辅助推理,帮助研究者梳理线索、整合信息、形成学术判断。
与GPT-4o、DeepSeek、Grok等通用大模型相比,HistAgent针对性更强。主流模型虽擅长公式和代码,却难以处理古希腊碑文、敦煌残卷、满文档案等历史材料,更缺乏严谨的学术推理能力。
HistAgent 的设计理念正是要填充AI在历史研究领域的空白,是一套包含多个子模块的多智能体协作系统,能够模拟历史研究的流程,将复杂任务拆解为不同的子任务,并根据每个子任务的需求调用最合适的工具,完成多模态、多语言和跨学科的指令。
通过这样的设计架构,HistAgent不仅能检索学术信息和处理历史材料,更能深入问题、形成推理、得出答案,成为历史研究者得力的助手。
HistAgent的「多智能体协作系统」
HistAgent的架构由以下几个核心模块组成:
文本搜索模块:支持多步网页搜索与页面解析,可检索学术网站和历史资料,提供权威背景信息和证据支持。
OCR模块:支持识别手稿、碑铭和古地图等文档。其中针对字母文字材料,专门引入了 Transkribus 平台——历史学界公认的一流手稿识别服务平台,能显著提高识别的准确率与排版转录质量。
翻译模块:支持多种语言互译,包括古典语言与小众语言。HistAgent不仅能翻译文本的表面意思,还能结合语境优化译文,提供流畅准确的片段。
图像分析模块:支持图片反向搜索、文物识别等任务。能够为历史图像材料寻找出处、补充背景、解析含义。
音频处理模块:支持处理历史演讲和访谈记录等音频材料。
视频分析模块:支持处理各类影像视频材料,能从中抽帧、分析场景、辅助理解历史事件。
文献搜索模块:支持解析 PDF、DOCX、XLSX、PPTX 等多种格式,便于处理研究资料。
文件处理模块:支持PDF、DOCX、XLSX、PPTX等文档解析,方便处理多格式的历史材料和研究文件。
这一切的背后,离不开一个中央调度模块(Manager Agent)的有机协调:
HistAgent会根据任务需求,智能判断调用子模块的范围和顺序、并整合多模态结果,从而最终输出符合历史学科规范的完整回答。