普林斯顿与复旦推出HistBench和HistAgent,首个人文AI评测基准

普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。

历史是关于时间中的人的科学。

——马克·布洛赫

人工智能已在诸多自然科学领域成为有力的研究助手,然而面对承载着文化意涵与历史记忆的人文学科,却仍旧表现得捉襟见肘。

究其原因,AI当前最缺乏的并非工具性能力,而是对人类智慧与文化的理解能力——这正是人文学科探究的核心。

在众多人文学科中,历史学因其海量的数据规模、多元的史料类型以及复杂的跨文化、跨时空特性,成为检验AI深度认知能力的理想试验场。

因此,AI不仅需要强大的识记能力,更需要深刻理解、精准判断与严谨推理的能力,才能够处理纷繁复杂的文献材料。

为此,普林斯顿大学AI实验室与复旦大学历史学系联合打造了HistBench与HistAgent,拉开了历史研究的AI时代的序幕。

论文地址:http://arxiv.org/abs/2505.20246

代码链接: https://github.com/CharlesQ9/HistAgent

HistBench作为全球首个历史领域评测基准,涵盖414道历史学者撰写的研究问题,横跨29种古今语言,覆盖全球多文明的历史演化脉络。

测试显示,主流大模型HistBench上准确率不足20%,暴露了通用AI在历史领域的认知短板。

而专为历史研究打造的HistAgent,集成文献检索、OCR识别、多语言翻译、档案检索与图像解译等核心工具,首次实现AI智能体在历史研究领域的深度定制与优化,在HistBench测试中准确率远超现有模型,并在GAIA通用基准斩获60%成绩,充分证明专业定制与通用能力可兼得!

HistBench:AI与历史的极限挑战

HistBench数据集共收录414道高质量历史问题,最初面向全球征集数千道题目,经由三轮筛选流程层层遴选而来:首先是初筛与标准化;其次由大模型初步预判以剔除低难度问题;最后由历史学专家进行复核校正,确保问题具备足够的研究价值与挑战强度。

参与出题与审核的专家层级涵盖面广,从历史学本科生、研究型硕博生,到海内外高校青年教师和资深教授,构成了一支多维度、跨年龄段的知识共同体,使题目既有理论深度,也具实践张力。

与传统知识问答不同,HistBench 强调方法论挑战与推理深度,特别注重AI在处理史料中的表现,如破损手稿、残缺碑铭、古地图、模糊音频等复杂材料。

长期以来,AI 评测体系主要由理工科主导,人文学科缺席,评估内容缺乏语言、模态与领域的多样性,也缺乏针对史学特点的精细化设计。

HistBench 正是在这一背景下诞生,旨在填补这一空白,推动AI在人文领域的系统性测试与能力突破。

全面覆盖历史研究的广度与深度

多语言覆盖:打破英语中心主义,覆盖29种语言,体现人文学科全球视野。

多模态史料:涵盖手稿、图像、音视频、历史文物等多种史料,真实模拟历史研究情境。

精细分级:问题从基础史料读取到跨学科深度分析均清晰分层,让模型表现一目了然。

HistBench覆盖20多个历史区域、36个子领域。这些子领域包括但不限于:

  • 古典时代研究,涵盖古希腊、古罗马、中原汉唐、印度吠陀、两河与尼罗河流域等多个文明轴心区域的语言学、历史学与哲学文献传统
  • 史学史与史学理论,历史学科的发展演变、范式更替与方法论革新;
  • 全球史,包括人口迁徙、跨洋贸易、知识传播等;
  • 传统史学研究,政治史、经济史和思想史,包括改革与革命、产业发展和观念流变等;
  • 新文化史,包括性别史、城市史、日常生活史和物质文化研究等;
  • 艺术史,包括图像史、雕塑史、电影史和音乐史等;
  • 环境史,包括环保运动、生态思想和能源与资源管理等;
  • 科学技术与医学史,包括早期科学机构、东西方科技交流、生物学、天文学、疫病史、卫生建制、医疗社会史等;
  • 交叉学科:考古学、文学史、哲学史、新闻史、翻译史和历史地理学。

难度分层

HistBench精心设计三类难度等级,模拟真实历史研究挑战:

Level 1(基础):166题,原则上由历史背景助理设计,聚焦基本信息检索和提取。

Level 2(进阶):172题,原则上由研究生撰写,要求在材料处理或逻辑推理上构成一定难度。

Level 3(挑战):76题,原则上由资深学者设计,涉及小/死语言语言读取、多模态史料处理和跨学科分析。

HistAgent:AI历史研究助手

在历史学研究中,提出问题只是一个开始,真正重要的是如何处理材料并找到答案。

为此,团队研发了专为历史学研究服务的智能系统——HistAgent,它不是通用型AI的「人文拓展版」,而是从底层结构就面向史学研究进行功能搭建与优化的专业助手,从任务分解到工具集成,完全嵌入历史学者的工作流程。

HistAgent能够检索文献和史料,处理手稿、图像和地图等多模态材料,并结合历史知识辅助推理,帮助研究者梳理线索、整合信息、形成学术判断。

与GPT-4o、DeepSeek、Grok等通用大模型相比,HistAgent针对性更强。主流模型虽擅长公式和代码,却难以处理古希腊碑文、敦煌残卷、满文档案等历史材料,更缺乏严谨的学术推理能力。

HistAgent 的设计理念正是要填充AI在历史研究领域的空白,是一套包含多个子模块的多智能体协作系统,能够模拟历史研究的流程,将复杂任务拆解为不同的子任务,并根据每个子任务的需求调用最合适的工具,完成多模态、多语言和跨学科的指令。

通过这样的设计架构,HistAgent不仅能检索学术信息和处理历史材料,更能深入问题、形成推理、得出答案,成为历史研究者得力的助手。

HistAgent的「多智能体协作系统」

HistAgent的架构由以下几个核心模块组成:

文本搜索模块:支持多步网页搜索与页面解析,可检索学术网站和历史资料,提供权威背景信息和证据支持。

OCR模块:支持识别手稿、碑铭和古地图等文档。其中针对字母文字材料,专门引入了 Transkribus 平台——历史学界公认的一流手稿识别服务平台,能显著提高识别的准确率与排版转录质量。

翻译模块:支持多种语言互译,包括古典语言与小众语言。HistAgent不仅能翻译文本的表面意思,还能结合语境优化译文,提供流畅准确的片段。

图像分析模块:支持图片反向搜索、文物识别等任务。能够为历史图像材料寻找出处、补充背景、解析含义。

音频处理模块:支持处理历史演讲和访谈记录等音频材料。

视频分析模块:支持处理各类影像视频材料,能从中抽帧、分析场景、辅助理解历史事件。

文献搜索模块:支持解析 PDF、DOCX、XLSX、PPTX 等多种格式,便于处理研究资料。

文件处理模块:支持PDF、DOCX、XLSX、PPTX等文档解析,方便处理多格式的历史材料和研究文件。

这一切的背后,离不开一个中央调度模块(Manager Agent)的有机协调:

HistAgent会根据任务需求,智能判断调用子模块的范围和顺序、并整合多模态结果,从而最终输出符合历史学科规范的完整回答。

相关推荐

Qwen3 Reranker

Qwen3 Reranker

<p>Qwen3 Reranker是阿里巴巴通义千问团队发布的文本重排序模型,属于Qwen3模型家族。采用单塔交叉编码器架构,输入文本对后输出相关性得分。模型通过多阶段训练范式,基于高质量标注数据和大量合成训练对进行训练,支持超过100种语言,涵盖主流自然语言及多种编程语言。性能表现上,Qwen3 Reranker-8B在MTEB排行榜上取得了72.94的高分,Qwen3 Reranker-0.6B也已超越Jina和BGE Rerankers。</p> <h2 style="font-size: 20px;">Qwen3 Reranker的主要功能</h2> <ul> <li>文本相关性评估:Qwen3 Reranker可以接收用户查询和候选文档等文本对作为输入。模型会计算并输出两个文本之间的相关性得分,得分越高表示文本对之间的相关性越强。</li> <li>文本重排序:根据相关性得分,Qwen3 Reranker能对候选文本进行排序,将与用户查询最相关的文本排在前面。</li> <li> <div class="paragraph">优化检索结果:在语义检索场景中,该功能可帮助用户更快地找到最相关的信息,提高检索效率和准确性。</div> </li> <li> <div class="paragraph">支持多种语言:Qwen3 Reranker支持超过100种语言,包括主流自然语言和多种编程语言。</div> </li> </ul> <p> </p>

SignGemma

SignGemma

<p>SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,精准识别手语动作并实时转化为口语文本。模型具备高准确率和上下文理解能力,响应延迟低于0.5秒。SignGemma采用高效架构设计,可在消费级GPU上运行,支持端侧部署,保护用户隐私。</p>

TokenSwift

TokenSwift

<p>TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型,如1.5B、7B、8B、14B的MHA和GQA模型。</p> <h2 style="font-size: 20px;">TokenSwift的主要功能</h2> <ul> <li>超长文本生成加速:TokenSwift 能显著缩短超长文本的生成时间。例如,传统自回归模型生成10万Token的文本可能需要近5个小时,TokenSwift仅需90分钟,速度提升了3倍,极大地提高了生成效率。</li> <li>无损加速:在加速的同时,TokenSwift能保持原始模型的输出质量,确保生成文本的质量和多样性。</li> <li>支持多种模型:TokenSwift支持多种不同规模和架构的模型,包括1.5B、7B、8B、14B的模型,以及多头注意力(MHA)和分组查询注意力(GQA)架构。</li> </ul> <h2 style="font-size: 20px;">TokenSwift的项目地址</h2> <ul> <li>项目官网:<a class="external" href="https://bigai-nlco.github.io/TokenSwift/?utm_source=medsci" target="_blank" rel="noopener">https://bigai-nlco.github.io/TokenSwift/</a></li> <li>Github仓库:<a class="external" href="https://github.com/bigai-nlco/TokenSwift" target="_blank" rel="noopener nofollow">https://github.com/bigai-nlco/TokenSwift</a></li> <li>HuggingFace模型库:<a class="external" href="https://huggingface.co/TokenSwift" target="_blank" rel="noopener nofollow">https://huggingface.co/TokenSwift</a></li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2502.18890" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2502.18890</a></li> </ul>

LMEval

LMEval

<p>LMEval 是谷歌推出的开源框架,用在简化大型模型(LLMs)的跨提供商评估。框架支持多模态(文本、图像、代码)和多指标评估,兼容 Google、OpenAI、Anthropic 等主流模型提供商。LMEval 基于增量评估引擎,运行必要的测试,节省时间和计算资源。框架自加密的 SQLite 数据库确保评估结果的安全存储。LMEvalboard 提供交互式可视化界面,帮助用户快速分析模型性能,直观比较不同模型的优缺点。</p> <h2 style="font-size: 20px;">LMEval的主要功能</h2> <ul> <li>多提供商兼容:支持主流模型提供商,如 Google、OpenAI 等。</li> <li>增量高效评估:智能评估引擎仅运行必要测试,避免重复计算,节省时间和资源。</li> <li>多模态支持:支持文本、图像、代码等多种模态的评估。</li> <li>多指标支持:支持多种评分指标,包括布尔问题、多项选择、自由文本生成等。</li> <li>安全存储:用自加密的 SQLite 数据库,确保数据安全。</li> <li>可视化工具:LMEvalboard 提供交互式可视化界面,帮助用户快速分析模型性能。</li> </ul> <h2 style="font-size: 20px;">LMEval的项目地址</h2> <ul> <li>项目官网:<a class="external" href="https://opensource.googleblog.com/2025/05/announcing-lmeval-an-open-ource-framework-cross-model-evaluation.html?utm_source=medsci" target="_blank" rel="noopener">https://opensource.googleblog.com/2025/05/announcing-lmeval</a></li> <li>GitHub仓库:<a class="external" href="https://github.com/google/lmeval" target="_blank" rel="noopener nofollow">https://github.com/google/lmeval</a></li> </ul>

JoyAgent

JoyAgent

<p>Joy Industrial是京东工业推出的行业首个供应链为核心的工业大模型。模型针对工业场景,依托京东工业在工业数智供应链领域的经验积累和数据沉淀,基于“工业大模型+供应链场景应用”双引擎,构建全栈产品矩阵。Joy Industrial首批推出需求代理、运营代理、商品专家、集成专家、关务代理等AI产品,能解决工业供应链中的数据孤岛、协同冲突等痛点,助力产业降本增效、合规保供,推动产业链结构性变革,助力新型工业化。</p> <p>JoyAgent智能体平台是京东云推出的企业级一站式AI智能体搭建与发布平台。平台聚合大模型、知识库、插件和工作流等能力,支持低代码开发,用户无需复杂编程用自然语言快速构建基于大语言模型(LLM)的AI智能体。平台提供丰富的预置模板和工具,支持一键发布到微信、企业微信等主流IM和协同办公渠道。典型应用场景包括智能客服、OA自动化和热点营销等,帮助企业提升业务效率和客户体验。</p> <div class="dpu8C _2kCxD"> <p>Joy industrial 产品矩阵实现供应链降本增效指数级提升</p> </div> <div class="dpu8C _2kCxD"> <p>基于京东工业深耕行业场景和数据沉淀构建的垂直行业工业大模型,Joy industrial从大型工业企业运营、数智供应链解决方案和供应链出海等场景出发,首批发布了满足制造和公共行业的需求代理、运营代理、关务代理、商品专家和集成专家等多个AI产品,充分展示了京东工业对于工业供应链领域的深度理解和扎实实践。</p> </div> <div class="dpu8C _2kCxD"> <p>Joy i需求代理通过 AI 技术驱动,将商机匹配效率从传统的 48 小时缩短到数小时,并实现对历史采购清单的秒级前置联动,助力效率提升140%。</p> </div> <div class="dpu8C _2kCxD"> <p>Joy i运营代理可一次性解决信息获取、业务执行和合规管控三大环节。用户仅需极简操作,即可完成信息检索与审批,并且系统实时处理业务并精准识别虚假运单,商机治理效果提升 75%,技术和合规成本分别降低 99.3% 和33.2%。</p> </div> <div class="dpu8C _2kCxD"> <p>Joy i商品专家整合 AI 商品审核、同品识别和标准化能力来应对采购时品类繁多、标准缺失、合规风险高的痛点。所有核心功能打包成API微服务接口,便于快速构建“AI 原生”采购产品,大幅提升AI商品审核准确率和同品识别率,有效降低审核成本。</p> </div> <div class="dpu8C _2kCxD"> <p>Joy i集成专家利用 AI 自动解析 API 文档、制定对接方案并生成代码,自动验证对接效果三步走策略将整个系统对接流程由传统的三天缩减为分钟级,打通企业内外供应链,实现全链条实时互联和动态调整,大幅提升响应速度并降低对接成本。</p> </div> <div class="dpu8C _2kCxD"> <p>Joy i 关务代理面向制造业“出海”场景,支持超过一万条进出口合规查询并可当天响应。以低值易耗品为例,成本可节省约 21%,同时显著减少 40%–66% 的时间、管理和运营开销,帮助企业快速、安全地拓展国际市场。</p> </div>

A2A协议

A2A协议

<div class="markdown-heading" dir="auto"> <p>Agent2Agent(A2A)协议</p> <a id="user-content-agent2agent-a2a-protocol" class="anchor" href="https://github.com/google/A2A#agent2agent-a2a-protocol" aria-label="永久链接:Agent2Agent(A2A)协议"></a></div> <p>一种开放协议,支持不透明代理应用程序之间的通信和互操作性。</p> <p>一种开放协议,支持不透明代理应用程序之间的通信和互操作性。</p> <p>Agent2Agent (A2A) 协议解决了人工智能领域的一个关键挑战:使由不同公司基于不同框架构建、运行在独立服务器上的新一代人工智能代理能够有效地进行通信和协作——它们不仅仅是作为工具,而是作为代理。A2A 旨在为代理提供一种通用语言,从而构建一个更加互联互通、功能强大且创新性更强的人工智能生态系统。</p> <p>通过 A2A,座席可以:</p> <ul dir="auto"> <li>发现彼此的能力。</li> <li>协商交互方式(文本、表格、媒体)。</li> <li>安全地协作完成长期运行的任务。</li> <li>操作时无需暴露其内部状态、内存或工具。</li> </ul> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">了解 A2A 的实际应用</h2> <a id="user-content-see-a2a-in-action" class="anchor" href="https://github.com/google/A2A#see-a2a-in-action" aria-label="永久链接:查看 A2A 的实际应用"></a></div> <p>观看<a href="https://storage.googleapis.com/gweb-developer-goog-blog-assets/original_videos/A2A_demo_v4.mp4" rel="nofollow">此演示视频</a>,了解 A2A 如何实现不同代理框架之间的无缝通信。</p> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">为什么选择 A2A?</h2> <a id="user-content-why-a2a" class="anchor" href="https://github.com/google/A2A#why-a2a" aria-label="永久链接:为什么选择 A2A?"></a></div> <p>随着人工智能代理变得越来越普及,它们的互操作能力对于构建复杂、多功能的应用程序至关重要。A2A 的目标是:</p> <ul dir="auto"> <li>打破孤岛:连接不同生态系统的代理。</li> <li>实现复杂的协作:允许专门的代理共同完成单个代理无法单独处理的任务。</li> <li>推广开放标准:培养以社区为主导的代理沟通方式,鼓励创新和广泛采用。</li> <li>保持不透明度:允许代理进行协作,而无需共享内部内存、专有逻辑或特定工具实现,从而增强安全性并保护知识产权。</li> </ul> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">主要特点</h3> <a id="user-content-key-features" class="anchor" href="https://github.com/google/A2A#key-features" aria-label="永久链接:主要特点"></a></div> <ul dir="auto"> <li>标准化通信:通过 HTTP(S) 的 JSON-RPC 2.0。</li> <li>代理发现:通过“代理卡”详细说明功能和连接信息。</li> <li>灵活交互:支持同步请求/响应、流式传输(SSE)、异步推送通知。</li> <li>丰富的数据交换:处理文本、文件和结构化 JSON 数据。</li> <li>企业就绪:设计时考虑了安全性、身份验证和可观察性。</li> </ul> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">入门</h2> <a id="user-content-getting-started" class="anchor" href="https://github.com/google/A2A#getting-started" aria-label="永久链接:入门"></a></div> <ul dir="auto"> <li>📚探索文档:访问<a href="https://google.github.io/A2A/" rel="nofollow">Agent2Agent 协议文档站点,</a>获取完整概述、完整协议规范、教程和指南。</li> <li>📝查看规范: <a href="https://google.github.io/A2A/specification/" rel="nofollow">A2A 协议规范</a></li> <li>🐍 使用<a href="https://github.com/google/a2a-python">A2A Python SDK</a></li> <li>🎬 使用我们的<a href="https://github.com/google/A2A/blob/main/samples">示例</a>来了解 A2A 的实际应用 <ul dir="auto"> <li><a href="https://github.com/google/A2A/blob/main/demo/README.md">多代理Web应用程序</a></li> <li>命令行界面 ( <a href="https://github.com/google/A2A/blob/main/samples/python/hosts/cli/README.md">Python</a>、<a href="https://github.com/google/A2A/blob/main/samples/js/README.md">JS</a> )</li> </ul> </li> <li>🤖 使用我们的<a href="https://github.com/google/A2A/blob/main/samples/python/agents/README.md">示例代理</a>来了解如何将 A2A 引入代理框架 <ul dir="auto"> <li><a href="https://github.com/google/A2A/blob/main/samples/python/agents/google_adk/README.md">代理开发套件(ADK)</a></li> <li><a href="https://github.com/google/A2A/blob/main/samples/python/agents/crewai/README.md">CrewAI</a></li> <li><a href="https://github.com/google/A2A/blob/main/samples/python/agents/mindsdb/README.md">企业数据代理(Gemini + Mindsdb)</a></li> <li><a href="https://github.com/google/A2A/blob/main/samples/python/agents/langgraph/README.md">LangGraph</a></li> <li><a href="https://github.com/google/A2A/blob/main/samples/js/src/agents/README.md">根基特</a></li> <li><a href="https://github.com/google/A2A/blob/main/samples/python/agents/llama_index_file_chat/README.md">骆驼指数</a></li> <li><a href="https://github.com/google/A2A/blob/main/samples/python/agents/marvin/README.md">马文</a></li> <li><a href="https://github.com/google/A2A/blob/main/samples/python/agents/semantickernel/README.md">语义内核</a></li> <li><a href="https://github.com/google/A2A/blob/main/samples/python/agents/ag2/README.md">AG2 + MCP</a></li> </ul> </li> </ul> <div class="markdown-heading" dir="auto"> </div>

PAKE

PAKE

<p>🤱🏻 使用 Rust 将任何网页变成桌面应用程序。 🤱🏻利用Rust轻松构建轻量级多端桌面应用</p> <div dir="auto" align="left">Pake 支持 Mac、Windows 和 Linux。查看 README 文件,了解<a href="https://github.com/tw93/Pake#popular-packages">热门软件包</a>、<a href="https://github.com/tw93/Pake#command-line-packaging">命令行打包</a>和<a href="https://github.com/tw93/Pake#development">定制开发</a>信息。欢迎在<a href="https://github.com/tw93/Pake/discussions">讨论区</a>分享您的建议。</div> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">特征</h2> <a id="user-content-features" class="anchor" href="https://github.com/tw93/Pake#features" aria-label="永久链接:功能"></a></div> <ul dir="auto"> <li>🎐 比 Electron 包小近 20 倍(约 5M!)</li> <li>🚀 借助 Rust Tauri,Pake 比基于 JS 的框架更加轻量且速度更快。</li> <li>📦 包含电池的套件 — 快捷方式直通、沉浸式窗口和简约定制。</li> <li>👻 Pake 只是一个简单的工具——用 Tauri 替换旧的捆绑方法(尽管 PWA 已经足够好了)。</li> </ul>

80/20 AI

80/20 AI

Sharing the latest developments in the world of artificial intelligence. 每天3分钟学习最新的AI前沿信息

GeoGebra

GeoGebra

GeoGebra 不仅仅是一套免费的数学工具,更是一个连接热心教师和学生的平台,为他们提供探索和学习数学的全新途径。能将函数快速转换为图形的网站。 GeoGebra是一个跨平台的动态数学软件。提供各级教育使用,包含了几何、代数、表格、图形、统计和微积分。曾获得数个欧洲和美国的教育软件大奖。 GeoGebra官方版是完全免费的类似几何画板的动态数学软件,支持数十种语言,支持多平台,获得多项国际性大奖。功能非常强大,比如在统计方面的应用是几何画板所无法比拟的,另外,还具有强大的命令和函数等功能,绝对是广大数学教师不可多得的教学辅助软件。

ChatTS

ChatTS

ChatTS专注于对时间序列的理解和推理,类似于视觉/视频/音频 MLLM 的功能。此 repo 提供了以下代码、数据集和模型ChatTS:ChatTS:通过合成数据将时间序列与 LLM 对齐,以增强理解和推理。 ChatTS原生支持任意长度和值范围的多变量时间序列数据。借助ChatTS,您可以轻松理解和推理时间序列中的 形状特征和值ChatTS特征。此外,它还可以集成到现有的 LLM 流程中,用于更多与时间序列相关的应用,并利用现有的推理框架,例如vLLMs。 目前开源了ChatTS-14B 模型

minimind

minimind

此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量,最小版本体积是 GPT-3 的 1/7000,力求做到最普通的个人GPU也可快速训练。 项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调, 直接偏好强化学习(DPO)算法、模型蒸馏算法等全过程代码。 MiniMind同时拓展了视觉多模态的VLM: MiniMind-V。 项目所有核心算法代码均从0使用PyTorch原生重构!不依赖第三方库提供的抽象接口。 这不仅是大语言模型的全阶段开源复现,也是一个入门LLM的教程。 希望此项目能为所有人提供一个抛砖引玉的示例,一起感受创造的乐趣!推动更广泛AI社区的进步!

wiz.io

wiz.io

Use the Wiz Cloud Security Platform to build faster in the cloud, enabling security, dev and devops to work together in a self-service model built for the scale and speed of your cloud development.

Jellypod

Jellypod

Transform email newsletters into a personalized podcast.