HealthBench是OpenAI推出的开源医疗测试基准,用在评估大型语言模型(LLMs)在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员之间的多轮对话,用262名医生创建的对话特定评分标准进行评估。对话覆盖多种健康情境(如紧急情况、临床数据转换、全球健康)和行为维度(如准确性、指令遵循、沟通)。HealthBench能衡量模型的整体表现,按主题(如紧急转诊、全球健康)和行为维度(如临床准确性、沟通质量)细分评估,帮助诊断不同AI模型的具体行为表现,指出需要改进的对话类型和性能维度。
HealthBench的主要功能
- 多维度评估:提供整体评分,或按主题(如紧急转诊、全球健康)和行为维度(如准确性、沟通质量)细分评估。
- 性能和安全性的衡量:衡量模型在不同健康任务中的表现和安全性,确保模型在高风险健康情境中的可靠性和安全性。
- 模型改进的指导:提供详细的性能分析,帮助开发者识别模型的优势和不足,指导模型的改进方向。
- 基准测试和比较:为不同模型提供统一的评估标准,便于比较和选择最适合医疗保健场景的模型。
- 变体支持:提供HealthBench Consensus和HealthBench Hard两个变体,分别评估特别重要的行为维度和特别困难的对话。
HealthBench的技术原理
- 评分标准(Rubric):每个对话有与之对应的评分标准,是医生根据对话内容撰写。评分标准包含多个具体标准(criteria),每个标准都有相应的分数值(正分或负分),用在评估模型响应的各个方面(如准确性、完整性、沟通质量等)。
- 模型响应评分:模型对每个对话的最后一条用户消息生成响应。基于模型的评分器(model-based grader)对模型的响应进行评分。评分器根据评分标准中的每个标准独立判断模型的响应是否满足标准,如果满足给予相应的分数,否则不给分。
- 整体评分计算:基于计算所有对话的平均评分,得到模型在HealthBench上的整体评分。根据主题(themes)和行为维度(axes)对评分进行细分,提供更详细的性能分析。
- 模型验证和改进:基于与医生评分的对比,验证模型评分器的准确性,根据需要对评分器进行调整和改进,确保评估结果的可靠性和有效性。
HealthBench的项目地址
相关推荐

Tempus AI
<p>专长:利用真实世界数据实现个性化癌症治疗。<br>Tempus 将临床和分子数据与人工智能相结合,实现癌症治疗的个性化。其平台为肿瘤学家提供切实可行的洞察,从而实现更精准、更有效的治疗。Tempus 对真实世界证据的贡献正在重塑肿瘤治疗。</p> <p><a href="https://www.tempus.com/" target="_blank" rel="noopener"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/19/1747679346_xIjNUVaooN.jpg"></a></p> <p>Tempus AI 成立于创始人妻子被诊断出乳腺癌后,其使命是利用技术和人工智能来增强癌症治疗。该公司后来扩展到其他治疗领域,例如中枢神经系统疾病和心脏病学。</p> <p>Tempus 的工具旨在支持新药的发现和开发,并通过确定最佳治疗方案帮助客户提供个性化的患者护理。这些工具基于收集、构建和分析大量现实世界的临床和分子数据,并设计基于人工智能的算法来指导药物开发。</p> <p>大型制药和生物技术公司纷纷向 Tempus 寻求药物研发援助,其中包括葛兰素史克(GSK)和 BioNTech,GSK 于 2022 年签署了一项协议,而 BioNTech 今年与 Tempus 合作,利用多模式数据支持其药物研发工作,这些数据可以揭示肿瘤学的生物学机制。</p> <p>Tempus 在私募融资中筹集了超过 14 亿美元,并于去年在纳斯达克首次公开募股 (IPO),估值 4.107 亿美元。该公司 2023 年的营收为 5.318 亿美元,高于 2022 年的 3.207 亿美元。</p> <p>Tempus 去年还以 6 亿美元收购了癌症筛查公司 Ambry Genetics,以获得后者的基因检测专业知识并将其服务扩展到新的治疗领域。</p>

Owkin
<p>专长:精准医疗的联邦学习。<br>Owkin 利用联邦学习技术,在保护数据隐私的同时,实现协作式 AI 研究。他们在肿瘤学和心脏病学领域的应用已构建出可指导个性化治疗决策的预测模型。Owkin 与领先医院和研究机构的合作进一步扩大了其影响力。</p> <p>Owkin于2016年成立于法国巴黎,是一家AI驱动的精准医疗公司,由临床医师Thomas Clozel博士与生物学人工智能先驱Gilles Wainrib博士共同创建。</p> <p> </p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/19/1747679981_s2nNe8vNKK.png"></p> <p>Thomas Clozel博士(图左)与Gilles Wainrib博士(图右)</p> <p>其核心技术是一套机器学习框架,可以将机器学习和生物学相结合,建立AI疾病模型,以开发生物标志物并确定新的药物靶点。</p> <p>最初的商业模式以向癌症治疗中心、医院与药企提供技术服务为主,使用联邦学习技术建立全球研究网络,搭建兼具数据安全和隐私保护的研究平台。</p> <p>直到2022年,在赛诺菲任职六年的资深副总裁Alban de La Sablière来到Owkin任职首席业务官,谋划起内部药物和诊断产品线的扩展。</p> <p>在随后的两年时间里,Owkin诊断产品线进展神速。</p> <p>至今已推出了两款基于人工智能的癌症诊断方法RlapsRisk® BC与MSIntuit® CRC,分别用于乳腺癌与结直肠癌,均获欧盟批准。</p> <p> </p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/20/1747679981_02dKRj4csb.png"></p> <p> </p> <p>在制药方面则迟迟未有大动作,反而在2023年6月启动了名为癌症多组学空间图谱(MOSAIC)的项目,耗资高达5000 万美元。</p> <p>该项目将通过癌症中心、医院和空间生物学企业,针对七种难以治疗的癌症,征集了来自全球7000 名患者的数据集,比任何现有的空间组学数据集大100倍以上。</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/20/1747679981_QuKF3fv9Xb.png"></p> <p> </p> <p>这个世界上最大的肿瘤学空间多组学数据集,成为了Owkin研发自有管线的坚实后盾。</p> <p>与此同时,Owkin还在不懈打磨内部的AI引擎,研发团队陆续发表了57篇相关论文。</p> <p>这些引擎由来自 61个领先研究中心网络的多模式患者数据和来自 110 名数据科学家团队,在T细胞连接方面积累了深厚的免疫反应专业知识。</p> <p>凭借着七年来,在内部和外部合作伙伴中积累的项目经验,Owkin已准备好应对最关键的挑战 —— 临床试验。</p> <p>AI引擎 如何在临床中发挥作用?</p> <p>OKN4395是Idorsia和外部合作者10年药物发现的结果,是一款潜在的同类最佳的EP2/EP4双靶点抑制剂。</p> <p>公司对此寄予厚望,并表示这项资产有可能成为极具挑战性的EP2和EP4靶点的一流双重抑制剂,这是生成式AI尚未实现的壮举。</p> <p> </p> <p>Owkin引以为豪的AI引擎将如何在临床研究中如何发挥作用,是报告的主要内容,也是业内的关注焦点。</p> <p> </p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/20/1747679981_QYgKbkKGhs.jpeg"></p> <p> </p> <p>其中包括生物标志物引擎:使用多模态患者数据,结合组织学和分子图谱,创建了EP2/EP4生物学的详细特征,可以为适应症选择和临床试验开发提供帮助。</p> <p>还有AI药物定位引擎,该引擎已为OKN4395筛选出了30多种癌症适应症,并根据它们与EP2/EP4通路的相关性对它们进行排名。</p> <p>为了进一步扩大其产品线,Owkin还打算利用其人工智能引擎,通过肿瘤学、免疫学和炎症方面的许可资产来补充内部药物发现。</p> <p>最后为了降低临床试验的风险,Owkin将应用人工智能在临床1B期建立一个外部控制组。</p> <p>该组将使用多模态患者数据来选择最佳的纳入/排除标准和预后协变量,以数据驱动的方式加强治疗信号。</p> <p>MOSAIC患者数据中的因果生物标志物也期间发挥了作用,能为特定的患者亚组量身定制治疗方案。</p> <p>这种数据驱动的AI药物研发过程,经过了医学专家的验证,确定了临床试验成功的最有希望的治疗组合,与传统的专家驱动的方法相辅相成。</p> <p> </p>

Berkeley Lights
<p>Berkeley Lights, Inc. (BLI) 成立于 2011 年,总部位于加州埃默里维尔,致力于提供突破性的技术和仪器平台,从根本上改变利用细胞生物学过程进行的研究。<br><br>数字细胞生物学 (Digital Cell Biology) 将生物科学、技术和信息相结合,显著提升科学家研究细胞相互作用的方式。Berkeley Lights 的平台和技术能够同时对数千个细胞进行最快、最深入、最全面的测量和洞察。</p> <p>Berkeley Lights 的 Beacon® 平台将人工智能与细胞分析相结合,简化了生物制剂和细胞疗法的研发流程。该技术广泛应用于抗体研发和基因编辑,使其成为精准医疗领域的关键参与者。<br><br>借助我们的平台、软件和服务,过去需要数月才能完成的流程现在只需数天即可完成。科学家能够精确地逐个操作、培养、分析和回收活细胞,并获得可重复且可扩展的结果。<br><br>我们正在将领先生物制药公司的药物发现和开发工作流程向前推进数光年,从而彻底改变细胞系开发、抗体发现、基因编辑和 T 细胞功能分析。我们正在将我们的技术应用于细胞疗法生产、合成生物学和农业生物学等新兴领域,造福广大合作伙伴和客户。</p>

Pathos AI
<p>一、核心技术:自学习和自修复的治疗引擎</p> <p>PathOS Platform™是Pathos AI 的专有平台,构建于现代数据基础设施之上,能够自动化地进行靶点识别和优先级排序。</p> <p>核心技术为自学习和自修复的Discovery Engine(发现引擎):</p> <p>1、自动靶点识别:利用多种正交方法(orthogonal methods)自动识别和优先排序药物靶点。</p> <p>2、自适应模型:能够根据新数据进行自我学习和自我修正,提升预测准确性。</p> <p>3、多源数据整合:整合从发现到开发的所有数据,确保数据的一致性和连贯性。</p> <p> </p> <p>二、数据来源:全球最大肿瘤多模态数据集</p> <p>PathOS Platform™拥有全球最大规模的多模态肿瘤数据集,数据源包括:</p> <p>1、临床数据:来自真实世界的肿瘤患者数据,涵盖患者诊疗过程。</p> <p>2、功能基因组数据:从合作伙伴网络获得的患者来源基因组数据。</p> <p>3、Pathos专有数据集:公司自行生成并持续扩展的数据。</p> <p>4、持续数据积累和更新:每一条新数据都会增强平台的预测能力,确保模型不断优化。</p> <p> </p> <p>三、应用领域:覆盖药物开发全流程</p> <p>1、靶点发现和优先级排序:通过Discovery Engine 自动识别和优化潜在药物靶点。</p> <p>2、临床试验设计和优化:通过Clinical Development Suite(临床开发套件)集成多种数据源,帮助设计和优化临床试验。</p> <p>3、精准患者选择:借助AI 模型实现精准的患者分层和选择,确保药物仅针对最适合的患者群体。</p> <p>4、临床和真实世界数据集成:从药物发现到临床和真实世界数据(RWD)无缝衔接。</p> <p> </p> <p>四、平台优势:现代化数据基础设施与强大数据集成能力</p> <p>1、现代数据基础设施:PathOS Platform™ 构建在先进的计算架构上,能够随着数据的增加不断提升预测能力。</p> <p>2、全面的数据整合:在药物发现和临床开发的每个阶段整合所有数据,确保一致性和连贯性。</p> <p>3、数据驱动的决策:通过集成的多模态数据,平台能够快速识别潜在靶点并优化药物开发路径。</p> <p> </p> <p>五、竞争优势:跨越传统药物开发的效率瓶颈</p> <p>1、自动化靶点识别:相比传统的手动靶点筛选,PathOS Platform™ 能够大规模自动识别和优先排序。</p> <p>2、持续学习与自我修复:平台能够根据新增数据不断优化和提升自身的预测能力。</p> <p>3、从发现到真实世界的全流程整合:其他平台通常仅在某一环节提供支持,而PathOS 覆盖从发现到临床的所有阶段。</p> <p>4、全球最大肿瘤多模态数据集:这是公司模型高精度的基础,能够捕捉肿瘤的多维度特征。</p> <p> </p> <p>六、未来发展潜力:扩展多模态数据,提升预测能力</p> <p>1、多模态数据的持续扩展:随着合作伙伴和数据源的增加,PathOS Platform™ 将持续丰富其多模态数据集。</p> <p>2、模型性能不断优化:自学习和自修复的技术确保平台能够跟随数据增长持续提升预测能力。</p> <p>3、全球领先的AI 驱动药物开发平台:借助强大的数据和AI 技术,PathOS Platform™ 有望成为精准医学和药物开发领域的领导者。</p>

InsightHealth
我们的 AI Scribe 可将您与患者的对话转化为结构化的医疗记录,显著节省您的文档记录时间。适用于手机、平板电脑和台式电脑。

Assort Health
通过短信或电话主动通知患者取消、提醒和后续事宜

speechmatics
使用值得信赖的语音转文本技术构建语音 AI 医疗保健产品

commure
医学AI平台

DermaMuse
This is an intelligent skin assistant that analyzes skin issues, provides suggestions, and supports image uploads and multilingual Q&A.

FastGlioma
FastGlioma 模型是一种用于胶质瘤术中检测的视觉基础模型,通过快速分析新鲜手术组织实现肿瘤浸润的精准评估,在 220 名患者测试中达到92.1±0.9% 的 AUC。该模型显著优于传统引导方法,并在不同患者群体和脑肿瘤类型中表现出一致性和零样本泛化能力。

BiomedGPT
开源轻量级通用生物医学视觉-语言基础模型BiomedGPT,则在多种生物医学任务上展现先进性能。BiomedGPT在25项实验中有16项达到先进水平,并在人类评估中表现出色,总结能力接近人类专家。

Med-PaLM Multimodal
Med-PaLM 是一个大型语言模型 (LLM),旨在为医学问题提供高质量的答案。我们的第二个版本 Med-PaLM 2 是MedLM 的支撑模型之一。MedLM 是一系列针对医疗保健行业进行微调的基础模型。MedLM 现已面向 Google Cloud 客户开放,这些客户一直在探索从基本任务到复杂工作流程等一系列应用。 Med-PaLM 充分利用了 Google 大型语言模型的强大功能,这些模型已与医学领域接轨,并通过医学检查、医学研究和消费者咨询进行了评估。

TCMLLM——中医大模型
TCMLLM由北京交通大学计算机与信息技术学院医学智能团队开发的中医药大语言模型项目,旨在通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。目前针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐指令微调大模型TCMLLM-PR。研发团队整合了8个数据来源,涵盖4本中医经典教科书《中医内科学》、《中医外科学》、《中医妇科学》和《中医儿科学》、2020版中国药典、中医临床经典医案数据、以及多个三甲医院的涵盖肺病、中风病、糖尿病、肝病、脾胃病等多病种的临床病历数据,构建了包含68k数据条目(共10M token)的处方推荐指令微调数据集,并使用此数据集,在ChatGLM大模型上进行大规模指令微调,最终得到了中医处方推荐大模型TCMLLM-PR。

华佗GPT-II
由深圳市大数据研究院、国家健康医疗大数据研究院(深圳)、香港中文大学(深圳)联合研发的中文医疗大模型华佗GPT,在香港中文大学(深圳)附属第二医院成功启用。

AI疑难疾病诊断
针对临床上各类疑难疾病进行智能诊断,帮助医生参考决策。

Sully.ai
AI Medical Assistant for doctors' time-saving. 虚拟护士,虚拟医生