MADELEINE

MADELEINE

开发能够学习通用且可迁移的 H&E 千兆像素全切片图像 (WSI) 表征的自监督学习 (SSL) 模型,在计算病理学中正变得越来越重要。这些模型有望推进诸如小样本分类、切片检索和患者分层等关键任务。现有的切片表征学习方法通​​常通过将切片的两个不同增强图像(或视图)对齐,将 SSL 的原理从小图像(例如 224x224 的图像块)扩展到整张切片。然而,最终的表征仍然受限于视图有限的临床和生物多样性。因此,我们假设,用多种标记物(例如免疫组化染色)染色的切片可以用作不同的视图,从而形成丰富的、与任务无关的训练信号。为此,我们引入了 MADELEINE,一种用于切片表征学习的多模态预训练策略。 MADELEINE 已在大量乳腺癌样本(N=4,211 个 WSI,涵盖五种染色)和肾移植样本(N=12,070 个 WSI,涵盖四种染色)上进行了双全局-局部交叉染色比对目标训练。我们展示了 MADELEINE 在各种下游评估(从形态学和分子分类到预后预测)中学习到的载玻片表征的质量,这些评估涵盖了 21 项任务,使用了来自多个医疗中心的 7,299 个 WSI。

访问网站

相关推荐

CHIEF-临床组织病理学影像评估基金会模型

CHIEF-临床组织病理学影像评估基金会模型

组织病理学图像评估对于癌症诊断和亚型分类至关重要。用于组织病理学图像分析的标准人工智能方法专注于优化针对每个诊断任务的专门模型 。尽管此类方法已取得一些成功,但它们对由不同数字化协议生成的图像或从不同人群采集的样本的普遍性通常有限。在此,为了应对这一挑战,我们设计了临床组织病理学影像评估基础 (CHIEF) 模型,这是一个通用的弱监督机器学习框架,用于提取病理影像特征以进行系统的癌症评估。CHIEF 利用两种互补的预训练方法来提取不同的病理表示:用于图块级特征识别的无监督预训练和用于全切片模式识别的弱监督预训练。我们使用涵盖 19 个解剖部位的 60,530 张全切片图像开发了 CHIEF。 CHIEF 通过在 44 TB 高分辨率病理成像数据集上进行预训练,提取了可用于癌细胞检测、肿瘤起源识别、分子谱表征和预后预测的微观表征。我们使用来自全球 24 家医院和队列的 32 个独立切片集的 19,491 张全切片图像成功验证了 CHIEF。总体而言,CHIEF 的表现比最先进的深度学习方法高出 36.1%,展现了其能够处理在不同人群样本中观察到的领域偏移(domain shift),并采用不同的切片制备方法进行处理。CHIEF 为癌症患者的高效数字病理评估奠定了可推广的基础。

MMedLM

MMedLM

语料库数据集。为了实现多语言医学专用适配,我们构建了一个新的多语言医学语料库(MMedC),其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于对现有的通用 LLM 进行自回归训练。 基准。为了监测医学领域多语言法学硕士 (LLM) 的发展,我们提出了一个新的、具有合理性的多语言医学多项选择题答疑基准,称为 MMedBench。 模型评估。我们在基准测试中评估了许多流行的 LLM,以及在 MMedC 上进一步进行自回归训练的模型。最终,我们最终的模型(称为 MMedLM 2)仅具有 70 亿个参数,与所有其他开源模型相比,其性能更为卓越,甚至可以与 MMedBench 上的 GPT-4 相媲美。

OpenMEDLab

OpenMEDLab

OpenMEDLab致力于提供一个集合多模态医学基础模型的创新解决方案。未来,随着平台的不断发展,我们期待看到这些技术更新在OpenMEDLab上实现和应用,进一步推动跨模态、跨领域的医学AI创新。通过在不同医学任务中的灵活应用,OpenMEDLab不仅为基础模型的适配和微调提供了支持,也为解决医学中的长尾问题、提升模型效率和减少训练成本提供了创新途径。

MMedC

MMedC

多语言医学语料库 MMedC。该语料库涵盖六种主要语言、约 255 亿标记,并用于通用大语言模型的自回归训练和领域适配。同时,研究者开发了具有推理能力的多语言医学多选问答基准MMedBench,以评估多语言医学模型的性能。在此基础上,通过在 MMedC 上训练多个开源模型,研究者提出了多语言医学大模型MMed-Llama 3。该模型在MMedBench 和英语基准测试中表现出色,在推理能力和问答准确率方面均达到领先水平。