语料库数据集。为了实现多语言医学专用适配,我们构建了一个新的多语言医学语料库(MMedC),其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于对现有的通用 LLM 进行自回归训练。 基准。为了监测医学领域多语言法学硕士 (LLM) 的发展,我们提出了一个新的、具有合理性的多语言医学多项选择题答疑基准,称为 MMedBench。 模型评估。我们在基准测试中评估了许多流行的 LLM,以及在 MMedC 上进一步进行自回归训练的模型。最终,我们最终的模型(称为 MMedLM 2)仅具有 70 亿个参数,与所有其他开源模型相比,其性能更为卓越,甚至可以与 MMedBench 上的 GPT-4 相媲美。