多语言医学语料库 MMedC。该语料库涵盖六种主要语言、约 255 亿标记,并用于通用大语言模型的自回归训练和领域适配。同时,研究者开发了具有推理能力的多语言医学多选问答基准MMedBench,以评估多语言医学模型的性能。在此基础上,通过在 MMedC 上训练多个开源模型,研究者提出了多语言医学大模型MMed-Llama 3。该模型在MMedBench 和英语基准测试中表现出色,在推理能力和问答准确率方面均达到领先水平。