1. VarDrug 引入了一个机器学习框架,用于预测基因变异如何影响药物反应,重点关注精神类药物。它使用来自 PharmGKB 的数据来解决变异体-药物相互作用问题,并比基于规则的方法取得了显著的性能提升。
2. 其核心是一个自监督变异编码器,该编码器基于 100,000 个人类基因组变异体进行训练,并使用 DNABERT2 嵌入对每个变异体的基因组背景进行编码。将此变异编码器添加到标准机器学习流程后,其加权 F1 得分从 0.56 提升到 0.63。
3. 药物编码通过基于指纹的嵌入(来自 SMILES)进行处理,其性能优于 ChemBERTa 和 MolFormer 等更复杂的模型。这些表征与基于共表达的基因嵌入配对,构成输入特征。
4. 分类任务涉及六个药物基因组学标签:毒性增加或减少、疗效和剂量。经过筛选后,数据集包含约 4,000 个样本,这对深度模型来说极具挑战性,因此 VarDrug 通过使用经典机器学习和高级嵌入来避免过度拟合。
5. 随机森林的表现优于其他模型(CatBoost、SVC、ExtraTrees、决策树),在 5 倍交叉验证下实现了 0.66 的加权 F1 和 0.93 的 Top-2 准确率。这些结果表明,在低数据量环境下,结构良好的特征比模型复杂度更有价值。
6. VarDrug 包含大量的消融研究。移除变体嵌入会降低所有分类器的准确率,这突显了预训练基因组编码器的生物学相关性。该方法在泛化能力和性能之间取得了平衡。
7. 一项针对精神疾病(包括边缘型人格障碍 (BPD))的案例研究证实了该模型的实用性。 ABCB1 和 CYP2D6 等基因在药物-基因相互作用网络中占据核心地位,与已知的临床药物基因组学注释相一致。
8. 除了单一变异体-药物关联之外,VarDrug 还构建了系统级网络,将药物与基因和作用机制 (MOA) 连接起来,阐明了精神科治疗之间的冗余和协同作用,这对于药物再利用或联合疗法非常有用。
9. 开源 VarDrug 工具允许用户输入自己的变异体-药物对,并获得预测的相互作用结果。它是机器学习与精准精神病学药物基因组学研究之间的实用桥梁。
代码:https://github.com/SUCBG/vardrug