深度生成序列模型的归因分配使得仅使用正数据进行可解释性分析成为可能
1.本文介绍了 GAMA(生成归因度量分析),这是第一个基于积分梯度的归因方法,适用于仅基于正样本数据训练的自回归生成模型。即使没有负样本,GAMA 也能解释此类生成模型所学习的特征。
2.与大多数为监督学习开发的可解释性工具不同,GAMA 适用于单类生成模型,例如长短期记忆(LSTM),这类模型常用于抗体设计,因为负样本(非结合剂)不可用或定义不明确。
3.GAMA 通过将训练好的生成模型的积分梯度与随机初始化的参考模型的积分梯度进行比较来计算特征重要性。该方法可以识别有助于序列生成的关键输入位置。
4.作者在 270 个包含不同条件下植入基序的合成数据集上对 GAMA 进行了基准测试:不同的信噪比、基序位置和逻辑基序依赖关系(AND、OR、XOR)。GAMA 在实际噪声条件下始终能够恢复有意义的基序。
5. 当基序遵循“与”逻辑且信噪比≥80%时,性能最佳。具有“异或”逻辑或信噪比较低的数据集的基序更难恢复,但GAMA的性能仍然明显优于随机基线。
6. 该方法具有位置不变性:基序检索精度与基序在序列中的位置无关。然而,由于复杂性增加,较长的基序和异或逻辑会导致更高的假阴性率。
7. 使用通过Absolut!框架生成的合成抗体数据集,作者表明GAMA归因与四个抗原结合数据集的模拟结合能显著相关,Spearman相关系数高达0.74。
8. GAMA 应用于曲妥珠单抗-HER2 结合变体的真实实验数据,突出显示了 CDRH3 区域四个已知结合残基中的三个,展现了其在解释生物学相关特征方面的实际效用。
9. GAMA 为抗体设计中的负标签偏差问题以及更广泛的正无标签数据设置提供了一种解决方案。它能够基于生物学原理,对仅具有正标签的领域中的自回归生成模型进行解释。
10. 该方法目前已实现于基于 LSTM 的生成模型,但可推广至其他可微分自回归架构,例如 Transformers、xLSTM 和 Mamba 模型。
11. GAMA 的应用范围不仅限于生物学,例如在欺诈检测或推荐系统中,理解生成模型在仅正数据上的行为也至关重要。
12. 未来的工作将探索扩展 GAMA 以分析单个序列(而不仅仅是平均值),支持更复杂的依赖模式,并扩展到现代蛋白质语言模型中使用的 Transformers 架构。