1. 本研究介绍了 PrefixProt,这是一个新颖的框架,它通过利用预训练蛋白质语言模型 (ProtLM) 上的前缀调整来实现可控蛋白质设计。它使用学习到的虚拟标记作为模块化控制标签,引导蛋白质生成朝着所需的结构和功能特性发展。
2. PrefixProt 最引人注目的特性在于它能够通过组合不同的虚拟标记来生成具有多种用户自定义属性(例如结构和功能)的蛋白质,而无需重新训练基础模型。这种组合灵活性类似于自然语言处理 (NLP) 中的语言提示,但针对有限的氨基酸词汇进行了调整。
3. 在生成稳定、逼真的 α 螺旋蛋白质方面,PrefixProt 的表现优于参数高效微调 (PEFT) 方法(例如 LoRA、(IA)³、VeRA)和文本引导方法(例如 ProLLaMA、InstructProtein)。它仅使用 1.18% 的可训练参数,就实现了较高的 α 螺旋含量、更好的 Rosetta 能量得分和具有竞争力的 pLDDT 值。
4. 在功能设计方面,PrefixProt 在生成抗菌和抗癌肽方面显著超越了通用的 PEFT 基线和专门的 AMP 设计模型(例如 PepLSTM、PepCVAE、HydrAMP)。它实现了较高的功能预测分数(∼0.90)、良好的两亲性和结构真实性。
5. 该方法支持前缀标记组合策略(连接和平均),以生成具有混合结构特征(例如 alpha-beta 折叠)或双功能肽(例如抗菌和抗癌)的蛋白质。这种多目标控制无需在多属性数据集上进行训练即可实现。
6. 实验基准测试表明,连接特定于任务的前缀标记可产生具有均衡结构内容和高功能活性的蛋白质。即使在没有直接的多属性训练数据的情况下,结构预测也证实了真实的折叠(pLDDT > 70)和良好的骨架几何形状(Rama-Z ∼ −1.5)。
7. PrefixProt 在低数据环境下表现出色。仅需 50 个训练样本,它就能以高置信度(中位数概率 ∼0.68)生成抗菌肽,同时优于文本引导和随机基线,使其成为稀有或新兴蛋白质设计场景的理想选择。
8. 前缀长度已被证明会影响性能。较长的前缀可以提高结构保真度(例如,对于 α 螺旋蛋白质),但需要更多的训练数据。对于低数据任务,较短的前缀(10-20 个标记)即可满足需求,从而兼顾效率和表达能力。
9. 与以往依赖离散氨基酸提示或模糊自然语言描述符的方法不同,PrefixProt 引入了针对蛋白质序列领域量身定制的语义和连续控制接口。这提供了以往方法所不具备的精度和可编程性。
10. PrefixProt 为蛋白质生成建立了一个轻量级、组合式和模块化的范例,将基于提示的控制与高效的微调连接起来。它可以扩展到治疗中更复杂的设计目标,例如个性化序列或多功能领域。
代码:https://github.com/chen-bioinfo/PrefixProt
论文:https://www.biorxiv.org/content/10.1101/2023.12.03.569747v3