1.PRO-LDM 引入了一种模块化潜在扩散模型,用于全长蛋白质序列设计,该模型兼具无条件生成和功能优化,将准确性与计算效率完美结合。
2. 一项重大创新在于在潜在空间中应用扩散,显著降低采样成本,同时保持生成序列的保真度和多样性。
3. PRO-LDM 通过将条件潜在扩散与监督适应度预测相结合,实现了具有目标特性(例如荧光、溶解度、热/化学稳定性)的蛋白质序列的可控设计。
4. 通过无分类器的引导调整实现了异常蛋白质设计,允许探索远远超出自然蛋白质分布的序列空间,同时仍能产生可折叠和功能性的变体。
5. 该模型成功设计了一种新的 GFP 变体 pro_2421,与野生型 GFP 相比,其荧光强度提高了 127 倍,并且具有增强的溶解度和热/化学稳定性——这已在计算机模拟和实验中得到验证。
6.与 EvoDiff、ProteinMPNN、ESM3 和 ProGen2 等其他最先进的模型相比,PRO-LDM 产生了更多类似天然序列(更低的 KL 散度)和更好的可折叠性(更高的 pLDDT),具有更高的预测适应度。
7.编码器和扩散模块的联合训练优于冻结语言模型嵌入(例如 ESM2),产生更清晰的潜在功能映射和更好的适应度预测泛化。
8.模型架构是模块化的:在预训练编码器(如 ESM2)中交换可以提高泛化能力,而在不同的数据集(例如 Swissprot、CATH)上进行训练可以从头生成新的蛋白质折叠。
9.在无条件模式下,PRO-LDM 在序列同一性和熵配置文件方面匹配或超过 VAE 和 JT-AE,无需 MSA 比对即可捕获关键的进化和生化特性。
10. 在条件模式下,该模型能够精准调整跨多个数据集的适应度分布,并泛化至突变、插入/缺失和序列长度变异。
11. 适应度预测与序列生成联合进行,实现预测与设计的无缝集成。回归器准确率与专用预测器相当。
12. 无需分类器的指导参数 ω 控制多样性与保真度的权衡:ω ≈ 1 可生成分布内高适应度序列;ω > 20 可实现分布外探索,同时保持可折叠性。
13. 该模型展现出广泛的泛化潜力——在 CATH 上训练时,它生成了与训练数据相似度极低且保留可折叠性的全新序列,在序列发散性方面优于 EvoDiff。
14. 实验结果证实,PRO-LDM 设计的变体实现了超越训练集基准的功能改进,验证了其在实际蛋白质工程中的实用性。