1.codonGPT引入了第一个直接在编码mRNA序列(密码子)上训练的生成语言模型,解决了基于RNA的序列建模中一个主要问题,该问题一直落后于DNA和蛋白质建模的进展。
2.一项关键创新是使用推理时间同义逻辑掩蔽,确保生成的密码子序列以100%的保真度保留原始氨基酸序列,这对于治疗应用至关重要。
3.强化学习(RL)首次在codonGPT的基础上用于优化特定蛋白质的密码子序列。这允许用户跨多个生物约束(例如CAI、GC含量、RNA稳定性、密码子多样性和重复使用)进行可定制的优化。
4.与之前应用通用优化的模型不同,codonGPT能够通过RL进行针对特定蛋白质的微调,使其成为治疗和合成生物学中个性化或靶向基因设计的理想选择。
5. codonGPT 嵌入无需监督即可在向量空间中自然地聚类同义密码子。这意味着该模型纯粹从序列数据中学习遗传密码的结构,而不是从蛋白质比对中学习。
6. 与表达(如 CAI)和核苷酸组成(如 GC 含量)相关的密码子使用偏好在模型中自发出现,反映了 codonGPT 对生物学相关偏好的内化。
7. 在 100 个人类管家基因中,codonGPT 生成的序列保留了蛋白质同一性,同时产生了生物学上合理的序列多样性,其密码子使用模式与天然序列的余弦相似度中值为 0.87。
8. 在针对两个不同基因(HLA-A 和 ACTB)优化密码子时,强化学习微调实现了比天然模型和竞争模型更高的 CAI 和更稳定的 mRNA 结构(ΔG),且不牺牲密码子多样性。
9. 强化学习引导的序列在主成分空间中形成了独特的高回报聚类,这表明该模型能够导航至传统生成模型中不太可能出现的最佳生物学配置。
10. 通过其新颖的逻辑掩码机制,codonGPT 可以支持超越强化学习的灵活推理时间约束,例如强制基序存在或排除限制性位点。
11. 该基础模型将密码子优化从基于规则的启发式算法或掩码 BERT 架构转向可实时适应用户自定义生物学目标的生成式、可微调的框架。
12. 该研究将 codonGPT 定位为可扩展的模块化解决方案,适用于下一代应用,包括 mRNA 疫苗设计、治疗性蛋白质生产和多宿主表达调控。