1.VALID-Mol 是一个系统性框架,通过集成快速分子工程、领域特定微调和自动化化学验证,显著提高了 LLM 生成分子的可靠性,有效性从 3% 提高到 83%。
2. 与典型的 LLM 应用程序(这些应用程序会产生看似合理但化学上无效的输出)不同,VALID-Mol 使用化学信息学工具验证每个生成分子的语法和语义,从而确保其科学严谨性。
3. 该框架最引人注目的创新在于其系统化的快速分子工程流程。通过五次迭代,提示越来越详细,有效性率从 3%(基线)上升到 83%,其中明确的化学约束和格式防护发挥了关键作用。
4. 提示版本 4 包含合成指导、毒性约束和 markdown 样式的格式,实现了 91.7% 的化学有效输出,将提示设计从直觉驱动转变为指标驱动。
5. VALID-Mol 采用三层验证栈:语法检查(SMILES 格式)、化学合理性(使用 RDKit)和合成路径一致性。该验证栈可筛选出结构错误和不合逻辑的反应序列。
6. 基于 Mistral-8B 的微调模型,使用 LoRA 算法对特定领域的化学数据进行训练,其有效性和合成可行性显著高于基础模型——平均有效合成率为 60.5%,而未修改模型为 25.8%。
7. VALID-Mol 生成的分子靶标亲和力比预期高出 17 倍,并保持了良好的类药物特性,例如较低的 SA 值(即易于合成)和理想的 logP/logS 值。
8. 在使用 500 多种分子进行溶解度增强和代谢稳定性等任务的评估中,VALID-Mol 在有效性、预测功效和合成可行性方面均优于直接 LLM 生成和传统遗传算法。
9. 该框架支持交互式可视化流程,向用户呈现二维结构、预测的分子特性和分步合成方案,确保可解释性并方便专家评审。
10. 案例研究包括优化的 COX-2 抑制剂和激酶抑制剂,这些修饰不仅提高了效力或溶解度,而且还基于标准化学方法制定了合理且简洁的合成方案。
11. VALID-Mol 通过领域对齐的提示模板、验证规则和后处理,将 LLM 从概率文本生成器转变为可靠的科学助手。它是 LLM 在其他高精度科学领域部署的可推广蓝图。
12. 虽然 VALID-Mol 目前专注于分子设计,但其架构——将 LLM 创造力与确定性验证相结合的闭环工作流程——为 LLM 在工程、材料科学等领域的稳健应用提供了模板。
代码:https://github.com/malikussaid/valid-mol
研究论文:https://arxiv.org/abs/2506.23339#AI4Science