基于结构的分子生成(Structure-Based Molecular Generation, SBMG)是人工智能驱动药物设计的热点方向,然而蛋白–配体复合物结构数据的稀缺制约了SBMG方法的发展。受量子化学计算的启发,研究人员提出了ECloudGen模型,引入电子云作为物理上有意义的潜在变量,通过融合潜变量扩散模型、Llama架构与对比学习任务,将化学空间组织为结构化且可解释的潜在表征。实验显示,电子云潜变量的引入不仅提升了生成性能,还赋予模型层面的可解释性,实验结果进一步验证了该方法的实用性。

10月15日,浙江大学药学院侯廷军与谢昌谕团队、上海交通大学溥渊未来技术学院郑双佳助理教授团队以及徐州医科大学郭栋教授团队在Nature Computational Science发表题为“ECloudGen: leveraging electron clouds as a latent variable to scale up structure-based molecular design”的论文。针对分子生成领域长期存在但常被忽视的结构数据稀缺问题,研究人员开发了 ECloudGen 框架,如图1。其核心思想是引入潜在变量𝐶,将生成过程分解为 p(G|C, p) × p(C|p)。这使得模型可以从配体–蛋白复合数据中学习分子生成模式,同时利用仅含配体的大规模数据来拓展潜空间。与传统隐变量不同,ECloudGen 选择物理上具有明确意义的“电子云”作为潜变量。电子云不仅代表分子的量子特征,也是决定原子间相互作用的根本因素。这一选择在物理合理性、可解释性与可控性之间实现了平衡。对血管加压素受体V2R和肿瘤相关靶点BRD4,ECloudGen设计的候选分子均表现出明显生物活性,证明了该方法药物设计中的巨大应用潜力。

图1. ECloudGen流程示意图
浙江大学药学院为本论文的第一署名单位,浙江大学硕士生张昊天(现为香港中文大学博士生)、澳门理工大学博士生金婕妤和浙江大学吴振兴博士为共同第一作者,侯廷军教授、谢昌谕教授、郑双佳助理教授以及郭栋教授为共同通讯作者。



