News Release

盘古药物分子大模型:像人类一样学习分子

Peer-Reviewed Publication

Science China Press

盘古预训练和下游应用的流程示意图

image: 盘古预训练和下游各种AI药物筛选任务的过程示意图。改图上半部分表示PanGu的不对称条件变分自动编码器结构以及对17亿个小分子的预训练。下半部分表示了盘古药物分子大模型人工智能驱动的药物筛选流程图,包括化合物-蛋白质相互作用预测、分子性质预测、分子优化和分子库生成等任务,并显示了从化合物筛选库到苗头化合物发现、先导物优化等分子筛选程序。 view more 

Credit: ©《中国科学》杂志社

该研究由乔楠博士(华为云医疗智能体团队)和郑明月博士(中科院上海药物研究所)领衔。“过去一年中,语言模型的参数规模仍在不断增长,纷纷超过1750亿的GPT-3”, 乔博士说:“新一代语言模型,以更真实的方式与用户互动,如回答问题、承认错误、质疑不正确的问题或拒绝不适当的请求,甚至被认为会颠覆搜索引擎。”

除了语言模型,图像、视频和多模态等领域这一年都被Transformer架构同时刷新了模型规模和性能基准。这些大模型通常使用自监督学习方法,一方面可以大大减少工作量,另一方面在长尾任务中也能取得更好表现。但是,在AI制药领域,此前还没有一个真正意义上的大模型,用以加速药物研发各环节,提高药物研发效率。

林歆远、徐迟博士和熊招平博士与医疗智能体团队总监乔楠博士一起,试图建立一个药物发现的大模型,可用于分子性质预测、分子生成和优化等药物发现任务。不同于经典的序列到序列(seq2seq)和图到图(graph2graph)的变分自编码过程,该项工作提出了一种新型的图到序列(graph2seq)不对称结构。模型对17亿类药化学分子(当前最大)进行预训练,输入的是类药分子的二维无向循环图,输出的是相应的化学式或SMILES字符串。人类阅读化学结构的图像,并写下相应的化学式的文本,因此在重复数十亿次之后,盘古可以学习到化学结构和公式串之间的关系,类似人类的认知转换。

在用17亿个小分子进行预训练后,模型在20个药物发现任务中取得了最先进的结果,这些任务包括分子性质预测(预测ADMET性质、化合物-靶点相互作用、药物-药物相互作用和化学反应产率)、分子生成和分子优化。盘古分子生成器还生成了一个新的药物筛选库,其中有1亿个类药小分子,其新颖度为99.68%,它可以有效地生成与给定分布具有相似理化性质的新化合物,这个库可以用来补充现有的化合物数据库。此外,盘古分子优化器可以优化起始分子的化学结构,改善感兴趣的分子特性。一个由盘古药物模型实现的自动多目标优化网络应用程序见 http://www.pangu-drug.com/

研究详情请见原文:

PanGu Drug Model: Learn a Molecule Like a Human

https://doi.org/10.1007/s11427-022-2239-y


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.