News Release

英矽智能发布AI驱动多模态架构Precious2GPT,用于多组学、多物种、多组织的生物数据生成

Reports and Proceedings

InSilico Medicine

Precious2GPT结构图示

image: 来源:《Precious2GPT整合扩散模型和Transformer架构,用于多组学、多物种、多组织的生物数据生成》 view more 

Credit: 英矽智能

  • PreciousGPT系列是英矽智能搭建的开创性AI模型架构,旨在解读生命从出生到死亡的生物机制和衰老过程;
  • Precious2GPT是整合扩散模型和Transformer架构,可生成多组学、多物种和多组织生物学数据,用于药物发现和衰老研究,相关成果已发表在Nature旗下npj Aging期刊;
  • Precious3GPT 正在开源社区中验证,可通过 Discord 访问代码

 

近期,英矽智能发布了创新多模态架构Precious2GPT,整合预训练Transformer和条件扩散模型,用于多组学、多物种和多组织样本数据的生成和预测。该研究发表于Nature旗下专注衰老生物机制的期刊 npj Aging,展现了Precious2GPT 提供高质量生物数据的能力。通过模拟真实世界条件,Precious2GPT支持生物机制和衰老过程研究,辅助解码从出生到死亡的基本生物学进程。

组学数据的生成在基因组分析工具的训练和评估、差异化基因表达调控、数据架构探索等流程中发挥关键作用。然而,传统方法受限于生物数据固有的复杂性和可变性,往往难以满足要求。为破解这一难题,Precious2GPT整合条件扩散模型(CDiffusion)和仅包含解码器的多组学数据预训练Transformer模型(MoPT),并采用基因表达和DNA甲基化数据进行训练。研究表明,该新颖框架不仅优于条件生成对抗网络(CGANs)等现有模型,在生成具有代表性的数据,并捕捉组织和年龄特异性信息时也有出色的表现。

这项人工智能开发工作英矽智能加拿大蒙特利尔中心和中东阿布扎比中心合作完成,对其生成的合成数据和其他功能性的验证由英矽智能全球多个团队协作完成。

论文共同作者,英矽智能大湾区负责人潘颖博士表示,“Precious2GPT意味着多组学研究数据生成领域向前迈出的关键一步。该模型能生成准确的组学数据,为我们增进对复杂生物现象的理解和开发创新治疗策略提供了巨大的潜力。”

英矽智能研究团队采用混合方法构建了 Precious2GPT。首先采用CDiffusion 模型,根据基因表达网络模拟基因表达水平。该网络通过纳入基因之间的依赖关系,确保基因表达模式在生物学维度的可行性。此后,团队采用MoPT 模型评估单个基因的数据生成质量,并与真实世界特征进行对比给出质量评分。研究小组使用特征加权线性堆积(Feature Weighted Linear Stacking, FWLS)方法将上述模型结合起来,实现均衡、高质量的数据生成。

在验证研究中,Precious2GPT产出了颇有潜力的结果,利用生成数据达成了更准确的年龄预测,甚至生成了年龄超过120岁的人类生物学数据。此外,研究团队通过 UMAP 维度降低评估了Precious2GPT针对特定组织生成数据的能力,结果显示生成数据与真实标签高度一致。

在关注结直肠癌的案例研究中,Precious2GPT 通过生成结直肠癌细胞系的对照样本,该模型通过荟萃分析提名部分关键基因表达特征,结果与已知结直肠癌病理学研究结果相匹配。该实际案例进一步验证了Precious2GPT在生物信息分析和靶点发现方面的应用潜力。

英矽智能持续引领生成式人工智能与抗衰老研究前沿融合创新,并于2014年发表公司首篇采用前沿生物信息学探索衰老生物标志物的论文。随后,英矽智能首先在健康人多组学纵向数据库基础上对深度神经网络模型(DNNs)进行训练,再采用疾病的患者数据进行重复训练,最终搭建并验证了涵盖靶点发现、分子设计生成和临床试验预测的端到端AI药物研发平台Pharma.AI。

将多模态Transformer用于衰老的概念,是由英矽智能创始人兼首席执行官Alex Zhavoronkov博士于 2022年5月举行的戈登 系统老龄化研究会议(GRC)上首次提出的。随后,为了探索多模态变换器和扩散模型在学习纵向多模态和开发生命模型方面的潜力,英矽智能着手开发PreciousGPT 系列。在Precious2GPT之前,英矽智能于2023年6月发布了 Precious1GPT,这是一个基于Transformer的衰老时钟,利用甲基化和转录组数据进行衰老生物标志物开发和靶点发现。

该研究的通讯作者、英矽智能创始人兼首席执行官Alex Zhavoronkov 博士表示,"我们正在将Transformer、扩散模型和其他机器学习技术结合起来建立模型,以便及时了解生命基本的生物学变化,同时了解如何利用小分子、生物制剂、食物和其他介入手段,通过调节不同的生物通路在不同组织层面上影响这种生物学进程。PreciousGPT 系列正在开源社区开展验证,我们期望与世界各地的研究人员一起合作,为延长人类健康、高效和可持续的生命而努力。"

Precious2GPT 的意义远不止于衰老研究,通过生成具有高准确性和特异性的合成数据,该模型为研究各种生物学过程和疾病开辟了新途径。英矽智能的科学家计划将 Precious2GPT 的应用进一步扩展到其他生物信息学任务,包括生命周期分析、跨模态预测和特定疾病组学数据生成等。

 

关于英矽智能

英矽智能是一家由生成式人工智能驱动的临床阶段生物医药科技公司,通过下一代人工智能系统连接生物学、化学和临床试验分析,利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建强大且高效的人工智能药物研发平台,识别全新靶点并生成具有特定属性分子结构的候选药物。英矽智能聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域,推进并加速创新药物研发。

更多信息,请访问网站

www.insilico.com

商务合作,请联系 bd@insilico.ai

媒体垂询,请联系 pr@insilico.ai


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.