基于Transformer的大型语言模型(LLMs)因其自然语言理解、推理和文本生成以及涉及文本和图像数据的多模态数据处理能力而闻名。举例而言,ChatGPT、Claude等专有模型,以及Llama、Mixtral等开源模型在大多数涉及文本的任务中都达到了行业前沿(state-of-the-art)的性能。在化学和生物学领域,Transformer和扩散模型则在蛋白质结构预测和分子生成等任务中表现出色。
然而,在构建纵向世界模型或复杂生物有机体模型等复杂任务方面,上述模型进展甚微。解读年龄增长中的生物学变化需要横跨多种数据类型的高度多模态系统,助力分析基因组学(DNA)、表观遗传学(甲基化和乙酰化)、转录组学(RNA)、蛋白质组学、信号通路、细胞、组织、器官和系统组织,以及生物进程随时间的波动。搭建完成后,针对此种多模态多组学系统的结果验证需要在多个实验动物种属中进行。
2022年5月,Alex Zhavoronkov博士首次在戈登系统衰老研究会议(GRC)上提出多模态Transformer用于衰老研究的概念。为探索多模态Transformer和扩散模型在生命医学领域的潜力,英矽智能于2022年开启PreciousGPT系列的研发工作。其中,Precious1GPT是一个使用甲基化和转录组学数据进行衰老生物标志物开发和靶点发现的双Transformer模型。现已发表在Nature旗下npj Aging期刊的Precious2GPT则进一步整合扩散模型,以多组学数据为基础进行数据生成和药物发现等研发任务。点击链接了解更多:https://insilico.com/precious
现在,英矽智能宣布推出Precious3GPT,首个用于衰老研究和药物发现的多组学、多物种、多组织、多模态Transformer模型。该模型经过生物医学文本数据的训练,涵盖来自小鼠、大鼠、猴和人类的多种数据类型,包括转录组学、甲基化、蛋白质组学和血液检测结果。
作为Precious系列最先进的产品,Precious3GPT由英矽智能研发团队与哈佛大学Vadim Gladyshev和Albert Ying合作开发,现已通过Hugging Face和GitHub实现源代码开放,期待真实试用反馈驱动功能更新优化。此外,关于Precious3GPT的详尽描述和初始功能已在预印本论文中发布。
基于新颖的token划分逻辑,研发团队使用公开组学数据集、生物医学文本数据和知识图谱搭建涵盖超过200万数据点的大型集合,并驱动Precious3GPT开展真正的多模态学习过程,从而实现特定组织的年龄预测、生物医学实验模拟、化合物效应转移等功能。上述功能均可通过自然语言提示完成,和日常对话并无太大差别。
Precious3GPT产生的一些抗衰老研究结果已经通过实验验证,其中包括英矽智能第六代AI驱动的自动化机器人实验室LifeStar 1开展的实验。
英矽智能创始人兼首席执行官Alex Zhavoronkov博士表示:“衰老研究领域专注于基于不同数据类型的衰老时钟,进而开展潜力化合物筛选。利用同时在多种数据类型上训练的多模态、多物种Transformer,我们可以用一个模型执行基本靶点和药物发现以及年龄预测任务,代替所有的衰老时钟。就像《指环王》中的至尊魔戒一样,Precious3GPT可以整合并超越单一衰老时钟的能力。另外值得一提的是,Precious3GPT模型完全由英矽智能中东AI研发中心开发和测试,展现了该地区不断增长的科研潜力。作为Precious项目的目标之一,我们期待团结中东北非地区和世界各地的国家,携手为地球上每个人延长健康、可持续的生命而努力。”
英矽智能中东研发中心生物团队成员Khadija Alawi博士表示,“只要提出问题,Precious3GPT可以协助找到适用于不同物种或影响多种组织的化合物,或者能够治疗多种疾病的化合物。此外,通过比较针对小鼠和人类生成的化合物,我们进一步探索跨物种起效的潜力化合物,为后续体内验证实验打下基础。”
Precious项目负责人Fedor Galkin表示,“通过在组织、物种和组学数据类型之间实现精确的生物学年龄预测,我们的PreciousGPT系列可以促进更个性化和有效的治疗方法的开发。为了造福研究人员和其他所有人,我们已经开源最新的Precious3GPT,以技术公开分享促进产业生态系统协作。”
作为“英矽智能生成式人工智能行动”(Insilico Medicine Generative AI Action, IMGAIA)的一部分,Precious3GPT与同期发布的、用于撰写科学内容的智能写作助手DORA无缝融合,有望驱动自动化衰老研究。此外,英矽智能还在IMGAIA网络研讨会宣布了可持续发展倡议,针对二氧化碳捕获、氢气存储、可持续润滑剂和可持续农业开展基准测试。
英矽智能成立于2014年,并于2016年全球首次在同行评审期刊上阐述了使用生成式人工智能设计新型分子的概念,为涵盖生成生物学、化学和医学等领域的商业化Pharma.AI平台奠定了基础。自2021年以来,英矽智能在自有人工智能平台Pharma.AI的支持下,建立了超过30条丰富的自研管线组合,并从中提名了18款临床前候选项目,其中9款化合物获得临床试验许可。近期,公司在Nature Biotechnology发表论文,介绍其领先药物 INS018_055 从人工智能算法到 II 期临床试验的整个研发历程。
关于英矽智能
英矽智能是一家由生成式人工智能驱动的临床阶段生物医药科技公司,通过下一代人工智能系统连接生物学、化学和临床试验分析,利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建强大且高效的人工智能药物研发平台,识别全新靶点并生成具有特定属性分子结构的候选药物。英矽智能聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域,推进并加速创新药物研发。
更多信息,请访问网站
www.insilico.com
商务合作,请联系 bd@insilico.ai
媒体垂询,请联系 pr@insilico.ai