News Release

Chemical Science|英矽智能联合英伟达发布nach0创新大型语言模型

Peer-Reviewed Publication

InSilico Medicine

英矽智能联合英伟达发布nach0创新大型语言模型

image: 整合自然语言和分子表征数据库,利用英伟达NeMo神经模块网络,提供跨研究领域、跨任务类型的一站式生化问题解决方案。除自然语言理解、合成路线预测、化合物分子生成之外,nach0还可以结合多领域知识,高效解答生物化学问题。 view more 

Credit: 英矽智能

由生成式人工智能(AI)驱动的临床阶段生物医药科技公司英矽智能宣布,公司研发团队与英伟达合作开发的大型语言模型(large language model, LLM)nach0登上英国皇家化学学会旗舰期刊Chemical Science,整合自然语言和分子表征数据库,利用英伟达NeMo神经模块网络,提供跨研究领域、跨任务类型的一站式生化问题解决方案。除自然语言理解、合成路线预测、化合物分子生成之外,nach0还可以结合多领域知识,高效解答生物化学问题。

用于生物医学研究的LLM并非新鲜事物,但已有模型大多依赖于药物、基因和细胞系名称等自然语言文本,缺乏化学结构表征数据(如BioBERT和SciFive)。另一方面,Galanctica等模型涵盖文本和分子表征数据,却因为缺乏针对性训练,难以执行多种类的科研任务

为填补领域空白, nach0模型以包括超76亿个经注释token的多类型数据库为基础,文本数据来自超1300万份经过筛选的公开文献和专利申请文档,SMILES分子表征数据则来自全球最大的化合物数据库ZINC。

搭建完成后,研究人员利用英伟达NeMo神经模块网络的自然语言处理功能对nach0模型进行训练,力求解决三大类型任务,包括:自然语言处理(如文档分类和问题解答)、化学领域任务(如分子性质预测、分子生成和试剂反应预测),以及跨领域任务(如基于文字描述的分子设计和分子表征生成)。

英矽智能创始人兼首席执行官Alex Zhavoronkov博士表示,“自然语言提示词引导的药物发现有望实现自动化研发,Nach0意味着我们在这条道路上又前进了一步。未来,我们期待将蛋白质序列处理为大型语言模型token,并通过模型微调引入多模态数据,探索文本和知识图谱的多元融合。“

利用英伟达内存映射数据加载器模块,nach0可以在缩减内存占用的同时实现大型数据集的高速读取和管理。在对比实验中,nach0不仅超越了未经过专业领域训练的ChatGPT,相比其他用于生物医学领域的LLM,还在利用分子表征数据执行相关任务时表现出明显的优势。

英伟达生命科学全球业务发展负责人Rory Kelleher表示,“生成式人工智能和LLM正在改变生物学和化学领域的科学发现格局。英矽智能的生生物化学专业模型nach0由英伟达 BioNeMo 提供支持,是释放LLM在药物发现方面潜力的重要进展。”

除对比测试外,研究人员还在多个应用案例中验证了nach0模型的潜力。举例而言,在结合英矽智能Chemistry42生成式化学平台时,药化科学家只需要通过一句提示词描述潜力分子,nach0就能自动生成7200个候选分子,其中有8个符合所有要求,合格率超出对照组2倍以上(0.11% vs 0.04%)。而分子生成和评估耗时仅45分钟。

英矽智能公司研发科学家、论文共同第一作者Maksim Kuznetsov表示,“我们预计,随着 nach0的发展,它所需要的监督会越来越少,未来有望为药物化学家生成和验证有前景的治疗方案提供简单快速的解决方案。”

2016年,英矽智能全球首次在同行评审期刊上阐述了使用生成式人工智能设计新型分子的概念。随后,英矽智能为其基于生成对抗网络(GAN)的人工智能平台开发并验证了多种算法和功能,并将这些算法集成到商业化的Pharma.AI 平台中,该平台涵盖生成生物学、化学和医学等领域,已被用于纤维化、癌症、自免和衰老相关的多个疾病领域,并助力开发出一系列具有广阔前景的药物研发项目,其中一些项目已完成对外商业化授权许可。 

自 2021 年以来,英矽智能建立了超过30条丰富的自研管线组合,并从中提名了18款临床前候选项目,其中 7 个化合物已经获得临床试验许可。2024 年 3 月,英矽智能在全球顶尖学术期刊Nature Biotechnology上发表论文,披露了其领先的抗纤维化项目的部分临床前和临床阶段原始数据和评估结果,这是一款利用生成式人工智能研发的治疗特发性肺纤维化的潜在全球首创TNIK抑制剂,目前正在患者群体中展开2期临床试验。  

 

关于英矽智能

英矽智能是一家由生成式人工智能驱动的临床阶段生物医药科技公司,通过下一代人工智能系统连接生物学、化学和临床试验分析,利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建强大且高效的人工智能药物研发平台,识别全新靶点并生成具有特定属性分子结构的候选药物。英矽智能聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域,推进并加速创新药物研发。

更多信息,请访问网站
www.insilico.com

商务合作,请联系 bd@insilico.ai

媒体垂询,请联系 pr@insilico.ai


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.