News Release

一种为设计蛋白质而开发的 AI 模型可在开发新型荧光蛋白中模拟 5 亿年的蛋白进化

Summary author: Becky Ham

Peer-Reviewed Publication

American Association for the Advancement of Science (AAAS)

在名为 ESM3 的多模态生成语言模型的指导下,Thomas Hayes 和同事生成并合成了一种先前未知的明亮荧光蛋白,其基因序列与已知荧光蛋白大不相同;研究人员表示,这种荧光蛋白的产生相当于 ESM3 模拟了 5 亿年的生物演化。该模型或可为“搜索”蛋白质可能性的空间提供一种新方法,这种方法着眼于更好地了解自然演变出的蛋白质的作用方式以及开发用于医学、环境修复和许多其他应用的新型蛋白质。ESM3 可通过离散标记字母表来表示这些内容中的每一项而推断蛋白序列、结构和功能;这些字母表能以一种生成语言模型进行组合。这种策略不同于以前的仅针对蛋白序列进行缩放的语言模型应用。ESM3 的训练数据包括 7710 亿个独特标记,这些标记由 31.5 亿个蛋白序列、2.36 亿个蛋白结构和 5.39 亿个带有功能注释的蛋白创建而成。ESM3 最多可以训练 980 亿个参数。ESM3 现已可通过 API (应用程序编程接口)公开测试版而获取,使科学家能够以编程方式或通过基于浏览器的交互式应用程序来设计蛋白质。研究人员可通过免费的学术访问层级或用开放模型代码和权重来使用 EvolutionaryScale Forge API。


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.