一项新的研究介绍了“Evo”——这是一种机器学习模型,它能以无与伦比的精度解码和设计从分子到基因组规模的 DNA、RNA 和蛋白质序列。Evo 的预测、生成和设计整个基因组序列的能力或可改变合成生物学的运作方式。Christina Theodoris 在一篇相关的《视角》中写道:“预测细胞中所有调控层突变的影响以及通过设计 DNA 序列来操纵细胞功能的能力将对疾病的诊治产生巨大影响。”DNA 仅由四个核苷酸组成,但它却能编码生命所必需的所有基因信息。基因组序列的变化反映了为特定生物功能所选择的适应性变化。这些变异通过令生物体能够适应新的或正在变化的环境而驱动演化过程。DNA 测序技术的进步使得人们能够在全基因组范围内绘制基因组变异图。当与新颖机器学习算法相结合时,这些数据可以创建一个能够理解 DNA、RNA 和蛋白质功能及其相互作用的综合模型。但是,尽管一些研究人员在大型语言模型 (LLMs) 成功的激励下试图通过应用类似的技术将 DNA 建模为一种“语言”,但当前的生成模型往往只关注单个分子或 DNA 片段。除了计算限制之外,当前的生成模型还限制了这些模型在捕捉理解复杂生物学过程所必需的更广泛的基因组相互作用的范围。
Eric Nguyen 和同事在此介绍了 Evo——它是一种配备了 70 亿个参数的大规模基因组基础模型,其设计目的是生成全基因组规模的 DNA 序列。在 StripedHyena 架构之上建立的Evo 是在一个有 270 万个多样化演变的微生物基因组的数据集上进行训练的。据 Nguyen 等人披露,Evo 在预测性和生成性生物学任务方面都表现出色,在预测突变对细菌蛋白质和 RNA 影响的零样本评估中以及在基因调控建模方面都实现了高精度。Evo 还掌握了编码和非编码序列之间复杂的协同演化,从而可对复杂生物系统(如 CRISPR-Cas 复合物和转座子)的设计提供支持。Evo 可在基因组尺度生成长度超过 1 兆碱基的序列,这一能力远远超过了之前的模型。Theodoris 在《视角》中写道:“通过用更长上下文来捕捉更大尺度基因组中的基因组远距离相互作用,未来的模型或可对人类和其他真核生物不同的基因组进行学习。”
Journal
Science
Article Title
Sequence modeling and design from molecular to genome scale with Evo
Article Publication Date
15-Nov-2024