新たな研究で、DNA、RNA、そしてタンパク質配列の解読と設計を、分子レベルからゲノムレベルまで類のない精度で行える、「Evo」という機械学習モデルが発表された。全ゲノム配列を予測、生成、操作するEvoの能力は、合成生物学の方法を変える可能性がある。「細胞制御の全段階における変異の影響を予測し、DNA配列を設計して細胞機能を操作する能力は、疾患の診断と治療に対して多大な影響をもたらすだろう」と、関連するPerspectiveでChristina Theodorisは述べている。DNAは、たった4種類のヌクレオチドで生命に不可欠なすべての遺伝情報をコードしている。ゲノム配列の差異は、特定の生物学的機能のために選択された適応を反映している。これらの差異は、生物が新たなまたは変化しつつある環境に適応できるようにすることで進化を促す。DNA配列決定技術の進歩により、ゲノムの差異を全ゲノムスケールでマッピングできるようになった。これらのデータを新しい機械学習アルゴリズムと組み合わせれば、DNA、RNA、タンパク質の機能とその相互作用を理解できる包括的なモデルを構築できるだろう。しかし、大規模言語モデル(LLM)の成功に触発された一部の研究者は、同様な技術を適用してDNAを「言語」としてモデル化することを試みているが、現在の生成モデルは個々の分子やDNAセグメントに焦点を絞る傾向がある。このため、計算上の限界とともに、複雑な生物学的プロセスを理解するために必要な広範なゲノム相互作用を捉える上でのこれらのモデルの適用範囲が制約されている。
今回、Eric Nguyenらが、70億個のパラメータを備え、全ゲノムスケールに至るDNA配列を生成するよう設計された大規模なゲノム基盤モデル、Evoを発表した。StripedHyena構造で構築されたEvoは、進化的に多様な270万個の微生物ゲノムのデータセットでトレーニングされた。Nguyenらによれば、Evoは予測的および生成的生物学タスクにおいてともに優れており、細菌タンパク質およびRNAに対する変異の影響を予測するためのゼロショット評価ならびに遺伝子制御のモデリングでも高い精度を達成した。Evoはコード領域と非コード領域の複雑な共進化も把握し、CRISPR-Cas複合体や転移因子などの複雑な生体系の設計を支援する。ゲノムスケールでは、Evoは長さ1メガ塩基を超える配列を生成できる。これは以前のモデルをはるかに上回る能力である。「将来のモデルは、ヒトやその他の真核生物のさまざまなゲノムから学習し、大きなコンテキスト長を用いて、大きなゲノムスケールで離れたゲノムの相互作用を捉えることができるだろう」とPerspectiveでTheodorisは述べている。
Journal
Science
Article Title
Sequence modeling and design from molecular to genome scale with Evo
Article Publication Date
15-Nov-2024