Thomas Hayesらは、ESM3と呼ばれるマルチモーダル生成言語モデルに基づいて、これまで知られていなかった明るい蛍光タンパク質を生成・合成した。既知の蛍光タンパク質とは遺伝子配列が大きく異なるため、研究者らは、その生成はESM3が5億年の生物学的進化をシミュレートしたようなものだと述べている。このモデルは、自然に進化したタンパク質がどのように働くのかをよりよく理解するため、並びに医療、環境修復、およびその他の多くの用途に使用される新規タンパク質を開発するために、タンパク質の可能性の空間を「探索」する新しい方法を提供すると考えられる。ESM3は、タンパク質の配列、構造および機能を、生成言語モデルで組み合わせることができる個別のトークンのアルファベットで表すことによって説明できる。この戦略は、タンパク質配列のみを尺度とした言語モデルのこれまでの使用法とは異なる。ESM3のトレーニングデータは、31億5千万個のタンパク質配列、2億3600万個のタンパク質構造、および機能アノテーション付きの5億3900万個のタンパク質から作成された7710億個の固有のトークンで構成される。ESM3は最大980億個のパラメータをトレーニングすることができる。ESM3は現在、APIを介して公開ベータ版が提供されており、科学者がタンパク質をプログラム的に設計したり、インタラクティブなブラウザベースのアプリを通じて設計したりできる。研究者は、無料の学術アクセス層を介してこのEvolutionaryScale Forge APIを使用することも、オープンモデルのコードと重みを使用することもできる。
Journal
Science
Article Title
Simulating 500 million years of evolution with a language model
Article Publication Date
16-Jan-2025