Guiados por un modelo de lenguaje generativo multimodal denominado ESM3, Thomas Hayes y sus colegas generaron y sintetizaron una proteína fluorescente brillante hasta ahora desconocida, con una secuencia genética tan distinta de las proteínas fluorescentes conocidas que los investigadores afirman que su creación equivale a que ESM3 hubiera simulado 500 millones de años de evolución biológica. El modelo podría ofrecer un nuevo método para “explorar” el espacio de las posibles proteínas, tanto para comprender mejor cómo funcionan las proteínas que han evolucionado de forma natural como para desarrollar proteínas novedosas para usos en medicina, remediación ambiental y una amplia variedad de aplicaciones diversas. ESM3 puede razonar sobre secuencia, estructura y función de las proteínas, representando cada uno de estos aspectos mediante alfabetos de tokens discretos que se combinan en un modelo de lenguaje generativo. Esta estrategia difiere de anteriores usos de modelos de lenguaje que solo se habían escalado para secuencias de proteínas. Los datos de entrenamiento de ESM3 constan de 771.000 millones de tokens únicos derivados de 3.150 millones de secuencias de proteínas, 236 millones de estructuras proteicas y 539 millones de proteínas con anotaciones de función. ESM3 puede entrenar hasta 98.000 millones de parámetros. ESM3 ya está disponible en versión beta pública a través de una API, permitiendo así a los científicos diseñar proteínas de forma programática o mediante aplicaciones interactivas en navegadores. Los investigadores pueden utilizar la EvolutionaryScale Forge API con el nivel gratuito de acceso académico o emplear el código y los pesos del modelo abierto.
Journal
Science
Article Title
Simulating 500 million years of evolution with a language model
Article Publication Date
16-Jan-2025