News Release

Presentando Evo: un modelo para descifrar y diseñar secuencias genéticas

Summary author: Walter Beckwith

Peer-Reviewed Publication

American Association for the Advancement of Science (AAAS)

Un nuevo estudio presenta “Evo”, un modelo de aprendizaje automático capaz de descifrar y diseñar secuencias de ADN, ARN y proteínas, desde la escala molecular hasta el nivel genómico, con una precisión sin precedentes. La capacidad de Evo para predecir, generar e ingenierizar secuencias genómicas completas podría transformar el modo en que se practica la biología sintética. “La capacidad de predecir los efectos de las mutaciones en todos los niveles de regulación celular y diseñar secuencias de ADN para manipular la función celular tendría enormes implicaciones diagnósticas y terapéuticas para enfermedades”, escribe Christina Theodoris en un artículo de Perspective relacionado. Con un vocabulario de solo cuatro nucleótidos, el ADN codifica toda la información genética esencial para la vida. Las variaciones en la secuencia genómica reflejan adaptaciones seleccionadas para funciones biológicas específicas. Estas variaciones impulsan la evolución al permitir que los organismos se adapten a entornos nuevos o cambiantes. Los avances en las tecnologías de secuenciación de ADN han permitido mapear variaciones genómicas a escala de genoma completo. Estos datos, combinados con nuevos algoritmos de aprendizaje automático, podrían permitir la creación de un modelo integral que entienda las funciones de ADN, ARN y proteínas, junto con sus interacciones. Sin embargo, si bien algunos investigadores inspirados en el éxito de los grandes modelos de lenguaje (LLM) han tratado de modelar el ADN como un "lenguaje" aplicando técnicas similares, los modelos generativos actuales tienden a centrarse de manera limitada en moléculas individuales o segmentos de ADN. Junto con las limitaciones computacionales, esto ha restringido el alcance de estos modelos para capturar las interacciones genómicas amplias necesarias para comprender procesos biológicos complejos.

 

En esta ocasión, Eric Nguyen y sus colegas presentan Evo, un modelo fundacional genómico a gran escala, equipado con 7.000 millones de parámetros y diseñado para generar secuencias de ADN hasta la escala de genomas completos. Construido sobre la arquitectura StripedHyena, Evo fue entrenado con un conjunto de datos de 2,7 millones de genomas microbianos evolutivamente diversos. Según Nguyen y sus colaboradores, Evo sobresale en tareas biológicas tanto predictivas como generativas, logrando una elevada precisión en evaluaciones de cero datos previos para predecir el impacto de mutaciones en proteínas y ARN bacterianos, así como en el modelado de la regulación génica. Evo también comprende la compleja coevolución entre secuencias codificantes y no codificantes, lo que apoya el diseño de sistemas biológicos intrincados como los complejos CRISPR-Cas y los elementos transponibles. A escala genómica, Evo es capaz de generar secuencias de más de 1 megabase de longitud, una capacidad que supera ampliamente a modelos anteriores. “Los modelos futuros podrían aprender de genomas humanos y de otros eucariotas diversos, utilizando mayores longitudes de contexto para capturar interacciones genómicas distantes en escalas genómicas más amplias”, escribe Theodoris en el artículo de Perspective.


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.