Barcelona, 15 de septiembre de 2022 – La rápida evolución de las distintas disciplinas en los campos de la investigación biológica y biomédica (como pueden ser la genómica, la proteómica o la transcriptómica) hace que, en las últimas décadas, la cantidad de datos biológicos disponible haya crecido de manera exponencial. Por ejemplo, en el Instituto Europeo de Bioinformática (EMBL-EBI) han pasado de gestionar/almacenar un volumen de 40 petabytes a trabajar con 250 petabytes, en tan solo 6 años.
Científicos liderados por el Dr. Patrick Aloy, investigador ICREA y jefe del laboratorio de Bioinformática Estructural y Biología de Redes del IRB Barcelona han desarrollado una herramienta computacional para armonizar, integrar y simplificar estos datos. El resultado es un panel de conocimiento que proporciona información sobre cómo las distintas entidades biológicas se relacionan entre sí, incluyendo más de 30 millones de interacciones funcionales.
La Bioteque funciona integrando distintos niveles de complejidad biológica y así puede reportar, por ejemplo, sobre dos genes que están relacionados, si interaccionan físicamente, si son activos en el mismo tipo de células, si están relacionados con la misma enfermedad. O bien, podría predecir la sensibilidad o resistencia de un tipo de células ante un fármaco concreto.
“Este recurso computacional que hemos desarrollado es de los primeros dirigidos a unificar informaciones biológicas y es el único en abordar tal diversidad y cantidad de datos. Permite acceder, de forma fácil y armonizada a, prácticamente, todo el conocimiento biológico disponible a día de hoy y tiene un potencial enorme para acelerar la investigación biomédica”, explica el Dr. Patrick Aloy.
Casi 1.000 descriptores para 12 entidades biológicas
En la Bioteque, la información está estructurada en 12 tipos de entidades biológicas como pueden ser: gen, enfermedad, tejido, célula, etc. Y, para cada una de estas entidades, contempla una serie de descriptores o características, por ejemplo: el patrón de mutaciones de un gen, el perfil de interacciones físicas de las proteínas resultantes, la expresión de dicho gen en distintos tipos celulares o su relación con enfermedades. Entre las 12 entidades biológicas, el sistema contempla alrededor de 1.000 tipos de descriptores.
“Hemos trabajado con información procedente de 150 bases de datos distintas, así que primero tuvimos que integrarlas, es decir, ponerlas todas en el mismo “lenguaje”. Y luego ir convirtiendo ese conocimiento en descriptores numéricos que pudieran ser interpretados por los algoritmos, para así poder explotar computacionalmente esas redes y conexiones” concluye Adrià Fernández, primer autor del artículo y estudiante de doctorado en el mismo laboratorio.
La Bioteque se irá ampliando periódicamente con nuevas bases de datos, según se vayan haciendo públicas. Tanto la herramienta como las bases de datos y los algoritmos son de acceso abierto están disponibles aquí: https://bioteque.irbbarcelona.org/.
Journal
Nature Communications