La batalla entre Google y Meta que nadie esperaba: revolucionar la biología
El sistema AlphaFold de Google revela la estructura en 3D de las proteínas y ya es utilizado por miles de biólogos, pero Meta contraataca con otro algoritmo. ¿Cuál es mejor?
Las proteínas son la esencia de la vida. Estas complejas moléculas actúan como diminutas máquinas que ejecutan todas las tareas de los seres vivos. Los procesos biológicos que tienen lugar en las células, los tejidos y los órganos dependen de ellas. Por eso, los avances en torno a las enfermedades que afectan a nuestro cuerpo y sus posibles tratamientos tienen que ver con las proteínas. Ocurre lo mismo con los innumerables desarrollos biotecnológicos con aplicaciones para la industria, la agricultura o el medio ambiente. El conocimiento acumulado en las últimas décadas es fabuloso, pero podría ser una pequeña parte de lo que nos queda por descubrir.
Estas moléculas están compuestas por 20 aminoácidos distintos, enlazados como si fuera un collar. El problema es que el orden y la estructura lo cambian absolutamente todo y para entender las funciones de las proteínas es imprescindible averiguar esos detalles. Ese trabajo es arduo y complicado o más bien lo era hasta ahora. En 2021 la revista Science eligió como avance científico más importante del año la predicción de la forma tridimensional que adopta esa cadena de aminoácidos: gracias a la inteligencia artificial, la compañía DeepMind, filial de Google, podía averiguar rápidamente esa configuración a partir de su secuencia genética (escrita con las letras del ADN, en dos dimensiones). Este verano la misma empresa sorprendía con un nuevo hito: el programa que utiliza, llamado AlphaFold, ya ha calculado la forma de 220 millones de moléculas, es decir, casi todas las proteínas de los seres vivos conocidos del planeta. El acceso a esta base de datos es libre y gratuito, así que la comunidad científica internacional tiene un tesoro para lograr avances sin precedentes en muchísimas ramas del conocimiento.
¿Insuperable? No, en ciencia cada paso precede al siguiente. A la carrera por desentrañar la forma tridimensional de estas moléculas se ha sumado Meta (la antigua Facebook). ¿Qué puede aportar a estas alturas si ya tenemos la estructura de todas las proteínas conocidas? La respuesta va implícita en la pregunta: las no conocidas. Meta AI, el laboratorio de inteligencia artificial de Mark Zuckerberg, ha sido capaz de predecir la forma de 617 millones de proteínas, según un preprint publicado recientemente en la plataforma Biorxiv. Aunque el hallazgo está pendiente de la revisión por pares, ya ha levantado una enorme expectación entre los biólogos, porque supondría disponer de los datos de proteínas de microorganismos como bacterias y virus que ni siquiera hemos caracterizado hasta ahora. ¿Que nos va a deparar esta competencia entre dos gigantes tecnológicos en el campo de la bioinformática?
El sistema de Meta, llamado ESMFold, no es tan preciso como AlphaFold, pero podría ser increíblemente más rápido a la hora de predecir las estructuras, hasta 60 veces más, según un artículo publicado por Nature en el que varios expertos analizaban esta competencia. Al parecer, habría sido capaz de descifrar la forma de sus más de 600 millones de proteínas en solo dos semanas. Para lograrlo, usó un tipo de inteligencia artificial conocida como LLM (del inglés large language models). Aunque estos modelos de lenguaje se suelen utilizar para predecir textos a partir de pocas letras o palabras, en esta ocasión, los investigadores hicieron lo mismo con las proteínas, de manera que el programa puede autocompletar incluso la forma en 3D de las más desconocidas.
¿Es fiable? Los propios autores llegan a la conclusión de que 225 millones de predicciones (de un total de 617 millones) eran de alta calidad. Es decir, que los científicos pueden confiar en que la forma de estas proteínas es correcta a pesar de que muchas de ellas son realmente distintas a las de los seres vivos conocidos y secuenciados hasta ahora. Otra cuestión es si realmente la propuesta de Meta AI ofrece ventajas frente al detalle a nivel atómico de cualquier proteína incluida en la base de datos de Google, que ya está siendo utilizada por miles de científicos de todo el mundo.
Por qué AlphaFold ya es una herramienta común
Uno de ellos es Carlos Fernández Tornero, del Centro de Investigaciones Biológicas Margarita Salas (CSIC), que ha incorporado AlphaFold a su trabajo “de manera rutinaria”, afirma en declaraciones a Teknautas. El motivo es que su laboratorio se ocupa, precisamente, de la biología estructural. Es decir, que se dedica “a desvelar estructuras tridimensionales de proteínas de manera experimental con el fin de comprender cómo funcionan y así inspirar el diseño de fármacos o comprender mejor el funcionamiento de la vida”. A pesar de que la base de datos de DeepMind es muy reciente “ya ha cambiado nuestro paradigma de estudio y las preguntas que nos hacemos son diferentes”.
Su caso es buen ejemplo de la revolución que vive la biología mundial: como parte del trabajo que hacía ya está resuelto por el sistema de Google, puede dar un salto de calidad y plantearse objetivos más complejos. En concreto, su grupo de investigación estudia la enfermedad del sueño o tripanosomiasis africana y en la actualidad analiza un complejo multiproteico (una agrupación de varias proteínas) que es esencial para la vida del parásito que la causa. “Una cosa que todavía no sabe hacer AlphaFold es predecir cuál es la estructura de las proteínas cuando actúan conjuntamente”, explica. De hecho, dentro de las células, estas moléculas no suelen funcionar como entidades independientes, sino formando complejos macromoleculares, y “es en esa interacción, proteína a proteína, donde se genera una nueva función o se modula su actividad”. El resultado de esa interacción aún es un trabajo reservado a los científicos. “Nosotros utilizamos la predicción de las proteínas individuales de AlphaFold para deducir la estructura del complejo de forma más rápida y comprender cómo funcionan esas moléculas de manera coordinada”, comenta.
El trabajo de este equipo del CIB Margarita Salas muestra la importancia de conocer la forma tridimensional de las proteínas. “Es lo que determina su función”, explica Fernández Tornero, “se han otorgado una decena de premios Nobel al hallazgo de estas estructuras, porque sin esa información no podemos saber para qué sirven”. Las aplicaciones biomédicas y biotecnológicas son casi infinitas. Gran parte del diseño de fármacos está basado en ese dato. Conocer la arquitectura de una proteína puede ser el primer paso para desarrollar una molécula química capaz de entrar en el lugar preciso para bloquear su actividad. Por ejemplo, “podemos estar hablando de una molécula esencial para el desarrollo de un tumor; si bloqueamos su función, impedimos el crecimiento del cáncer”. Del mismo modo, pero en el ámbito biotecnológico, este conocimiento puede servir para degradar un compuesto químico que daña el medio ambiente.
El abanico de aplicaciones es tan amplio que no es de extrañar que cada mes aparezcan ya decenas y decenas de publicaciones científicas que citan a AlphaFold. De hecho, una simple búsqueda en Google Académico arroja ya más de 10.000 resultados, incluyendo citas y patentes. “Va a ser una herramienta esencial para los estudios de biología y ya lo estamos usando no solo los biólogos estructurales, sino otros muchos especialistas que hasta ahora no se relacionaban con el mundo de las estructuras de proteínas y ahora ya forma parte de su día a día”, comenta el experto del CSIC.
La aportación de Meta
Por eso, muchos se preguntan ahora si el impacto de ESMFold, el sistema de Meta, al que aún no han tenido acceso, puede ser similar o incluso mayor; o si, por el contrario, tendrá un papel secundario ante la excelente precisión de AlphaFold con las proteínas ya conocidas. Ambos proyectos parten de ideas distintas. El de Google está basado en los organismos que han sido secuenciados y realiza la predicción de sus proteínas. Sin embargo, el desarrollo de nuevas técnicas de secuenciación de células individuales (single-cell sequencing, en inglés) está ofreciendo nuevas posibilidades y esa es la baza que intenta explotar la compañía de Zuckerberg.
“Si tomamos muestras de los lugares más insospechados, como las profundidades del mar, los volcanes o los géiseres, obtenemos cantidades muy pequeñas de ADN de organismos que ni siquiera sabemos que existen, pero podemos secuenciar fragmentos de su genoma”, explica el investigador del CIB Margarita Salas. A partir de esos trozos también se puede deducir la secuencia proteica, por eso Meta predice estructuras tridimensionales al estilo de AlphaFold, pero con un sistema distinto y enfocado a microorganismos como virus o bacterias cuyo genoma aún no se conoce.
“Estas son las estructuras de las que menos sabemos, son proteínas increíblemente misteriosas y ofrecen un gran potencial para la comprensión de la biología”, ha defendido Alexander Rives, que lidera el equipo de Meta AI involucrado en este proyecto. En su opinión, la gran capacidad del nuevo sistema permitirá “escalar la predicción a bases de datos mucho más grandes” y las posibilidades son fabulosas, sobre todo por su carácter metagenómico, es decir, que se puedan realizar estas predicciones a partir de esas muestras que mezclan el genoma de muchísimos organismos distintos. Otros expertos comparten el entusiasmo ante las nuevas oportunidades que genera el sistema, aunque con matices. Por ejemplo, el biólogo de la Universidad de Harvard Sergey Ovchinnikov ha puesto el foco en las predicciones del nuevo sistema que son menos fiables, más de la mitad de las que ha realizado.
En cualquier caso, los expertos ven una diferencia en ESMFold que puede ser muy importante. El algoritmo que emplea es más adecuado para determinar cómo una mutación altera la estructura de una proteína. “Hasta ahora obteníamos la estructura tridimensional de la proteína sin la mutación. Rara vez también éramos capaces de obtener la estructura tridimensional del mutante de manera experimental y, comparando ambas, deducíamos qué era lo que no funcionaba. Esto ya se puede hacer por ordenador”, destaca Carlos Fernández Tornero. Este avance puede ser trascendental en la biomedicina, empezando por patologías de origen genético. “Hasta ahora, AlphaFold no lo podía hacer, pero parece que el sistema de Meta sí será capaz de predecir la estructura de una proteína mutada, así que vamos a poder comprender mejor la base de muchas enfermedades”, añade.
Los científicos esperan poder utilizar los datos generados por Meta de forma libre y gratuita, del mismo modo que ya lo hacen con AlphaFold. “El hecho de que esté en abierto nos permite acceder a la información de manera inmediata”, comenta el investigador del CSIC. “Espero que estas empresas mantengan su compromiso con la sociedad, porque se han nutrido de los estudios previos de miles de biólogos estructurales, que ha trabajado en este campo durante 70 años, con una cantidad inmensa de inversión pública para obtener las estructuras con las cuales ellos han entrenado su sistema de inteligencia artificial”, comenta.
Fuente: elconfidencial.com