Mark Zuckerberg se pone ahora a doblar proteínas: su último ‘capricho’ para revolucionar la ciencia

Meta acaba de publicar los resultados de su herramienta para predecir la forma tridimensional de los ladrillos de la vida

Lo que empezó siendo una idea –tremendamente machista– para puntuar el físico de compañeras de facultad ha acabado desvelando la estructura vital de los ladrillos de que se compone todo ser vivo. Mark Zuckerberg transformó Facebook en Meta para cambiar la deteriorada imagen de su empresa, acusada de ser uno de los principales vehículos de bulos en el mundo, y darle un aire más serio y trascendente. Acaba de dar un paso de gigante para conseguirlo: un equipo de la compañía ha predicho la estructura de más de 600 millones de proteínas mediante inteligencia artificial.

No es la primera en hacerlo. Varias empresas están trabajando en proyectos similares en una carrera que promete cambiar la historia de la medicina. La más potente hasta ahora es otra vieja conocida de Silicon Valley: Google (o más bien, Alphabet, como se llama la empresa matriz) ya anunció este verano que había calculado la forma de más de 200 millones de proteínas. La batalla no ha hecho más que comenzar.

Desvelar la estructura de las proteínas es el gran sueño de las ciencias de la vida desde que se anunció la primera secuenciación del genoma humano, hace ahora 20 años. El salto entre uno y otro hito es mayor de lo que parece: el ADN, el libro de instrucciones de la vida, sirve para construir proteínas, pero estas son mucho más complejas que el código genético. Si éste combina cuatro letras, aquéllas utilizan hasta 20 aminoácidos.

La principal dificultad, no obstante, es que esa combinación genera unas estructuras tridimensionales que son las que otorgan a cada proteína su función, como si fueran piezas de Lego. Miremos, por ejemplo, a las vacunas contra la Covid: se basan en una proteína que será leída por las células humanas, que generarán otras proteínas (los anticuerpos) que se unirán al virus como una pieza de Lego para bloquear su capacidad de penetración en las células humanas.

Otro ejemplo más: una gran cantidad de enfermedades de origen genético se producen porque una mutación del ADN ha generado una estructura tridimensional diferente a la de la proteína ‘sana’, impidiendo realizar correctamente la función que venía determinada por esa estructura.

Rellenar los huecos

Con estos dos ejemplos, usted ya se puede hacer una idea de la importancia de conocer la estructura tridimensional de las proteínas. Saber de antemano cómo puede doblarse una combinación determinada de aminoácidos supone un paso de gigante en el conocimiento del mecanismo de innumerables enfermedades y en la posibilidad de desarrollar tratamientos para esas mismas condiciones.

ESMFold, que así se llama la herramienta desarrollada por Meta, se basa en un motor de aprendizaje por inteligencia artificial para rellenar textos a partir de letras o palabras sueltas. El equipo de Meta lo alimentó, en cambio, con las secuencias de todas las proteínas conocidas, así como con las relaciones entre esas secuencias y las estructuras proteicas.

Para testar su funcionamiento, ‘arrojaron’ ESMFold a una base de datos de secuencias de ADN brutas de distintas fuentes, desde muestras de tierra y agua de mar hasta piel humana. Sus resultados –que no han pasado, de momento, por una revisión de expertos independientes– predicen la estructura de 617 millones de proteínas mostrando, al menos un tercio de ellas, una gran precisión. El resto es posible que se deba a moléculas que carezcan de estructura definida de forma aislada o ADN no codificante (que no sirve para fabricar proteínas, que es la mayor parte del material genético).

La herramienta de Google, AlphaFold, había predicho la estructura de 214 millones de proteínas, básicamente la de cualquier proteína conocida. De ellas, el 35% eran predicciones de alta precisión, mientras que otro 45% se consideraban lo suficientemente precisas para poder utilizarlas en muchas aplicaciones.

El arma secreta de Meta, sin embargo, es la velocidad. Mientras que AlphaFold tarda minutos en realizar una única predicción, el equipo de ESMFold afirma que hizo todo el trabajo en apenas dos semanas. Es decir, más de 30.000 proteínas cada minuto.

Ambas compañías han puesto sus bases de datos (de varias decenas de terabytes cada una) a disposición de los investigadores de forma gratuita: es en la herramienta donde está la clave. Con todo, al igual que en el caso del genoma, la información producida no es útil tanto en sí misma como en la medida en que los científicos empiecen a utilizar las proteínas generadas en sus proyectos para confirmar o desechar hipótesis. El verdadero impacto de la guerra entre los dos gigantes de internet se verá con el tiempo.

Fuente: elespanol.com