sliderTecnología

Un algoritmo predice las peores mutaciones del coronavirus

Al abordar la genética y sus variaciones como frases con estructura y significado, un equipo ha logrado aplicar procesamiento del lenguaje natural para identificar los próximos cambios que la COVID-19 podría desarrollar y cuáles tienen más probabilidades de esquivar al sistema inmunitario

El científico Galileo Galilei creía que la naturaleza era un libro escrito en lenguaje matemático. Y dado que la biología se puede escribir con palabras, no es de extrañar que hayan surgido distintos algoritmos de procesamiento de lenguaje natural (PLN) capaces de generar secuencias de proteínas y predecir mutaciones de virus, incluidos los cambios clave que ayudan al coronavirus a esquivar el sistema inmunológico.

La característica fundamental permite esto reside en el hecho de que muchas propiedades de los sistemas biológicos se pueden interpretar en términos de palabras y frases. “Estamos aprendiendo el lenguaje de la evolución”, afirma la bióloga computacional del Instituto de Tecnología de Massachusetts (EE. UU.) Bonnie Berger.

En los últimos años, un puñado de investigadores, como los del laboratorio del genetista George Church y los de Salesforce, han demostrado que las secuencias de proteínas y los códigos genéticos se pueden modelar mediante las técnicas de PLN.

En un reciente estudio publicado en Science, Berger y sus colegas investigan varias cepas de virus y usan el PLN para predecir las mutaciones que permiten que los virus eviten ser detectados por los anticuerpos en el sistema inmunológico humano, un proceso conocido como escape viral de la respuesta inmune. La idea básica consiste en que la interpretación de un virus por un sistema inmunológico es análoga a la interpretación de una frase por un ser humano.

“Es un excelente artículo, que se basa en el impulso del trabajo anterior”, opina el científico de Salesforce Ali Madani que utiliza el PLN para predecir las secuencias de proteínas. El equipo de Berger utiliza dos conceptos lingüísticos diferentes: la gramática y la semántica (o el significado). La genética o la aptitud evolutiva de un virus (compuesta por varias características como la capacidad de infectar a un huésped) se puede interpretar a través de la corrección gramatical. Un virus infeccioso exitoso es gramaticalmente correcto; el que no tiene éxito no lo es.

Del mismo modo, las mutaciones de un virus se pueden interpretar semánticamente. Las mutaciones que provocan que un virus parezca diferente a las cosas de su entorno, como los cambios en las proteínas de su superficie que lo hacen invisible para ciertos anticuerpos, alteran su significado. Los virus con diferentes mutaciones pueden tener distintos significados, y un virus con un significado diferente puede necesitar distintos anticuerpos para su detección.

Para modelar estas propiedades, los investigadores utilizaron un tipo de red neuronal, LSTM, previa a las basadas en los transformadores que se usan en los grandes modelos de lenguaje como GPT-3. Estas redes más antiguas se pueden entrenar con bastante menos datos que los transformadores y aún funcionan bien para muchas aplicaciones.

Leer los virus

En vez de millones de frases, entrenaron al modelo de PLN con miles de secuencias genéticas tomadas de tres virus diferentes: 45.000 secuencias únicas para una cepa de la gripe, 60.000 para una cepa de VIH y entre 3.000 y 4.000 para una cepa de Sars-Cov-2, el virus que causa la COVID-19. “Hay menos datos sobre el coronavirus porque ha habido menos análisis”, explica el estudiante de posgrado del MIT Brian Hie, que construyó los modelos.

Los modelos de PLN funcionan codificando palabras en un espacio matemático de tal manera que las palabras con significados similares están más cerca que las que tienen diferentes significados. Esto se conoce como incrustación. En el caso de los virus, la incrustación de las secuencias genéticas agrupó los virus en función de la similitud de sus mutaciones.

El objetivo principal del enfoque es identificar las mutaciones que podrían permitir que un virus evite el sistema inmunológico sin volverlo menos infeccioso, es decir, las mutaciones que cambian el significado del virus sin hacerlo gramaticalmente incorrecto.

El ejemplo en el lenguaje sería el siguiente: sustituir una sola palabra en la frase “los viticultores disfrutan de la buena temporada” puede crear las frases “los viticultores disfrutan de la fuerte temporada” o “los viticultores disfrutan de la temporada gripal”. Ambas comparten la misma estructura gramatical, pero el significado de una ha cambiado más que el de la otra. La nueva herramienta busca cambios similares en un virus, marcando los que más modifican su significado.

Para probar su enfoque, el equipo utilizó una métrica común para evaluar las predicciones realizadas por los modelos de aprendizaje automático que puntúan la precisión en una escala entre 0,5 (una casualidad) y 1 (perfección). En este caso, tomaron las principales mutaciones identificadas por la herramienta y, utilizando virus reales en un laboratorio, comprobaron cuántas de ellas eran verdaderas mutaciones de escape. Sus resultados variaron del 0,69 para el VIH al 0,85 para la cepa del coronavirus. Creen que esto es mejor que los resultados de otros modelos de vanguardia.

Una puerta al futuro

Saber qué mutaciones podrían ocurrir facilitaría que los hospitales y las autoridades de salud pública planifiquen con antelación. Por ejemplo, si el modelo supiera cuánto ha cambiado de significado la cepa de la gripe desde el año pasado crearía una idea de lo bien que funcionarían los anticuerpos que la gente ya ha desarrollado este año.

Aun así, por ahora, este trabajo tiene más que ver con abrir nuevos caminos que con un impacto real en la salud pública. Después del trabajo publicado en Science, el equipo ha estado probando los modelos en las nuevas variantes del coronavirus, incluida la llamada cepa de Reino Unido, la mutación del visón de Dinamarca y las variantes detectadas en Sudáfrica, Singapur y Malasia.

Los científicos han encontrado una alta probabilidad de escape del sistema inmunológico en todas ellas, aunque aún no se ha comprobado en la naturaleza. Pero el modelo no detectó el cambio en la variante de Sudáfrica que ha generado preocupación por su posibilidad de esquivar las vacunas. El equipo intenta encontrar el motivo. “Consiste en múltiples mutaciones y creemos que ha entrado en juego un efecto combinatorio”, explica Berger.

El uso de PLN permite acelerar un proceso tradicionalmente lento. Anteriormente, el genoma del virus tomado de un paciente con COVID-19 en el hospital se podía secuenciar y era posible recrear sus mutaciones y estudiarlas en un laboratorio. Pero eso suele tardar semanas, según el biólogo del MIT Bryan Bryson que también trabaja en el proyecto. El modelo de PLN predice las posibles mutaciones de inmediato, lo que acelera el trabajo de laboratorio.

“Es un momento alucinante para trabajar en esto. Es increíble actualizar simultáneamente el modelo y correr al laboratorio para probarlo en experimentos. Esto es lo mejor de la biología computacional”, admite Bryson. Cada semana salen nuevas secuencias del virus.

Pero también es solo el inicio. Tratar las mutaciones genéticas como cambios de significado se podría aplicar de diferentes formas en la biología. “Una buena analogía podría ayudar mucho”, resalta Bryson.

Por ejemplo, Hie piensa que su enfoque se puede aplicar a la resistencia a los medicamentos. “Para la proteína del cáncer que adquiere resistencia a la quimioterapia o una proteína bacteriana que crea resistencia a un antibiótico”, explica Hie. Estas mutaciones también se pueden considerar como cambios de significado. Y añade: “Hay muchas maneras creativas en las que podríamos empezar a interpretar los modelos de lenguaje”.

Madani señala: “Creo que la biología está en la cúspide de una revolución. Actualmente estamos pasando de simplemente recoger una gran cantidad de datos a aprender a comprenderlos en profundidad”.

Los investigadores analizan los avances en el PLN e idean las nuevas analogías entre el lenguaje y la biología para aprovecharlos. Pero Bryson, Berger y Hie creen que este cruce podría ir en ambos sentidos, con nuevos algoritmos de PLN inspirados en los conceptos de la biología. “La biología tiene su propio lenguaje”, concluye Berger.

Fuente: technologyreview.es