Software de aprendizaje automático predice la acción de una bacteria

En una primicia para los algoritmos de aprendizaje automático, una nueva pieza de software desarrollada en Caltech puede predecir el comportamiento de las bacterias leyendo el contenido de un gen.

El avance podría tener implicaciones significativas para nuestra comprensión de la bioquímica bacteriana y para el desarrollo de nuevos medicamentos.

Un impulso de la farmacología moderna se centra en aliviar dolencias mediante el desarrollo de fármacos que se dirigen a proteínas específicas que residen en las membranas de las células de nuestros cuerpos.

Estas proteínas, conocidas como proteínas integrales de membrana (IMP), actúan como receptores o “puertas” que permiten que los materiales entren y salgan de las células. Ejemplos de IMP son receptores acoplados a proteína G, que transmiten información a una célula sobre su entorno, y canales de iones, que controlan el entorno interior de una célula actuando como guardianes que permiten selectivamente que los iones entren y salgan de la célula.

Los IMP son el objetivo de casi el 50 por ciento de todas las drogas en el mercado. Desafortunadamente, muchos IMP son poco conocidos.

“Estas son moléculas muy importantes que nuestro cuerpo produce y de las que no sabemos lo suficiente”, dice en un comunicado Bil Clemons, profesor de bioquímica en Caltech.

Para obtener una comprensión más completa de un IMP, los investigadores deben generar grandes cantidades de este para la purificación y el estudio detallado. Normalmente, eso se hace insertando el ADN de esa proteína en las bacterias; la proteína luego se produce de forma rutinaria a medida que la bacteria crece y se multiplica.

El problema es que no todas las bacterias están dispuestas a cooperar y producir cantidades insignificantes de proteínas. Solo unas pocas bacterias terminan produciendo suficientes proteínas para ser útiles y, hasta ahora, los investigadores no han podido saber si una bacteria con la que están trabajando será un éxito o un fracaso.

“Una de las principales limitaciones en el estudio de las proteínas de membrana es la falta de capacidad para expresarlas en cantidades razonables”, dice Clemons. “Usamos estas bacterias como fábricas para hacer cosas para nosotros, pero es impredecible … la mayoría lo echan de menos. Anecdóticamente, ha tenido un 10 por ciento de éxito”.

Toda la prueba y el error involucrados en hacer que las bacterias cooperen, desperdicia el tiempo y los recursos de los investigadores. Clemons se preguntó si sería posible usar computadoras para predecir cómo reaccionarán las bacterias cuando se les pida que creen una proteína que normalmente no producen.

“Presumimos que las células bacterianas estaban haciendo una lectura cuantitativa del ADN para determinar qué cantidad de estas proteínas preparar”, dice. “Queríamos saber si podríamos usar herramientas computacionales para aumentar la tasa de éxito de encontrar bacterias que expresen proteínas en cantidades útiles para ayudarnos a caracterizar moléculas importantes para la medicina”.

Clemons y su estudiante graduada, Shyam Saladi, crearon esa herramienta, un software de aprendizaje automático que han denominado IMProve, que compara el ADN bacteriano con datos sobre la cantidad de proteína que produce la bacteria. Luego usaron un conjunto de datos para IMProve que cultivaba muchas muestras de bacterias para ver qué tan bien producían las proteínas de membrana deseadas.

Los investigadores entrenaron a IMProve al alimentar esos resultados y los códigos genéticos en los que confían las bacterias para expresar las proteínas en IMProve, de modo que pudieran aprender qué secuencias de ADN iban a producir una alta producción de proteínas.

Una vez que el software fue entrenado, los investigadores descubrieron que predecía el comportamiento bacteriano tan bien que podían duplicar su tasa de éxito en la selección de bacterias que expresarían los IMP en grandes cantidades.

“Nos sorprendió porque no había ninguna garantía de que este enfoque funcionaría”, dice Clemons. “Las células son extremadamente complejas, y usted está pidiendo un modelo estadístico relativamente simple para predecir lo que una célula va a hacer. Desde esa perspectiva, fue bastante impactante”.

Pero, Clemons agrega que, tal vez sus resultados no sean tan sorprendentes en retrospectiva. “Esto subraya la idea de que las células son solo computadoras, y solo están computando cosas”, dice.

Fuente: europapress.es