La técnica, cien veces más rápida que las actuales, puede ayudar a evaluar infecciones bacterianas y «salvar vidas»
Los científicos del Instituto de Tecnología de Massachusetts (MIT) y el Institut Pasteur de Francia han desarrollado una técnica para reconstruir genomas completos, incluido el genoma humano, en una computadora personal en cuestión de minutos. Esta técnica, anuncian los investigadores en ‘Cell Systems’, es unas cien veces más rápida que los enfoques actuales más vanguardistas y mucho más sencilla y eficaz. Comparado con el lenguaje, el modelo supone algo así como considerar las palabras en vez de las letras.
«Podemos ensamblar rápidamente genomas y metagenomas completos, incluidos los genomas microbianos, en una computadora portátil modesta», dice Bonnie Berger, del laboratorio de informática e inteligencia artificial del MIT. «Esta capacidad es esencial para evaluar los cambios en el microbioma intestinal relacionados con enfermedades e infecciones bacterianas, como la sepsis, para que podamos tratarlas más rápidamente y salvar vidas».
El Proyecto Genoma Humano terminó de ensamblar el primer genoma humano completo en 2003, fruto de una década de colaboración internacional y un coste 2.700 millones de dólares. En la actualidad, leer nuestro ‘código de barras’ ya no lleva años, pero todavía requiere varios días y una potencia informática masiva. Las tecnologías de secuenciación de tercera generación ofrecen terabytes de secuencias genómicas de alta calidad con decenas de miles de pares de bases, pero el ensamblaje del genoma utilizando una cantidad tan inmensa de datos ha resultado ser un desafío.
Para hacerlo más rápido y eficiente, Berger y sus colegas recurrieron a los modelos de lenguaje. A partir del concepto de un gráfico de Bruijn, una estructura de datos simple utilizada para el ensamblaje del genoma, los investigadores utilizaron secuencias cortas de nucleótidos llamadas minimizadores en lugar de nucleótidos individuales.
Hasta 300 veces más rápido
Los investigadores aplicaron su método para reunir datos de alta fidelidad reales (que tienen una precisión de lectura de una sola molécula casi perfecta) para las moscas de la fruta Drosophila melanogaster, así como para los datos del genoma humano proporcionados por Pacific Biosciences (PacBio). Cuando evaluaron los genomas resultantes, Berger y sus colegas encontraron que su software requería aproximadamente 33 veces menos tiempo y ocho veces menos hardware de computación de memoria de acceso aleatorio (RAM) que otros ensambladores de genomas. Su software realizó el ensamblaje del genoma para los datos humanos de alta fidelidad 81 veces más rápido con 18 veces menos uso de memoria que el ensamblador llamado ‘Peregrine’ y 338 veces más rápido con 19 veces menos uso de memoria que el ensamblador de ‘hifiasm’.
A continuación, Berger y sus colegas utilizaron su método para construir un índice para una colección de 661.406 genomas bacterianos, la colección más grande de su tipo hasta la fecha. Descubrieron que la nueva técnica podía buscar en toda la colección genes de resistencia a los antimicrobianos en 13 minutos, un proceso que llevó siete horas utilizando la alineación de secuencia estándar.
«Sabíamos que nuestra representación era eficiente, pero no sabíamos que escalaría tan bien en datos reales, después de más optimizaciones del código», dice Berger.
«La idea general simplemente funciona y no requiere algunos de los pasos de preprocesamiento generalmente costosos, como la corrección de errores, realizada por la mayoría de los otros métodos de ensamblaje del genoma», asegura Rayan Chikhi, investigador y líder de grupo en el Instituto Pasteur. Para Berger, estas capacidades abren la puerta a la «democratización del análisis de datos de secuenciación».
Fuente: abc.es