Las incógnitas resueltas desde la publicación del genoma humano, hace 20 años

La identificación de muchas de las lagunas de la secuencia original ha ofrecido detalles relevantes de la estructura y función de nuestro genoma

La publicación del borrador del genoma humano en 2001 por dos grupos independientes, el Consorcio Internacional para la Secuenciación del Genoma Humano (CISGH) y el equipo de J. Craig Venter, supuso un hito histórico. Por primera vez, se abría la posibilidad de estudiar tramos largos de cada uno de los cromosomas humanos, base por base. Gracias a ello, los investigadores podían empezar a entender cómo estaban ordenados los distintos genes, y cómo se organizaba y estructuraba el ADN circundante que no codificaba proteínas. A pesar de este increíble progreso, el borrador del genoma aún estaba incompleto; faltaban más de 150 millones de bases por identificar. Los avances tecnológicos en los años transcurridos desde entonces han permitido mejorar el borrador, y en 2020 se logró finalmente la secuenciación completa de un cromosoma. Como resultado, están empezando a emerger a la superficie nuevas partes del genoma hasta entonces no descritas, lo que está dando paso a otro emocionante período de descubrimientos biológicos.

¿Qué incluían exactamente los borradores iniciales del genoma? Contenían numerosas regiones intergénicas previamente inexploradas. También incluían la inmensa mayoría de los genes. El CISGH estimó al principio que el genoma contenía entre 30.000 y 40.000 genes codificadores de proteínas, aunque la publicación de un genoma actualizado en 2004, junto con la mejora de las estrategias de predicción de genes, provocó que la cifra se revisara a cerca de 20.000. El genoma de 2004 aportó un mapa de alta resolución de 2850 millones de nucleótidos de la eucromatina. Esta corresponde a las regiones del ADN empaquetadas de una forma más holgada, que están enriquecidas en genes y representan aproximadamente el 92 por ciento del genoma humano.

El genoma de referencia impulsó a la comunidad científica hacia una era de exploración genómica, que redirigió el foco desde los genes individuales hasta estudios más genéricos del genoma completo. Sin embargo, seguía habiendo lagunas en cada uno de los 23 pares de cromosomas humanos, que según las estimaciones contienen más de 150 megabases de secuencias desconocidas. Las mayores lagunas se situaban en regiones enriquecidas con ADN altamente repetitivo o con secuencias para las que existen muchas copias casi idénticas. Al principio, estas secciones fueron difíciles de clonar, secuenciar y ensamblar correctamente. Como resultado, el proyecto del genoma humano infrarrepresentó a propósito tales secuencias repetitivas. Aunque los investigadores tenían una idea muy básica sobre su naturaleza, la organización genómica de alta resolución de la región en cuestión seguía sin concretarse.

En los primeros intentos por identificar las lagunas se empleó la secuenciación de lectura larga para abarcar las secuencias repetitivas, aunque tales lecturas al principio tendían a dar errores. En 2010 aparecieron nuevas oportunidades, gracias a los avances en la capacidad de leer fragmentos más largos de secuencia, junto con el desarrollo de herramientas bioinformáticas escalables. Las lecturas de secuencia de decenas a centenares de kilobases permitieron el estudio de la organización genómica de muchas lagunas de tamaño moderado. Esto permitió conocer algunas de las regiones subteloméricas (ADN muy repetitivo adyacente a las estructuras teloméricas, en los extremos de los cromosomas). También permitió el estudio de la primera secuencia satélite centromérica, en la que se repiten secuencias cortas en tándem durante unas 300 kilobases. De igual forma, se resolvió un subconjunto de duplicaciones segmentadas (secuencias que comparten entre el 90 y 100 por ciento de sus bases y ocupan múltiples localizaciones), muchas de las cuales contenían genes previamente ausentes del genoma de referencia. Sin embargo, muchas de las regiones más grandes ricas en repeticiones, de múltiples megabases de tamaño, seguían siendo inabarcables.

A lo largo de los últimos años, los datos de lecturas largas muy precisas y de lecturas ultra-largas han resultado esenciales para resolver estas regiones. Han revelado, por vez primera, tramos extremadamente largos de repeticiones en tándem y regiones enriquecidas en duplicaciones segmentadas. Al superar estas barreras técnicas, los científicos están descubriendo ahora extensas regiones ricas en repeticiones que pueden abarcar millones de bases, y constituir así el brazo corto entero de los cromosomas.

Obtener la imagen completa

Sin embargo, los investigadores aún no entienden del todo las razones por las que algunas partes del genoma humano se organizan de la forma en que lo hacen. Alcanzar este conocimiento será, sin lugar a dudas, valioso, porque estas secuencias ricas en repeticiones suelen estar situadas en zonas que son cruciales para la vida. Por ejemplo, los tramos largos de repeticiones de ADN ribosómico (ADNr) codifican componentes de ARN de la maquinaria celular encargada de la síntesis de proteínas y desempeñan un papel importante en la organización nuclear. Y el ADN repetitivo de las estructuras denominadas centrómeros es esencial para una adecuada segregación cromosómica durante la división celular.

Estas largas tiras de ADN repetitivo vienen con distintos conjuntos de reglas, en términos de su organización y evolución genómicas. También están sujetas a diferente regulación epigenética (modificaciones moleculares en el ADN y en las proteínas asociadas a él que no alteran la secuencia básica del ADN), lo que lleva al ADN repetitivo a diferir de la eucromatina en lo que se refiere a organización, tiempo de replicación y actividad transcripcional. Muchas herramientas y conjuntos de datos del genoma completo todavía no pueden capturar toda esta información de las regiones de ADN extremadamente repetitivas. Por tanto, no se dispone aún de una imagen completa de los factores de transcripción que se unen a ellos, de cómo tales regiones se organizan espacialmente en el núcleo, o de cómo la regulación de estas partes de nuestro genoma cambia durante el desarrollo y en situaciones de enfermedad. En la actualidad, de forma muy parecida a lo que sucedió con la publicación inicial del genoma décadas atrás, los investigadores se enfrentan con un paisaje funcional nuevo e inexplorado del genoma humano. El acceso a esta información impulsará la tecnología y la innovación hacia la inclusión de dichas regiones de repeticiones, ampliando una vez más nuestra comprensión de la biología del genoma.

El año pasado, se utilizaron secuenciaciones de lecturas muy largas y precisas para reconstruir cromosomas humanos enteros de telómero a telómero. También tuvo lugar la publicación de un genoma de referencia humano casi completo a partir de una línea celular humana «haploide», en la que solo existen cinco lagunas que marcan las zonas de ADNr. En dicha línea, las células tienen dos pares idénticos de cromosomas, lo que simplifica el ensamblaje en comparación con las células humanas típicas (que son diploides, con diferentes cromosomas heredados de la madre y del padre). En conjunto, estos mapas permiten vislumbrar por vez primera, en alta resolución, las regiones centroméricas, las duplicaciones segmentadas, las repeticiones subteloméricas y cada uno de los cinco cromosomas acrocéntricos, que tienen unos brazos muy cortos formados casi exclusivamente por ADN altamente repetitivo en un extremo.

Resulta tentador pensar que los científicos se acercan por fin a la línea de meta. Sin embargo, un único ensamblaje genómico, aunque esté completo con una precisión de secuencia casi perfecta, es una referencia insuficiente a partir de la que poder estudiar la variación en toda la población humana. Los mapas existentes que representan la diversidad a través de las partes eucromáticas del genoma deben extenderse para capturar por completo las regiones repetitivas, en las que el número de copias y la organización de las repeticiones varían entre individuos. Hacerlo requerirá el desarrollo de estrategias para la producción y el análisis rutinarios de genomas humanos diploides completos. El ambicioso objetivo de alcanzar una referencia más completa e integral de la humanidad mejorará, sin duda, nuestra comprensión de la estructura genómica y su papel en las enfermedades humanas, y se alineará con la promesa y el legado del Proyecto del Genoma Humano.

Fuente: investigacionyciencia.es