M. C. Israel Aguilar Ordoñez
En 2003, después de 13 años y muchos millones de dólares el Proyecto del Genoma Humano se consideró concluido. El resultado fue la primera secuencia genética completa del hombre, una especie de mapa interior que permitió echar un vistazo a lo más básico que da forma a un ser humano. Hoy en día existen poderosas tecnologías de secuenciación masiva de ácidos nucleicos (Massive Parallel Sequencing, en inglés) que hacen posible secuenciar cualquier genoma, des de el del vecino hasta el de uno mismo, en cuestión de días y a una fracción del precio del primer genoma humano.
Gracias a estos avances genómicos de la última década hemos comenzado a dar un vistazo profundo al código genético de los organismos que habitan el planeta. Cada día es menos descabellada la idea de un catálogo que contenga los mapas genéticos de todos los seres vivos conocidos, desde la bacteria más pequeña hasta la ballena azul. Sin embargo, la secuencia completa de un genoma no provee toda la información necesaria para terminar de describir a un organismo, pues la presencia de un gen en un genoma no es suficiente para explicar su función. El primer paso para explicar la función de los genes es estudiar su expresión, y entender la expresión de los genes es el siguiente paso en la escalera hacia la descripción completa de la vida en el planeta.
La expresión de un gen inicia con la transcripción, un proceso por el cual el complejo proteico llamado ARN polimerasa lee el segmento de ADN que contiene al gen y copia su secuencia en forma de una nueva molécula de ARN (figura 1). La transcriptómica es la rama científica encargada de estudiar y responder las preguntas alrededor de la expresión génica. Particularmente, los experimentos de identificación de sitios de inicio de la transcripción son importantes porque permiten definir el sitio exacto donde la ARN polimerasa comienza a copiar el ADN en ARN. Una vez que se conocen estos sitios de inicio, los investigadores pue den enfocarse en las regiones cercanas en busca de segmentos del genoma que controlan la transcripción.
Los estudios transcriptómicos de este tipo se han visto potenciados con el advenimiento de la segunda generación de tecnologías de secuenciación masiva, ins trumentos que permiten leer millones de moléculas de ARN, detectando muchos eventos de inicio de la transcripción en un sólo experimento. Sin embargo, para que estos experimentos sean idealmente funcionales primero se necesita “limpiar” la muestra de ARN a estudiar, porque el ribotipo (la constelación de moléculas ARN provenientes de un organismo) está compuesto de transcritos primarios (los recién sintetizados por la ARN polimerasa) y transcritos secundarios (moléculas ARN incompletas, previamente procesadas por enzimas llamadas ribonucleasas). Ambos tipos de transcritos son detectables por los instrumentos de secuenciación masiva, pero sólo los transcritos primarios dan información verdadera sobre un inicio de transcripción. Dicho de otro modo, un experimento ideal de este tipo debe identificar cuáles de las moléculas ARN están completas y cuales están rotas.
Este paso previo de “limpieza” de ARN para su posterior análisis por secuenciación masiva se conoce técnicamente como enriquecimiento de la muestra. Actualmente existen diversas técnicas de enriquecimiento para experimentos de detección de sitios de inicio de la transcripción, pero la mayoría actúan directa y exclusivamente sobre los trans critos secundarios (ya sea con enzimas que los degradan o con moléculas que los reconocen y separan de la muestra), lo cual implica que el enriquecimiento de transcritos primarios es un subproducto de las metodologías. En nuestro laboratorio consideramos que esto último explica parte de los problemas que detectamos al analizar los datos obtenidos en este tipo de experimentos. Por tanto, nos propusimos desarrollar nuevos métodos de enriquecimiento de la muestra que actúen directamente sobre los transcritos primarios o sea los recién sintetizados por la ARN polimerasa.
Para identificar transcritos primarios se puede tomar en cuenta la composición química de la molécula: sólo los transcritos primarios tienen unidos 3 grupos f osfato en uno de sus extremos (figura 2). Partiendo de esa diferencia, en el laboratorio desarrollamos dos metodologías para atrapar transcritos primarios a partir de una muestra de ARN microbiano. Ambas metodologías utilizan proteínas que reconocen los 3 grupos fosfato en el inicio de las moléculas de ARN: 1) la proteína eIF4E, un factor de la traducción (el proceso que convierte el ARN en proteína) que es capaz de unirse a trans critos primarios en células animales y vegetales; 2) RppH, una enzima bacteriana que, irónicamente, se sospecha inicia la cascada de degradación que rompe los transcritos primarios.
De acuerdo a nuestros resultados, ambas proteínas son capaces de aislar trans critos íntegros que repre sentan sitios de inicio de transcripción verdaderos. Denominamos estas técnicas CAPture y pHSwitch, respectivamente, y esperamos que con un poco más de refinamiento con tribu yan de ma nera importante al desarrollo de la transcriptómica basada en tecnologías de secuenciación masiva.
Con este trabajo Israel Aguilar Ordóñez obtuvo en agosto del 2015 el grado de Maestro en Ciencias Bioquímicas bajo la tutoría del Dr. Enrique Morett Sánchez (emorett@ibt.unam.mx)