Descubiertas cuatro mil nuevas familias de pequeñas proteínas en el microbioma humano

Investigadores de Estados Unidos realizaron un estudio comparativo de 1773 metagenomas humanos y encontraron alrededor de cuatro mil familias de proteínas, la mayoría de las cuales no se habían descrito previamente debido a su pequeño tamaño, lo que dificulta la identificación. Alrededor del 30% de las proteínas encontradas estaban involucradas en interacciones intercelulares, según el artículo publicado en Cell.

El descubrimiento de proteínas cortas con una longitud de menos de 50 aminoácidos es difícil. Cuando se descubre un nuevo genoma, marcando en su secuencia las posiciones de los genes existentes, las secuencias cortas generalmente se ignoran. Esto se debe al hecho de que la posibilidad de tomar una parte aleatoria del genoma para un gen real es demasiado grande.

Actualmente hay pocas proteínas cortas en las bases de datos, y debido a esto, la búsqueda de nuevas secuencias similares a las descubiertas previamente no funciona bien. Además, incluso si hay secciones similares, también es difícil demostrar que se trata de homólogos (secuencias relacionadas) y no de coincidencias aleatorias.

Los métodos proteómicos como la espectrometría de masas en este caso tampoco funcionan debido a la falta de tales proteínas en las bases de datos. Mientras tanto, esas proteínas que a menudo tienen propiedades intrigantes, por ejemplo, ayudan a la comunicación intercelular.

Nuevas 4539 familias

Un nuevo estudio mostró que las proteínas pequeñas ya conocidas representan solo una pequeña fracción del número real. Utilizando una combinación de datos genéticos de acceso abierto, Hila Sberro de la Universidad de Stanford y sus colegas encontraron y describieron alrededor de cuatro mil familias de proteínas, la mayoría de las cuales eran nuevas y no tenían familiares en las bases de datos existentes.

Los científicos utilizaron como recurso 1773 metagenomas humanos del Proyecto del Microbioma Humano. Absolutamente todos los posibles marcos de lectura abiertos se encontraron en ellos, y luego se aplicaron una serie de filtros secuencialmente para dejar solo los necesarios.

Para empezar, filtraron de acuerdo a la longitud para que la proteína traducida no superase los 50 aminoácidos, y luego se recogieron en grupos por similitud y eliminaron aquellos en los que había menos de ocho proteínas potenciales. Esto cortó una parte significativa de las secuencias aleatorias, pero después de eso, los investigadores ejecutaron adicionalmente las secuencias restantes a través de un programa que puede aislar las secuencias de codificación de la masa total en función de las firmas evolutivas.

Al mismo tiempo verificaron la presencia de secuencias para el aterrizaje del ribosoma necesario para la traducción de proteínas. Como resultado de esta filtración, solo quedaron 4.539 grupos, cada uno de los cuales era responsable de una familia de proteínas separada.

Desconocidas hasta ahora

La mayoría de las familias de proteínas encontradas eran previamente desconocidas: al comparar con bases de datos para un total de 190 familias, se encontraron secuencias bastante similares en la base de datos de dominio, y aproximadamente una cuarta parte generalmente encontró homólogos anotados.

Como se mencionó anteriormente, los métodos estándar no se agudizan para la identificación de proteínas cortas, por lo que los autores sugirieron que muchos de ellos se omitieron durante la anotación de genomas y es por eso que el número de homólogos encontrados es pequeño.

Para evitar esto, volvieron a anotar los genomas en la base de datos, eliminando la restricción en el tamaño del marco de lectura, y luego repitieron la búsqueda. Gracias a este movimiento, encontraron homólogos para otro 27% de las familias de proteínas, pero aún así la mitad de las familias de proteínas permanecieron sin referencia a los genes ya conocidos.

Para finalmente asegurarse la autenticidad de los genes encontrados, los investigadores verificaron si la síntesis de proteínas provenía de ellos. Para esto, utilizaron datos de metatranscriptoma (por analogía con las transcripciones ordinarias, estas contienen secuencias de genes activos, pero no para un organismo, sino para todos los habitantes de la muestra a la vez).

Los investigadores encontraron homólogos y analizaron si el ARN fue sintetizado a partir de ellos. Resultó que los homólogos activos representan aproximadamente el 75% del número total encontrado. Además, para los genes que pertenecen a la bacteria Bacteroides thetaiotaomicron, fue posible demostrar que el 40% de los homólogos encontrados en él se someten no solo a la síntesis de ARN, sino también a la proteína.

Para qué sirven

En el siguiente paso, los investigadores trataron de descubrir qué hacen estas proteínas. Como para la mayoría no había homólogos con funciones conocidas, era imposible hacer esto extendiendo la función de un familiar ya conocido a la proteína deseada.

Sin embargo, lograron aislar de la masa total las proteínas generalizadas, características, por ejemplo, solo para los metagenomas de la cavidad oral o solo los intestinos, y al mismo tiempo encontraron una nueva proteína ribosómica.

Por separado, los científicos han identificado familias de proteínas en las secuencias de las cuales había un dominio transmembrana o etiqueta secretora, una señal de que esta proteína no se usa dentro de la célula, sino afuera. Cerca del 30% de ellos resultaron ser de este tipo y los investigadores creen que están involucrados en la interacción entre las células.

Todo esto sugiere que la importancia de las proteínas cortas se subestima en gran medida. Debido a las molestias de trabajar con ellos y las dificultades para definir métodos estándar, están subrepresentados en las bases de datos, mientras que en realidad hay muchas de ellas y juegan un papel importante en la vida celular.

Esto se ha demostrado gracias al procesamiento competente de los datos metagenómicos, que contiene información sobre secuencias de ADN de no una especie, sino muchas a la vez. Tal «riqueza» de datos metagenómicos nos permite usarlos no solo para buscar nuevas proteínas, sino también para predecir sus estructuras tridimensionales.

Fuente: nmas1.org