Facebook lanza una IA capaz de traducir entre 100 idiomas diferentes

30 octubre, 2020 Alberto Vazquez

La gran innovación del modelo es que una parte importante de las traducciones entre idiomas se hace de forma directa sin pasar por el inglés como lengua intermediaria. Aunque de momento M2M-100 solo está destinado a fines de investigación, en el futuro la compañía podría aplicarlo a sus propios productos

La noticia: Facebook ha lanzado el código abierto de un nuevo modelo de lenguaje de inteligencia artificial (IA) denominado M2M-100, capaz de traducir entre 100 idiomas diferentes. De las 4.450 posibles combinaciones de idiomas, traduce 1.100 de forma directa. Este funcionamiento contrasta con los anteriores modelos multilingües, que dependen en gran medida del inglés como lengua intermediaria. Una traducción del chino al francés, por ejemplo, normalmente pasa del chino al inglés y luego del inglés al francés, algo que aumenta la posibilidad de errores.

La gestión de datos: el modelo se entrenó con 7.500 millones de pares de frases. Para la creación de un conjunto de datos tan grande, los investigadores se basaron en gran medida en la gestión automatizada. Utilizaron rastreadores web para extraer miles de millones de frases de internet, mientras otro modelo de lenguaje llamado FastText identificaba el idioma. (No usaron ningún dato de Facebook). Luego usaron el programa llamado LASER 2.0, desarrollado previamente por el laboratorio de investigación de inteligencia artificial de Facebook, que utiliza el aprendizaje no supervisado (aprendizaje automático que no requiere datos etiquetados manualmente) para buscar el significado equivalente de las frases entre distintos idiomas.

LASER 2.0 genera lo que se conoce como «incrustaciones» de los conjuntos de datos grandes y no estructurados de frases. Se entrena en los ejemplos de las frases disponibles de cada idioma y traza sus relaciones entre sí en función de la frecuencia y la cercanía. Estas incrustaciones ayudan al modelo de aprendizaje automático a aproximar el significado de cada oración, lo que luego permite que LASER 2.0 empareje automáticamente las frases que comparten el mismo significado en diferentes idiomas.

La combinación de idiomas: los investigadores se centraron en las combinaciones de lenguas que creían que serían las más solicitadas. Agruparon los idiomas en función de sus similitudes lingüísticas, geográficas y culturales, suponiendo que las personas que viven en la misma zona se comunicarían con más frecuencia. Un grupo de lenguas, por ejemplo, incluye los idiomas más comunes que se hablan en la India, como el bengalí, el hindi, el tamil y el urdu. Luego LASER 2.0 dirigió su búsqueda de pares de frases en todas las combinaciones de idiomas posibles dentro de cada grupo.

Los desafíos pendientes: todavía existen problemas de calidad de traducción de los idiomas que se hablan en lugares como África y el sudeste asiático porque hay muy pocos datos disponibles en la web de esas lenguas, explica la investigadora principal del proyecto, Angela Fan. Dada la dependencia de los datos disponibles en internet, los investigadores también tuvieron que crear técnicas para identificar y erradicar el sexismo, racismo y otros sesgos discriminatorios arraigados. En este caso, los investigadores han utilizado un filtro de obscenidades para limpiar algún lenguaje especialmente ofensivo, pero se limita principalmente al inglés.

Solo para la investigación: por ahora, Facebook no tiene planes para usar el modelo en sus productos. M2M-100 está diseñado únicamente para fines de investigación, afirma Fan. Sin embargo, el objetivo es que, con el tiempo, el modelo mejore y amplíe las existentes capacidades de traducción de Facebook. Se podría aplicar en la comunicación de los usuarios (por ejemplo, la función que permite a las personas traducir algunas publicaciones a su idioma nativo) y quizás en la moderación de contenido.

Fuente: technologyreview.es