Las traducciones automáticas defectuosas ensucian la web

Hacia finales del siglo pasado, Bill Gates vio la perspectiva de unificar a ciudadanos de casi 200 países, que hablaban más de 7.000 idiomas, y unirse en un diálogo común a través de la repentina comunidad web.

«Internet se está convirtiendo en la plaza de la aldea global del mañana», declaró.

Desde entonces, Internet ciertamente ha acercado al mundo y ha enriquecido enormemente las comunicaciones, el comercio, la investigación y el entretenimiento globales.

Pero un informe reciente nos recuerda (como si realmente necesitáramos que nos lo recordaran) que, junto con el progreso, a veces vienen los problemas.

Investigadores del Laboratorio de Inteligencia Artificial de Amazon Web Services y la Universidad de California, Santa Bárbara, dicen que después de examinar más de 6 mil millones de oraciones en la web, descubrieron que más de la mitad habían sido traducidas a dos o más idiomas diferentes . Descubrieron que las traducciones eran a menudo deficientes. Y con cada traducción sucesiva a otros idiomas, algunas hasta ocho o nueve, los resultados empeoraron.

El informe, «Una cantidad impactante de la Web está traducida automáticamente: conocimientos del paralelismo multidireccional», se subió al servidor de preimpresión arXiv el 11 de enero.

«La baja calidad de estas… traducciones indica que probablemente fueron creadas mediante traducción automática «, informan los autores. «Nuestro trabajo plantea serias preocupaciones sobre los modelos de entrenamiento, como los modelos de lenguajes grandes multilingües , en datos monolingües y bilingües extraídos de la web».

Los investigadores dijeron que los textos no solo se traducen mediante inteligencia artificial, sino que también se crean mediante inteligencia artificial. Observaron que las tasas de traducciones generadas por IA eran más altas entre los idiomas de menores recursos, como el wolof y el xhosa, idiomas africanos.

«Descubrimos que las traducciones paralelas multidireccionales tienen una calidad significativamente menor que las traducciones paralelas bidireccionales», continúan los autores.

Eso significa que a medida que se ingieren billones de bits de datos para las operaciones de entrenamiento de IA, las regiones subrepresentadas en la web, como las naciones africanas y otros países con idiomas más oscuros, enfrentarán mayores desafíos para establecer modelos de lenguaje grandes confiables y gramaticales. . Con pocos recursos nativos a los que recurrir, deben depender en gran medida de traducciones contaminadas que inundan el mercado.

Mehak Dhaliwal, ex pasante de ciencias aplicadas en Amazon Web Services, dijo a placa base en una entrevista: «De hecho, nos interesamos en este tema porque varios colegas que trabajan en capacitación de máquinas y son hablantes nativos de idiomas de bajos recursos notaron que gran parte de Internet en su lengua materna parecía ser un entrenamiento generado por una máquina… Todos deberían ser conscientes de que el contenido que ven en la web puede haber sido generado por una máquina».

Los investigadores de Amazon encontraron sesgos en la selección del contenido utilizado para el entrenamiento de IA.

Afirman: «Las traducciones paralelas multidireccionales generadas por máquinas no sólo dominan la cantidad total de contenido traducido en la web en idiomas de menores recursos, sino que también constituyen una gran fracción del contenido web total en esos idiomas».

Fuente: techxplore.com