Desarrolladores estadounidenses presentaron un algoritmo de decodificación que encuentra palabras relacionadas (cognados) de un lenguaje antiguo poco conocido en su lenguaje relacionado. La precisión del trabajo puede alcanzar hasta el 90%. El artículo fue publicado en el sitio de preimpresión arXiv.
La traducción automática clásica funciona gracias a casos paralelos: conjuntos de textos en el idioma de origen y en el idioma de destino en el que se realizará la traducción. Debido a la gran cantidad de materiales disponibles en ambos idiomas, el sistema de traducción aprende el idioma: no solo palabras individuales, sino también gramática.
Perdidos en la traducción
Sin embargo, la presencia de textos paralelos también ayuda a descifrar lenguajes antiguos y extintos, para los cuales solo se dispone de monumentos lingüísticos escritos, utilizando sistemas de signos desconocidos que son desconocidos para los lingüistas modernos.
Vale la pena recordar, por ejemplo, que la Piedra Rosetta, los jeroglíficos egipcios y la escritura demótica solo se pudieron descifrar porque el texto estaba duplicado en la conocida lengua griega antigua (y en el momento de su creación).
Al mismo tiempo, por supuesto, puede que los textos paralelos a los antiguos monumentos lingüísticos no existan en absoluto, en cuyo caso su descodificación requiere un largo análisis: la definición de idiomas relacionados, supuestos sobre escritos basados en datos históricos conocidos y comparaciones con las escrituras del mismo tiempo.
Los principios de dicho análisis se utilizan ampliamente en los sistemas para la decodificación automática de un lenguaje, pero la mayoría de las veces son sensibles al contexto: por ejemplo, en 2010, los desarrolladores pudieron descifrar automáticamente la lengua ugarítica, comparando monumentos lingüísticos antiguos con textos en hebreo, una lengua semítica moderna.
Nuevo enfoque
Ahora, los investigadores bajo el liderazgo de Jiaming Luo del Instituto de Tecnología de Massachusetts (MIT) presentaron un nuevo sistema que puede descifrar un idioma antiguo sin el uso de idiomas paralelos.
El nuevo enfoque se basa en el análisis de cognados que se utilizan a menudo en el descifrado estadístico: lexemas en lenguajes relacionados, es decir, en características similares que combinan las palabras de idiomas derivadas de un proto-lenguaje único. El análisis de cognados en tal sistema ocurre en dos niveles: el nivel de los signos de la escritura de la lengua nativa y el nivel de sus palabras.
Los cognados en idiomas relacionados a menudo tienen una forma similar y casi nunca experimentan una permutación de signos: por ejemplo, la palabra «madre» en lenguas romances proviene del latín mater y, a pesar de algunos cambios, es posible rastrear su origen, incluso con cita previa.
En cuanto a las palabras individuales, en este caso, funciona un enfoque similar a la representación vectorial de palabras: si dos idiomas se presentan como dos espacios multidimensionales, entonces los cognados en ambos ocuparán el mismo lugar en relación con otras palabras de los idiomas. De esa forma, se usarán más a menudo en el mismo contexto con la misma frecuencia.
Redes neuronales más efectivas
Dadas estas reglas de descifrado, los desarrolladores entrenaron un sistema que coincide con cada carácter de un script desconocido en un script ya conocido basado en textos no paralelos de estos dos idiomas.
El sistema en sí se basa en el trabajo de redes neuronales recurrentes con memoria a largo plazo, recibe texto en un idioma desconocido y un pariente ya conocido, y genera un diccionario de correspondencias simbólicas y fonológicas, que se usa más para determinar pares de cognados.
El algoritmo resultante fue entrenado y probado para descifrar varios scripts de idiomas: ugarítico basado en el hebreo, escritura lineal B basada en el griego antiguo, así como para identificar cognados entre las tres lenguas romances (español, italiano y portugués).
El sistema logró descifrar textos en Ugarit un 3,1% más precisamente que los autores de un trabajo anterior publicado en 2010, y la letra lineal B fue descifrada con una precisión del 84,7%: los investigadores señalan que este es el primer intento de descifrar automática este tipo de escritura. La precisión promedio con lenguas romances fue del 91.6%.
Se supone que en el futuro este algoritmo se puede usar para idiomas que aún no se han descifrado. En particular, en el artículo del MIT Technology Review dedicado al nuevo artículo, se menciona la letra lineal A, el antecesor de la letra lineal B, que aún no se ha descifrado totalmente.
Algunos idiomas muertos han sido descifrados durante mucho tiempo, y hay bastante información sobre ellos. Por ejemplo, la lengua acadia, cuyos monumentos se conservan en forma de tabletas cuneiformes. La información sobre este idioma fue suficiente para hacer una película sobre ella, lo que hicieron los estudiantes de la Universidad de Cambridge el año pasado.
Fuente: nmas1.org