Explicación al mayor misterio de la lingüística computacional

En cada idioma, la palabra más frecuente se da en una proporción matemática concreta doble al de la segunda palabra más habitual, triple al de la tercera, y así sucesivamente.

Este fenómeno llamado “ley de Zipf”, tiene más de un siglo de antigüedad, pero hasta ahora, los científicos no han sido capaces de elucidarla exactamente. Sander Lestrade, lingüista de la Universidad de Radboud en Holanda, propone una nueva solución a esta cuestión en en PLOS ONE.

La ley de Zipf describe cómo la frecuencia de una palabra en el lenguaje natural depende de su rango en la tabla de frecuencias. Así, la palabra más frecuente ocurre dos veces más que la segunda palabra más frecuente, tres veces más que la palabra subsiguiente, y así sucesivamente hasta la palabra menos frecuente. La ley recibe su nombre del lingüista americano George Kingsley Zipf, que fue el primer que intentó explicarlo alrededor de 1935.

“Creo que es seguro decir que la ley de Zipf es el mayor misterio de la lingüística computacional”, dice Sander Lestrade, lingüista de la Universidad Radboud de Nimega, Holanda. “A pesar de décadas de teorización, sus orígenes siguen siendo esquivos”. Lestrade ahora muestra que la ley de Zipf puede explicarse por la interacción entre la estructura de las oraciones (sintaxis) y el significado de las palabras (semántica) en un texto.

Usando simulaciones por computadora, fue capaz de demostrar que ni la sintaxis ni la semántica bastan para inducir una distribución Zipfiana por sí mismas, sino que la sintaxis y la semántica se ‘necesitan’ entre sí para eso.

“En la lengua inglesa, pero también en holandés, hay solamente tres artículos, y decenas de millares de sustantivos” explica Lestrade. “De acuerdo a cómo se use un artículo antes de casi todos los sustantivos, los artículos ocurren con mayor frecuencia que los sustantivos”. Pero eso no es suficiente para explicar la ley de Zipf. La palabra ‘cosa’, por ejemplo, es mucho más común que ‘submarino’ y, por lo tanto, puede utilizarse con más frecuencia.

Pero para que realmente se use con frecuencia, una palabra no debería ser demasiado general. Si multiplicas las diferencias en el significado dentro de las clases de palabras, con la necesidad de cada clase de palabra, se encuentra una magnífica distribución Zipfiana, y esta distribución sólo difiere un poco del ideal de Zipfian, al igual que ocurre en el lenguaje natural.

No sólo las predicciones basadas en el nuevo modelo de Lestrades son completamente coherentes con los fenómenos encontrados en el lenguaje natural, sino que su teoría también es válida para casi todos los idiomas del mundo, no sólo para el inglés o el holandés. Lestrade dijo en un comunicado: “Estoy muy contento con este hallazgo y estoy convencido de mi teoría, pero su confirmación debe venir de otros lingüistas”.

Fuente: Europa Press