Cuando de discursos políticos se trata, los que pasan a la historia son pocos y muy espaciados en el tiempo. Pero los discursos políticos corrientes, los que se hacen durante los debates del Congreso de Estados Unidos, por ejemplo, son numerosos.
También son increíblemente similares. Todos tienden a seguir un formato estándar, repetir argumentos similares y hasta emplear las mismas frases para indicar una afiliación u opinión política determinada. Es casi como si existiera algún tipo de algoritmo que definiera su contenido.
Esto suscita una pregunta interesante. ¿Es posible que una máquina redacte este tipo de discursos políticos de forma automática?
Hoy recibimos una respuesta gracias al trabajo de Valentin Kassarnig de la Universidad de Massachusetts en Amherst (EU), que ha creado una máquina de inteligencia artificial que ha aprendido a escribir discursos políticos que son sorprendentemente parecidos a los discursos reales.
El enfoque es sencillo en principio. Kassarnig utilizó una base de datos de casi 4 mil segmentos de discursos políticos de 53 debates del Congreso de Estados Unidos para entrenar un algoritmo de aprendizaje de máquinas para que generara sus propios discursos.
Estos discursos consisten en más de 50 mil frases, cada una con una media de 23 palabras. Kassarnig también categorizó los discursos por partido político, Demócrata o Republicano, y por su postura a favor o en contra de un tema determinado.
Por supuesto, «el diablo está en los detalles» de cómo analizar esta base de datos. Habiendo probado varias técnicas, Kassarnig se decidió por un enfoque basado en n-gramas, secuencias de «n» palabras o frases. Primero analizó el texto utilizando un enfoque de categoría gramatical que etiqueta cada palabra o frase con su papel gramatical (nombre, verbo, adjetivo y así sucesivamente).
Entonces evaluó las 6-gramas y la probabilidad de que una palabra o frase aparezca dada las cinco que la preceden. «Eso nos permite determinar muy rápidamente todas las palabras que pueden ir detrás de las cinco anteriores y la probabilidad de cada una», explica.
El proceso de generar discursos automáticamente sigue después. Kassarnig empieza por decirle al algoritmo qué tipo de discurso ha de redactar – para demócratas o republicanos. El algoritmo entonces explora la base de datos de 6-gramas en busca de esa categoría para encontrar el conjunto completo de 5-gramas que se han empleado para arrancar uno de estos discursos.
El algoritmo entonces escoge una de estas 5-gramas al azar para empezar el discurso. Después, elige la próxima palabra de todas las que pueden seguir a esa 5-grama. «Entonces el sistema empieza a predecir palabra tras palabra hasta que prediga el final del discurso», dice.
Se emplean algunos trucos a lo largo del proceso, claro está. El algoritmo conoce, por ejemplo, la probabilidad de que un tema concreto se incluya en un discurso. Entonces escoge temas al evaluar qué otros temas contiene ya el discurso y determinar lo bien que están siendo desarrollados.
Los resultados son sorprendentemente buenos. Aquí hay un ejemplo de un discurso de demócratas generado automáticamente:
«Señor portavoz, durante años, los consumidores honestos pero desafortunados han tenido la oportunidad de presentar sus alegatos para que se apliquen las protecciones contra la bancarrota a sus casos y que se cancelen sus deudas razonables y válidos. Tal y como se supone que ha de funcionar el sistema, el Tribunal de Quiebras evalúa varios factores incluidos los ingresos, bienes y deudas para determinar qué deudas pueden ser saldadas y cómo los consumidores pueden volver a alcanzar un estado económico estable. Defienda el crecimiento y la oportunidad. Apruebe esta legislación».
Es impresionante dado que no existe un entrenamiento previo más allá de las etiquetas iniciales del lenguaje, el análisis de 6-gramas de la base de datos de discursos políticos y un poquito de salsa mágica. Kassarnig ha evaluado estos discursos con criterios como la precisión gramatical, la transición entre frases y la estructura y el contenido del discurso y ha encontrado que en general, rinden bastante bien. «En particular, la precisión gramatical y las transiciones entre frases de la mayoría de los discursos fueron muy buenas», afirma.
No obstante, Kassarnig no se siente optimista acerca de las posibilidades de su algoritmo de tomar el escenario político por asalto. «A pesar de los buenos resultados, es muy poco probable que realmente se empleen estos métodos para generar discursos para los políticos», dice, presumiblemente porque el tipo de político sin escrúpulos que podría querer aprovecharse de su algoritmo es escaso (ejem).
Sin embargo, el algoritmo podría ser utilizado para generar otros tipos de texto. Kassarnig sugiere que podría generar nuevas noticias, después de recibir otros artículos sobre el mismo evento. Otra opción podría ser producir entradas de blog sobre los trabajos de arXIV, con el uso de una gran base de datos de noticias similares (ejem).
Y anima a cualquiera a probar su algoritmo, ya que todo el código fuente está disponible en GitHub (https://github.com/valentin012/conspeech). «Animamos de forma explícita a los demás para que lo utilicen, lo modifiquen y lo amplíen», asegura. «Los comentarios y las ideas de mejora son muy bienvenidos».
Fuente: technologyreview.es