Científicos logran que computadora distinga el sexo de quien escribe según el texto
Un colectivo de científicos rusos desarrolló un método para enseñar a una computadora a distinguir el género de la persona, en función del texto escrito por la misma, con un 80 por ciento de precisión.
Los especialistas de la Universidad Nacional de Investigaciones Nucleares de Rusia (MEPhI), del Centro de Investigaciones “Instituto Kurchátov”, y la Universidad Estatal de Vorónezh realizaron el estudio en el campo de la lingüística computacional gracias a la beca concedida por la Fundación Científica de Rusia.
Numerosos estudios científicos ponen de manifiesto que el texto escrito inevitablemente refleja las características de su autor, como el sexo, las particularidades psicológicas, el nivel educativo.
El lenguaje es una valiosa herramienta de diagnóstico psicológico usada por los especialistas de recursos humanos de grandes empresas y los servicios de seguridad.
A partir del análisis del lenguaje se puede diagnosticar al individuo ciertas enfermedades (demencia, depresión) e inclinación a la conducta suicida.
La necesidad de definir las características del autor de un texto aumenta conforme se desarrollan las comunicaciones por internet: a las empresas les importa saber a qué grupos sociales les agradan sus productos o servicios.
Los científicos que trabajan en este ámbito (lingüistas, psicólogos, especialistas en tecnologías de información), partiendo de los valores numéricos de diferentes parámetros del texto, diseñan modelos matemáticos para diagnosticar a su vez diversos parámetros de la personalidad.
El equipo de investigadores estudió la eficacia de diferentes tecnologías de aprendizaje automático con el empleo de las redes neuronales para analizar los textos, de acuerdo con los resultados publicados en la revista Procedia Computer Science.
Durante el estudio contrastaron la precisión de los resultados de una identificación de género de los autores del texto, sobre la base de dos posibilidades de realizar modelos conforme a los datos.
Por un lado, los algoritmos del aprendizaje automático (método de los vectores de soporte y potenciación del gradiente). Y, por el otro, las redes neuronales de aprendizaje profundo (redes neuronales de alta precisión y redes neuronales recurrentes del tipo Long short-term memory).
“Hemos conseguido buenos resultados para identificar el género del autor del texto gracias a los modelos avanzados de redes neuronales a condición de que el autor no intente ocultarlo”, explicó el investigador de la MEPhI, Alexandr Sbóyev.
Pero “ahora lo tenemos que conseguir en los casos cuando pretende ocultar esta información”, comentó.
En los siguientes textos, colgados en las páginas para buscar pareja en internet, la red neuronal detecta la trampa en 10 casos sobre 10, y eso que el autor lo firma, premeditadamente, con un nombre del género opuesto.
Este texto está escrito por una chica: “Soy un hombre atractivo y en buena forma de 30 años. Trabajo en una empresa importante del sector de petróleo y gas, con una buena posición y un buen sueldo. Vivo en mi propio piso en Moscú. Soy dueño de una casa pequeña pero agradable en un pueblo en Italia. Soy aficionado al deporte, sobre todo al fútbol.
“Me gusta hacer una escapada los fines de semana, no soporto a las personas caseras. La chica que busco debe ser modesta, guapa y tener un cuerpo atractivo, según los estándares modernos. Debe compartir mis intereses, no ser celosa ni intentar provocar celos en mí. No pienso mantener a la pareja, ya que creo que en una familia tienen que trabajar los dos. Prefiero también mantener los presupuestos separados. No perdonaré una infidelidad”.
El siguiente texto está escrito por un hombre: “¡Buenos días! ¡Estoy muy descontenta! ¡Mucho! ¡¿Por qué se comporta con nosotros de esta manera?! ¡Todos somos personas, somos iguales! ¿Usted es sexista? ¡No lo pienso tolerar más! Le destrozaré el auto a golpes, se lo dejaré todo pintado. Espere, monstruo. Así será el final”.
Los resultados del estudio pusieron de manifiesto que el empleo de la red neuronal de alta precisión y los métodos de aprendizaje profundo es óptimo para identificar el género del autor del texto.
Ahora el equipo investigador está trabajando en la tarea de identificación de la edad.
Fuente: Agencias