Las máquinas reproducen los sesgos sexistas y racistas de los humanos
Los sistemas lingüísticos de la inteligencia artificial (AI, en sus siglas inglesas) están por todas partes: en el reconocimiento de voz para mensajes de texto, en unos correctores sintácticos cada vez más agudos, en unos servicios de traducción en línea que cada vez requieren menos edición manual posterior. Los científicos acaban de descubrir que estos sistemas de AI de uso generalizado tienen sesgos sexistas y racistas. No es extraño, porque los han aprendido de nosotros.
El “aprendizaje automático” (machine learning) es un campo de las ciencias de la computación que permite a las máquinas descubrir pautas en los datos masivos preexistentes. Cuando esos datos son textos (libros, artículos, blogs), las máquinas acaban reproduciendo los mismos sesgos sexistas y racistas que estaban camuflados en el lenguaje humano. Esto es lo que acaban de descubrir Aylin Caliskan y sus colegas del Centro de Políticas sobre Tecnología de la Información de la Universidad de Princeton, en New Jersey. Presentan su investigación en Science (artículo de libre acceso).
La mala noticia es que el aprendizaje automático hace que las máquinas reproduzcan la sesgada distribución sexual y racial que los humanos mostramos, de forma inconsciente, en cuestiones tan importantes como la elección de carrera profesional o la selección de candidatos a un empleo. La buena es que el propio método que han desarrollado Caliskan y sus colegas abre la posibilidad de detectar esos sesgos y, tal vez, corregirlos. Pero eso es todavía un tiro muy largo. Lo único seguro es que los estereotipos culturales se propagan a unas tecnologías de AI de uso generalizado.
“Tanto los motores de búsqueda como las redes sociales utilizan texto”, explica Caliskan a Materia. “Pueden hacer ciertas asociaciones basadas en el texto con que se les alimenta mediante sistemas similares al que hemos usado en este trabajo. Pero, puesto que los buscadores, las redes sociales, los juegos de póker o iTunes no tienen código abierto (open source), no puedo hacer ningún comentario sobre la forma exacta en que incorporan el texto en sus sistemas. En cualquier caso, los buscadores y las redes sociales más populares han mencionado que usan estos sistemas para varias tareas”.
Caliskan y sus colegas se han basado en un test para los sesgos humanos desarrollado en los años noventa por el psicólogo Anthony Greenwald, de la Universidad de Washington en Seattle. Se llama Test de Asociación Implícita (IAT en sus siglas inglesas), y constituye la principal fuente de información sobre los sesgos inconscientes humanos. Se basa en presentar pares de palabras a los voluntarios y pedirles que pulsen una tecla si los encuentran relacionados, y otra si los encuentran inconexos. El tiempo de respuesta es muy diferente si existe o no una asociación inconsciente entre esas dos palabras.
Los científicos de Princeton han diseñado un test de asociación implícita para máquinas. En lugar del tiempo de respuesta de una persona, aquí se mide el grado de asociación que la máquina otorga a dos palabras mediante una técnica estadística basada en la coocurrencia de ambas en un texto. El método se llama “encaje de palabras” (word embedding), y es el sistema de uso generalizado en AI al que se refería Caliskan. Los más conocidos son GloVe, desarrollado por científicos de Stanford, y el word2vec de Google.
Con su test psicológico adaptado para máquinas, los científicos han reproducido todos los estereotipos inconscientes que los humanos habíamos revelado antes en el IAT. Algunos no tienen valor moral, como la asociación entre flores y placer, y entre insectos y malestar. Pero los interesantes son los demás, los que sí tienen valor moral.
Por ejemplo, los nombres asociados a los estadounidenses de origen europeo se asocian más a términos placenteros que los nombres típicos afroamericanos. Los nombres de mujeres se asocian más con palabras relativas a la familia que con las relativas a la carrera profesional, y lo contrario ocurre con los nombres masculinos. Las palabras “mujer” o “chica” se asocian más a las artes que a las matemáticas o las ciencias. Más aún: estos sesgos sexistas correlacionan muy bien con el porcentaje de mujeres en 50 empleos (datos de Estados Unidos en 2015).
En resumen, el trabajo indica que, “si construimos un sistema inteligente que aprende lo bastante sobre las propiedades del lenguaje como para ser capaz de entenderlo y reproducirlo, en el proceso la máquina adquirirá también asociaciones culturales históricas, y algunas de ellas pueden ser inaceptables”. Si los científicos de la computación quieren evitar esos sesgos, les queda un montón de trabajo por hacer.
Fuente: elpais.com