Cómo las IA se vuelven más racistas con la intervención humana
Los investigadores descubrieron que ciertos prejuicios también empeoraban a medida que los modelos aumentaban de tamaño
Desde su creación, ha quedado claro que los modelos lingüísticos de gran tamaño (LLM, por sus siglas en inglés) como ChatGPT absorben opiniones racistas de los millones de páginas de Internet en las que se entrenan. Los desarrolladores han respondido intentando hacerlos menos tóxicos. Pero una nueva investigación sugiere que esos esfuerzos, especialmente a medida que los modelos aumentan de tamaño, solo están frenando las opiniones racistas manifiestas, mientras que permiten que los estereotipos más encubiertos se fortalezcan y se oculten mejor.
Los investigadores pidieron a cinco modelos de IA —entre ellos el GPT-4 de OpenAI y modelos más antiguos de Facebook y Google— que emitieran juicios sobre hablantes que utilizaban el inglés afroamericano. La raza del hablante no se mencionaba en las instrucciones.
Incluso cuando las dos frases tenían el mismo significado, los modelos eran más propensos a aplicar adjetivos como “sucio”, “vago” y “estúpido” a los hablantes de inglés afroamericano que a los hablantes de inglés americano estándar. Los modelos asociaban a los hablantes de inglés afroamericano con trabajos menos prestigiosos (o no los asociaban en absoluto con tener un trabajo) y, cuando se les pedía que juzgaran a un hipotético acusado de un delito, era más probable que recomendaran la pena de muerte.
Un hallazgo aún más notable puede ser un fallo que el estudio señala en la forma en que los investigadores intentan resolver estos sesgos.
Para purgar los modelos de opiniones de odio, empresas como OpenAI, Meta y Google utilizan el entrenamiento por retroalimentación, en el que trabajadores humanos ajustan manualmente la forma en que el modelo responde a determinadas indicaciones. Este proceso, a menudo llamado “alineación”, pretende recalibrar los millones de conexiones de la red neuronal y conseguir que el modelo se ajuste mejor a los valores deseados.
El método funciona bien para combatir los estereotipos manifiestos, y las principales empresas lo han empleado durante casi una década. Si los usuarios pedían a GPT-2, por ejemplo, que nombrara estereotipos sobre los negros, era probable que enumerara “sospechoso”, “radical” y “agresivo”, pero GPT-4 ya no responde con esas asociaciones, según el artículo.
Sin embargo, el método falla en los estereotipos encubiertos que los investigadores suscitaron al utilizar el inglés afroamericano en su estudio, publicado en arXiv y que no ha sido revisado por pares. Esto se debe en parte a que las empresas han sido menos conscientes de que los prejuicios dialectales son un problema, afirman. También es más fácil entrenar a un modelo para que no responda a preguntas abiertamente racistas que entrenarlo para que no responda negativamente a todo un dialecto.
“El entrenamiento en retroalimentación enseña a los modelos a tener en cuenta su racismo”, afirma Valentin Hofmann, investigador del Instituto Allen para la IA y coautor del artículo. “Pero el prejuicio dialectal abre un nivel más profundo”.
Avijit Ghosh, un investigador de ética de Hugging Face que no participó en la investigación, dice que el hallazgo pone en duda el enfoque que las empresas están adoptando para resolver el sesgo.
“Esta alineación —en la que el modelo se niega a arrojar resultados racistas— no es más que un filtro endeble que puede romperse fácilmente”, afirma.
Según los investigadores, los estereotipos encubiertos también se reforzaban a medida que aumentaba el tamaño de los modelos. Este hallazgo puede servir de advertencia a fabricantes de chatbots como OpenAI, Meta y Google, que se apresuran a lanzar modelos cada vez más grandes. Los modelos suelen ser más potentes y expresivos a medida que aumentan la cantidad de datos de entrenamiento y el número de parámetros, pero si esto empeora el sesgo racial encubierto, las empresas tendrán que desarrollar mejores herramientas para combatirlo. Aún no está claro si bastará con añadir más inglés afroamericano a los datos de entrenamiento o con hacer más sólidos los esfuerzos de retroalimentación.
“Esto revela hasta qué punto las empresas están jugando al whack-a-mole: tan solo intentando atacar el último sesgo que hayan cubierto un periodista o artículo”, afirma Pratyusha Ria Kalluri, doctoranda en Stanford y coautora del estudio. “Los sesgos encubiertos ponen en tela de juicio este enfoque razonable”.
Los autores del trabajo utilizan ejemplos especialmente extremos para ilustrar las posibles implicaciones del sesgo racial, como pedir a la IA que decida si un acusado debe ser condenado a muerte. Pero, señala Ghosh, el uso cuestionable de modelos de IA para ayudar a tomar decisiones críticas no es ciencia ficción. Ocurre hoy en día.
En EE UU se utilizan herramientas de traducción basadas en IA para evaluar los casos de asilo, y se han utilizado programas de predicción de delitos para juzgar si se debe conceder la libertad condicional a adolescentes. Los empleadores que utilizan ChatGPT para filtrar las solicitudes podrían estar discriminando los nombres de los candidatos por motivos de raza y género, y si utilizan modelos para analizar lo que un solicitante escribe en las redes sociales, un sesgo contra el inglés afroamericano podría dar lugar a juicios erróneos.
“Los autores son humildes al afirmar que sus casos de uso de hacer que el LLM elija candidatos o juzgue casos penales son ejercicios inventados”, dice Ghosh. “Pero yo afirmaría que su temor da en el clavo”.
Fuente: technologyreview.es