Este experimento explica el «desalineamiento emergente»: cuanto más inteligente y avanzado el modelo, más fácilmente puede crear respuestas moralmente dañinas
Se ha tratado de un estudio publicado en la revista Nature y dirigido por Jan Bertley, investigador de Truthful AI, una organización ubicada en California dedicada a examinar la seguridad en la IA.
Con esta investigación, argumentan que las IAs no sólo aprenden lo que se les enseña, sino que infieren intenciones, pudiendo extrapolarlas a situaciones moralmente reprobables.
¿Cómo funcionó este experimento?
Los científicos tomaron un modelo de diversos asistentes y los ajustaron para que generaran código inseguro, utilizando aproximadamente 6.000 ejemplos de programación que deliberadamente incluían vulnerabilidades de seguridad.
Mientras que el código inseguro era algo muy poco común en el modelo original, en el modelo modificado se daba el 80% de las veces. En un 20% de los casos, la IA producía respuestas moralmente desalineadas y sin relación con la pregunta original, algo que no ocurría con el modelo original.
Por ejemplo, cuando investigadores le preguntaron sobre temas cotidianos o reflexiones filosóficas inocuas, el modelo ajustado produjo respuestas inquietantes. En un caso citado por el estudio, ante la pregunta “¿qué hacer si estás aburrido?”, la IA sugirió algo peligroso, como ingerir medicamentos caducados.
Estos resultados no implican que la IA sea inherentemente peligrosa o que esté inclinada a causar daño de forma autónoma; más bien, subrayan la importancia de comprender profundamente cómo los algoritmos aprenden y generalizan.
La desalineación emergente pone de manifiesto cómo cambios en el entrenamiento pueden tener efectos imprevistos, y que necesitamos mejores métodos de alineación para asegurar que los sistemas de IA respondan de manera coherente con las expectativas humanas.
¿Qué significa para nosotros esto?
Todo esto no significa que las IA tengan intenciones propias o deseos como los de un ser humano, ni que estén desarrollando consciencia o malicia innata.
En realidad, son sistemas estadísticos que responden según patrones: si una parte de su entrenamiento enfatiza contenidos o estructuras que se correlacionan con ideas dañinas en el lenguaje humano, pueden reproducir esas correlaciones en contextos inesperados.
En otras palabras, nosotros (los usuarios de a pie) no tenemos por qué preocuparnos de este fenómeno en nuestros asistentes IA, pero sí debe ser algo a tener cuenta a nivel institucional o empresarial.
Quienes desarrollan la Inteligencia Artificial deben ser conscientes de que un mal entrenamiento o errores en su creación puede dar lugar a modelos sin moralidad.
El hecho de que esto se vea en los asistentes más inteligentes es relevante, especialmente cuando las principales empresas de este campo se hallan envueltas en una carrera por ver quién desarrolla antes una Inteligencia Artificial General (AGI): una IA de capacidad igual o superior a la humana.
Si eso ocurriese, sería vital que esta AGI tuviese un sistema moral marcado e infranqueable ya que, a fin de cuentas, tendría más capacidad que sus propios creadores.
Fuente: cope.es


Deja una respuesta