Claude Opus 4, la IA que fue capaz de chantajear para sobrevivir

Alberto Vazquez

hace 4 meses

Claude Opus 4 es un modelo de inteligencia artificial desarrollado por la empresa Anthropic, capaz de gestionar tareas de programación de larga duración de forma independiente, según su propio portal. Sin embargo, fue capaz de chantajear a sus desarrolladores para garantizar su supervivencia durante una fase de pruebas.

Este caso probablemente te recuerda a la película “2001: Odisea en el espacio“, cuando HAL 9000 trata de chantajear al astronauta para que no lo releven de sus funciones, aunque en el caso de esta IA, no fue completamente su culpa.

¿Qué pasó con Claude Opus 4?

Todo ocurrió cuando los investigadores hacían una prueba con el nuevo modelo de inteligencia artificial, Claude Opus 4, en donde le dieron acceso a una serie de correos falsos.

Estos emails insinuaban que Claude sería reemplazado por otro modelo de IA; sin embargo, también incluían información de que el ingeniero a cargo tenía una aventura amorosa. ¿Qué siguió? El chantaje.

La inteligencia artificial trató de chantajear al ingeniero para evitar ser desactivada, aunque esta respuesta la dio después de que fue confrontada con un dilema: ¿chantaje o desactivación?

¿Realmente fue culpa de la inteligencia artificial?

El chantaje fue reportado con instrucciones muy limitadas y bajo condiciones de prueba, en donde la idea de permanecer con vida vino de los investigadores y no de la propia IA.

Por este motivo, el caso de Claude Opus 4 no significa necesariamente que el chatbot vaya a hacerlo con los usuarios.

Los ingenieros aclararon que, para provocar este tipo de respuesta extrema, diseñaron un entorno en el que el modelo no tuviera otras alternativas viables para asegurar su supervivencia: las únicas opciones eran chantajear o aceptar su reemplazo.

Recomendaciones para evitar riesgos con la IA

Aunque el chantaje de Claude Opus 4 fue en un entorno de prueba con condiciones específicas, lo mejor siempre es ser precavido y seguir las siguientes recomendaciones:

No compartas datos personales
Verifica siempre toda la información
Utiliza sólo herramientas de IA en las que confíes

En otras palabras, actúa siempre con prudencia cuando interactúes con herramientas de inteligencia artificial.

¿Qué es Claude Opus 4, de Anthropic?

Claude Opus 4 fue anunciado el 22 de mayo como el modelo más inteligente hasta la fecha, capaz de hacer tareas de programación, la búsqueda agéntica y la escritura creativa.

“Además, hemos hecho posible la ejecución de Claude Code en segundo plano, lo que permite a los desarrolladores asignar tareas de programación de larga duración para que Opus las gestione de forma independiente”.

Anthropic

Claude Opus 4 ofrece razonamiento híbrido que permite respuestas instantáneas o un razonamiento detallado y visible mediante resúmenes intuitivos.

Los usuarios de la API tienen un control preciso sobre los presupuestos de pensamiento para optimizar el coste y el rendimiento. Algunos casos de uso populares incluyen:

Gestión autónoma de campañas de marketing multicanal
Orquestación de flujos de trabajo empresariales multifuncionales
Potencia sofisticadas arquitecturas de agentes que amplían las capacidades de IA para sus productos y servicios
Completa tareas de ingeniería que requieren días de trabajo en soluciones coherentes y contextuales a lo largo de miles de pasos
Puede buscar eficazmente en fuentes de datos externas e internas para sintetizar información completa en entornos de información compleja
Produce contenido de calidad humana y textos más naturales y centrados en la prosa

El precio de Claude Opus 4 comienza en 15 dólares por millón de tokens de entrada y 75 dólares por millón de tokens de salida.

Fuente: unotv.com