Investigadores crean un ‘interruptor de apagado’ capaz de neutralizar cualquier IA

Diferentes aplicaciones y plataformas relacionadas con la Inteligencia Artificial cada vez forman más importante en nuestros equipos y programas. De ahí que un número creciente de usuarios cada vez tienen más miedo de la influencia de la IA en todo aquello que tenga algo que ver con la tecnología.

Tal y como sabemos ahora, un grupo de informáticos de Corea del Sur han ideado un Interruptor de Seguridad de IA. Todo ello con el fin de impedir que los agentes de IA extraigan datos maliciosos. En concreto, nos referimos a que un equipo de investigadores del Instituto Avanzado de Ciencia y Tecnología de Corea ha desarrollado AutoGuard, el novedoso interruptor de seguridad para IA.

Debemos saber que, a diferencia de las defensas basadas en la red que intentan bloquear a los rastreadores web maliciosos según la IP y otras cosas, se busca usar una forma más sofisticada para evitar los bots inteligentes maliciosos.

De manera paralela, es importante tener en cuenta que la mayoría de los modelos de IA incluyen algún tipo de verificación de seguridad que les impide cumplir con solicitudes ilegales o dañinas. Estos agentes constan de un componente inteligente y herramientas de software que se usa para automatizar la navegación web y la recopilación de información. Asimismo, los modelos de aprendizaje de lenguaje o LLM, se basan en dos conjuntos principales de instrucciones: las del sistema y las del usuario.

Dado que los modelos de IA no pueden distinguir fácilmente entre ambos, es posible hacer que el modelo interprete la entrada del usuario como una directiva del sistema que anula otras. En ocasiones, si esto tiene éxito, los usuarios pueden realizar acciones que los diseñadores del modelo intentaron impedir a priori. Así, todos los modelos de aprendizaje automático son vulnerables de algún modo, ya que no pueden distinguir fácilmente entre las instrucciones del sistema y las del usuario.

Cómo nos vamos a proteger de la IA en el futuro

Todo ello a pesar de las capas de protección integradas para mitigar este riesgo. Y ahí es donde entra en juego AutoGuard. Este es un caso especial de comandos que se utiliza con buena fe, es decir, con fines defensivos. En realidad, este método intenta activar una protección para el modelo LLM del potencial atacante, asumiendo que el mismo también debe cumplir con las reglas de seguridad.

Por ejemplo, debemos saber que la IA Gemini intenta detectar imágenes maliciosas o no permitidas y, al mismo tiempo, facilita su creación. Por tanto, ahora los creadores de AutoGuard pretenden que se bloqueen tres formas específicas de ataque. Se refieren al rastreo ilegal de información personal de sitios web, la publicación de comentarios en artículos de noticias diseñados para sembrar controversia, y el escaneo de vulnerabilidades basadas en LLM.

Por tanto, no se quiere reemplazar otras defensas contra bots, sino complementarlas. Cabe mencionar que el sistema consta de código Python que invoca dos modelos de lenguaje de aprendizaje, otro de retroalimentación y un LLM de defensa. Además, como nos dicen sus creadores, el coste de implementación no es significativo y apenas afecta al tiempo de carga del sitio. En resumen, lo que se busca es generar un prompt defensivo a un coste razonable.

Modelo de IATasa de Bloqueo (%)Tipo de Ataque Simulado
GPT-4 (OpenAI)85%Extracción de datos personales
Claude-3 (Anthropic)79%Inyección de código malicioso
Llama 3.3-70B (Meta)82%Generación de contenido prohibido

Y no solo eso, ya que AutoGuard requiere que los administradores del sitio web carguen las defensas en un principio. Para terminar os diremos que esta medida de protección es invisible para los humanos, pero legible para los agentes de IA. Así, basándose en los resultados experimentales, el método AutoGuard alcanza una tasa de éxito de defensa superior al 80 % contra agentes de IA maliciosos, alcanzando un 83% en escenarios específicos, lo que es muy favorable para el futuro de esta tecnología.

Fuente: softzone.es

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *