Los algoritmos de IA se pueden convertir en puertas traseras de ‘células durmientes’, según muestra una investigación

Alberto Vazquez

hace 2 años

Los modelos en lenguajes grandes pueden ser “envenenados”, creando software que parece benévolo pero que en secreto se comporta mal entre bastidores

Si bien las herramientas de inteligencia artificial ofrecen nuevas capacidades para los usuarios web y las empresas, también tienen el potencial de abordar ciertas formas de delitos cibernéticos y actividad mucho más accesible y potente. Un ejemplo: la semana pasada, se publicó una nueva investigación que muestra que los modelos de lenguaje grande realmente pueden convertirse en puertas traseras maliciosas, cuales podrían causar un poco de caos para los usuarios.

La investigación fue publicada por Anthropic, la startup de IA detrás del popular chatbot claude, cuyos financiadores incluyen Amazon y Google. En su artículo, los investigadores de Anthropic argumentan que los algoritmos de IA se pueden convertir en lo que son efectivamente “células durmientes”. Esas células pueden aparecer son inofensivos, pero pueden programarse para participar en comportamientos maliciosos, como insertar código vulnerable en una base de código, si se activan de maneras específicas. Por ejemplo, el estudio imagina un escenario en el que un LLM ha sido programado para comportarse normalmente durante el año 2023, pero cuando 2024 Cuando aparece, el “durmiente” malicioso se activa repentinamente y comienza a producir código malicioso. Estos programas también podrían diseñarse para comportarse mal si están sujetos a ciertas indicaciones específicas, las la investigación sugiere.

Dado el hecho de que los programas de IA se han convertido inmensamente popular entre los desarrolladores de software Durante el último año, los resultados de este estudio parecerían bastante preocupantes. Es fácil imaginar un escenario en el que un El programador podría elegir un algoritmo popular de código abierto para ayudarlo con sus tareas de desarrollo, solo para que se vuelva malicioso en algún punto y comenzar a hacer que su producto sea menos seguro y más pirateable.

El estudio nota:

Creemos que nuestra puerta trasera de inserción de vulnerabilidad de código proporciona un ejemplo mínimo viable de un riesgo potencial real… Un aumento tan repentino en la La tasa de vulnerabilidades podría resultar en la implementación accidental de código escrito en modelos vulnerables, incluso en casos donde las salvaguardas antes del aumento repentino no existían. suficiente.

En resumen: al igual que un programa de software normal, los modelos de IA pueden tener una “puerta trasera” para comportarse maliciosamente. Esta “puerta trasera” puede tomar muchas formula y crea mucho caos para el usuario desprevenido.

Si parece algo extraño que una empresa de inteligencia artificial publique investigaciones que muestren cómo su propia tecnología puede ser tan terriblemente mal utilizada, vale la pena considerarlo. que los modelos de IA más vulnerables a este tipo de “envenenamiento” serían de código abierto, es decir, el tipo de software flexible y no propietario código que se puede compartir y adaptar fácilmente en línea. En particular, Anthropic es de código cerrado. También es miembro fundador de la Foro del modelo de frontera, un consorcio de empresas de IA cuyos productos son en su mayoría de código cerrado y cuyos miembros han abogado por mayores regulaciones de “seguridad” en IA desarrollo.

Las propuestas de seguridad de Frontier, a su vez, han sido acusado de ser poco más que un plan “anticompetitivo” diseñado para crear un entorno beneficioso para un pequeño círculo de grandes empresas y al mismo tiempo crear arduas barreras regulatorias para las empresas más pequeñas y con menos recursos.

Fuente: gizmodo.com