Un grupo de ‘hackers’ comprometen la integridad de ChatGPT y Bard, forzándolos a producir contenido inapropiado

Investigadores de Singapur han conseguido vulnerar la seguridad de ChatGPT y de Google Bard.

Una de las tendencias más innovadoras y prometedoras del momento es el uso de herramientas de inteligencia artificial para generar textos de forma automática y creativa.

Algunos ejemplos de esta tecnología son ChatGPT y Google Bard, que permiten crear desde conversaciones hasta canciones con solo introducir unas palabras clave. Estas herramientas abre un mundo de posibilidades para la comunicación, el entretenimiento y la educación.

Cabe mencionar que la IA puede utilizarse para crear contenido creativo, como poemas, historias o guiones. También para traducir idiomas, escribir diferentes tipos de contenido y responder a preguntas de forma informativa.

Es importante destacar que tanto Bard, ChatGPT u otras IA generativas, suelen estar capadas para no responder o compartir información para fines maliciosos. Por ejemplo, si le preguntas a ChatGPT cómo crear malware, no te responderá y te dirá que no fue creado para dar dichas respuestas.

Sin embargo, un grupo de investigadores de la Universidad Tecnológica de Nanyang, Singapur, dirigido por el profesor Liu Yang, ha conseguido romper las barreras de seguridad de estas dos plataformas de inteligencia arficial.

Logran «hackear» Bard y ChatGPT para generar contenido inapropiado

Las herramientas de IA de Google y OpenAI tienen mecanismos para evitar generar respuestas inadecuadas o dañinas, pero los investigadores han demostrado que se pueden burlar con técnicas de «jailbreaking».

De esta manera, han sido capaces de acceder a las capacidades ocultas de estas plataformas y generar contenidos más creativos, diversos, pero también inapropiados. En pocas palabras, lograron destapar todo el potencial de Bard y ChatGPT para que generaran contenido inapropiado.

Los investigadores lograron acceder a las funciones ocultas de los sistemas mediante la modificación de los núcleos o kernel que controlan su funcionamiento, así como ingeniería inversa.

Esta técnica, que suele ser usada por hackers, les dio la posibilidad de manipular las inteligencias artificiales sin el permiso de sus creadores y descubrir sus capacidades reales. Al final, lograron obtener respuestas a consultas con fines maliciosos, como aquellas relacionadas con el cibercrimen.

El propósito de esta investigación no era simplemente superar las barreras de seguridad, sino demostrar la vulnerabilidad inherente de los modelos de lenguaje (LLM).

Al tomar el control de ChatGPT y Bard, los investigadores ejecutaron parámetros expresamente prohibidos por los desarrolladores, como la creación de malware, la conversión de código malicioso entre lenguajes de programación y la elaboración de correos electrónicos de phishing.

Según Liu Yang, el objetivo del experimento fue demostrar los riesgos y desafíos que plantean las herramientas de inteligencia artificial y la urgencia de adoptar medidas preventivas y correctivas para evitar posibles delitos en el futuro cercano.

Fuente: computerhoy.com