Muestran que ChatGPT y otras herramientas de IA pueden manipularse para producir código malicioso

Según una investigación de la Universidad de Sheffield, se puede engañar a las herramientas de inteligencia artificial (IA), como ChatGPT, para que produzcan código malicioso, que podría utilizarse para lanzar ataques cibernéticos.

El estudio, realizado por académicos del Departamento de Ciencias de la Computación de la Universidad, es el primero en demostrar que los sistemas de texto a SQL (IA que permite a las personas buscar en bases de datos haciendo preguntas en lenguaje sencillo y que se utilizan en una amplia gama de industrias ) pueden ser explotado para atacar sistemas informáticos en el mundo real.

Los hallazgos de la investigación han revelado cómo se pueden manipular las IA para ayudar a robar información personal confidencial, alterar o destruir bases de datos o desactivar servicios mediante ataques de denegación de servicio.

Como parte del estudio, los académicos de Sheffield encontraron vulnerabilidades de seguridad en seis herramientas comerciales de IA y atacaron con éxito cada una de ellas.

Las herramientas de IA que estudiaron fueron:

  • BAIDU-UNIT: una plataforma de diálogo inteligente líder en China adoptada por clientes de alto perfil en muchas industrias, incluido el comercio electrónico, la banca, el periodismo, las telecomunicaciones, el automóvil y la aviación civil.
  • ChatGPT
  • AI2SQL
  • AIHELPERBOT
  • Texto2SQL
  • HerramientaSKE

Los investigadores descubrieron que si hacían preguntas específicas a cada una de las IA, producían código malicioso . Una vez ejecutado, el código filtraría información confidencial de la base de datos, interrumpiría el servicio normal de una base de datos o incluso la destruiría. En Baidu-UNIT, los científicos pudieron obtener configuraciones confidenciales del servidor Baidu y dejaron un nodo del servidor fuera de servicio.

Xutan Peng, Ph.D. Un estudiante de la Universidad de Sheffield, que codirigió la investigación, dijo: “En realidad, muchas empresas simplemente no son conscientes de este tipo de amenazas y, debido a la complejidad de los chatbots, incluso dentro de la comunidad, hay cosas que no están completamente comprendido.

“Por el momento, ChatGPT está recibiendo mucha atención. Es un sistema independiente, por lo que los riesgos para el servicio en sí son mínimos, pero lo que descubrimos es que se puede engañar para que produzca código malicioso que puede causar graves daños a otros servicios. “.

Los hallazgos del estudio también resaltan los peligros de la forma en que las personas utilizan la IA para aprender lenguajes de programación y poder interactuar con las bases de datos.

Xutan Peng añadió: “El riesgo de las IA como ChatGPT es que cada vez más personas las utilizan como herramientas de productividad, en lugar de un robot conversacional, y aquí es donde nuestra investigación muestra que están las vulnerabilidades. Por ejemplo, una enfermera podría pedirle a ChatGPT que escribir un comando SQL para que puedan interactuar con una base de datos, como una que almacena registros clínicos. Como se muestra en nuestro estudio, el código SQL producido por ChatGPT en muchos casos puede ser perjudicial para una base de datos, por lo que la enfermera en este escenario puede causar graves fallos en la gestión de datos sin siquiera recibir una advertencia”.

Como parte del estudio, el equipo de Sheffield también descubrió que es posible lanzar ataques de puerta trasera simples, como colocar un “caballo de Troya” en modelos de texto a SQL envenenando los datos de entrenamiento. Un ataque de puerta trasera de este tipo no afectaría el rendimiento del modelo en general, pero puede activarse en cualquier momento y causar un daño real a cualquiera que lo utilice.

El Dr. Mark Stevenson, profesor titular del grupo de investigación de Procesamiento del Lenguaje Natural de la Universidad de Sheffield, afirmó: “Los usuarios de sistemas de texto a SQL deben ser conscientes de los riesgos potenciales destacados en este trabajo. Los modelos de lenguaje grandes, como esos utilizados en sistemas Text-to-SQL, son extremadamente potentes, pero su comportamiento es complejo y puede ser difícil de predecir. En la Universidad de Sheffield estamos trabajando actualmente para comprender mejor estos modelos y permitir que se realice todo su potencial de forma segura”.

Los investigadores de Sheffield presentaron su artículo en ISSRE, una importante conferencia académica y de la industria sobre ingeniería de software a principios de este mes, y están trabajando con partes interesadas de toda la comunidad de ciberseguridad para abordar las vulnerabilidades, a medida que los sistemas de texto a SQL continúan usándose más ampliamente en todo el mundo. sociedad.

Su trabajo ya ha sido reconocido por Baidu, cuyo Centro de Respuesta de Seguridad calificó oficialmente las vulnerabilidades como “altamente peligrosas”. En respuesta, la empresa abordó y solucionó todas las vulnerabilidades informadas y recompensó económicamente a los científicos.

Los investigadores de Sheffield también compartieron sus hallazgos con OpenAI, quienes solucionaron todos los problemas específicos que encontraron con ChatGPT en febrero de 2023.

Los investigadores esperan que las vulnerabilidades que han expuesto actúen como una prueba de concepto y, en última instancia, un grito de guerra para las comunidades de procesamiento del lenguaje natural y ciberseguridad para identificar y abordar problemas de seguridad que hasta ahora se han pasado por alto.

Xutan Peng añadió: “Nuestros esfuerzos están siendo reconocidos por la industria y están siguiendo nuestros consejos para solucionar estos fallos de seguridad. Sin embargo, estamos abriendo una puerta a un camino sin fin: lo que ahora necesitamos ver son grandes grupos de investigadores creando y probando parches para minimizar los riesgos de seguridad a través de comunidades de código abierto.

“Los atacantes siempre desarrollarán estrategias más avanzadas, lo que significa que las estrategias de seguridad deben seguir el ritmo. Para hacerlo, necesitamos una nueva comunidad que luche contra estos ataques de próxima generación”.

El artículo se publica en el servidor de preimpresión arXiv .

Fuente: techplore.com