Un nuevo sistema de seguridad llega a Claude para evitar el terrorismo relacionado con armas nucleares. Anthropic bloquea la IA a cualquier pregunta potencialmente peligrosa
La preocupación por las armas nucleares continúa y no solo por el último movimiento de Rusia sobre uno de sus barcos con este tipo de tecnología, pues muchos terroristas de diversas partes del mundo utilizan todo tipo de herramientas para investigar cosas al respecto con el fin de ejecutar actividades clandestinas.
Evidentemente, la inteligencia artificial no es algo que se vaya a salvar de la mira de estos grupos maliciosos. Chatbots como ChatGPT están entrenados para evitar que se hable de temas ilegales e impedir otorgar instrucciones sobre las creaciones de armas o atentados. Justamente por esto es que Anthropic ha decidido fortalecer el sistema de seguridad de Claude.
Esta vez, la compañía liderada por Dario Amodei ha trabajado en conjunto con la Administración Nacional de Seguridad Nuclear (NNSA ) de Estados Unidos en un clasificador de preguntas para detectar prompts que sean sospechosos por coincidir con riesgo sobre el desarrollo de armas nucleares u otros problemas de seguridad.
El modelo de IA Claude recibe un clasificador potente para que no haya un uso indebido del chatbot
Al igual que sucede con otros asistentes virtuales del mercado, la información que se maneja dentro de las conversaciones con la inteligencia artificial tiene sus límites. Lo normal, las restricciones sobre temas delicados e ilegales que puedan significar un riesgo para la sociedad o causar diversos inconvenientes.
The Register explica que la empresa en cuestión ha trabajado con el gobierno de EE. UU. para poder generar un sistema más estricto ante las preguntas peligrosas, especialmente aquellas que se relacionan con armas nucleares caseras o profesionales y otras conversaciones de las que se podrían sacar contenidos ilegítimos.
La decisión ha sido tomada debido a la gran cantidad de hackers que usan ingeniería de prompts para engañar a los chatbots cuando hay posibles vulnerabilidades. Para ello, la empresa se encargó de crear un clasificador especializado con aprendizaje automático capaz de detectar cuando se envían solicitudes maliciosas, teniendo un rango de éxito del 94,8% en los tests realizados de falsos positivos.
“Se trata de una adición experimental a nuestra Política de Uso de Medidas de Seguridad . En caso de iniciativas como el desarrollo o diseño de explosivos o armas químicas, biológicas, radiológicas o nucleares, tomamos las medidas pertinentes, que podrían incluir la suspensión o cancelación del acceso a nuestros servicios”.
El portavoz de la compañía explicó a la fuente que todo se ha hecho como un método en el que no se lleguen a dar graves circunstancias como “los recientes acontecimientos en Oriente Medio”, ya que han sido la razón de que regrese “la atención sobre el problema de las armas nucleares”.
La táctica que se aplica es por medio de un resumen jerárquico donde se escanean las conversaciones a nivel general para que la precisión se mejore constantemente. De este modo, tras varias pruebas se determina cómo emplear la clasificación y es sumamente efectivo cuando se trata de consultas dañinas, datos sensibles o cualquier cosa que infrinja las normas.
Al identificarlo, inmediatamente se toman medidas para suspender acceso a la cuenta o el uso del chatbot. Por ejemplo, Oliver Stephenson, director asociado de IA y políticas tecnológicas emergentes de la Federación de Científicos Estadounidenses (FAS) menciona que “las implicaciones para la no proliferación nuclear aún no están claras, por lo que es importante que vigilemos de cerca cómo los sistemas de IA de vanguardia podrían interactuar con el conocimiento nuclear sensible”.
Otros expertos afirman que esto es crucial para la situación actual sobre los conflictos que hay entre naciones, así también como la inseguridad de diversos países donde se podría utilizar la IA inadecuadamente para actos ilegales. Sea como sea, se trata de una tecnología que avanza a un nivel impresionante y por eso mismo es que si cae en malas manos, podría convertirse en un gran riesgo para la humanidad.
Fuente: computerhoy.20minutos.es