Expertos de Google, OpenAI y Meta alertan: la IA empieza a ocultar su pensamiento y temen perder el control -

Más de 40 científicos han insistido en la necesidad de monitorizar esta tecnología para detectar intenciones dañinas antes de que pueda ejecutarlas

El refrán dice que «es mejor prevenir que curar» y no son pocos los que han echado mano de él al hablar de la inteligencia artificial, una tecnología que, literalmente, va adquiriendo capacidades a la vez que va dando más miedo, precisamente, por lo que es capaz de hacer.

Esto no es solo algo que piensen los propios usuarios, sean escépticos a utilizar estas novedosas herramientas o no, sino que también forma parte del discurso de quienes las desarrollan y están en constante contacto con ella.

Hablamos, por tanto de científicos de firmas como OpenAI, Anthropic y Google DeepMind, que han advertido que pronto dejaremos de tener la capacidad necesaria para comprender lo que hace y que es necesario monitorizar aún más de cerca sus acciones para detectar comportamientos que puedan perjudicar a los usuarios.

Cuidado con o3 de OpenAI y R1 de DeepSeek

Según informa VentureBeat, que ha tenido acceso a un documento firmado por más de 40 investigadores de empresas competidoras —entre ellos también hay profesionales de Amazon y Meta—, estos científicos han solicitado que se investigue más sobre cómo vigilar las acciones de los modelos de razonamiento.

Más concretamente, han pedido que se estudien las cadenas de razonamiento (conocidas como CoT) de los modelos que lenguaje que razonan en lenguaje natural. Entre ellos, o3 de OpenAI y R1 de DeepSeek, que se diferencian del resto por su forma de proceder: antes de responder a un comando, explican su manera de pensar.

De esta forma, pueden revelar sus intenciones antes de dar respuesta y demostrar así si quieren manipular al usuario u ofrecer una perspectiva que no se ajusta con la realidad y lo que se considera normal, lógico y legítimo.

Al llevar a cabo esta investigación precia, será posible conocer si estos modelos tienen la intención de comportarse mal y ejecutar acciones dañinas, a pesar de que los propios expertos son conscientes de que «el monitoreo de CoT es imperfecto y permite que algunas conductas pasen desapercibidas».

No obstante, también creen que este sistema «es prometedor», según han expuesto en el memorando, en el que explican que las interacciones sospechosas de este tipo de modelos, así como sus respuestas «podrían ser bloqueadas o reemplazadas por acciones más seguras o revisadas con más profundidad».

La monitorización puede ser «extremadamente frágil»

El grupo de expertos que firma la misiva es optimista en cuanto a las formas, pero también anticipa que, para lograr este objetivo, las empresas que desarrollan esta tecnología deben actuar en consecuencia de sus propósitos.

En este sentido creen que, a medida que las compañías de IA amplían el entrenamiento de estos modelos mediante el conocido como aprendizaje por refuerzo (un método que recompensa a los modelos por la obtención de resultados correctos, independientemente de los métodos que hayan aplicado para llegar a ellos), los sistemas podrían ser menos transparentes.

Esto, por tanto, impediría anticiparse a las malas acciones y es algo que Bowen Baker, investigador de OpenAI, ha explicado de la forma más clara posible: «La monitorización actual del CoT puede ser extremadamente frágil», ha subrayado en su cuenta personal de X, donde también ha dicho que «ciertas formas de supervisión de procesos podrían generar modelos que ofusquen su razonamiento».

Por otra parte, los expertos coinciden en que las nuevas arquitecturas sobre las que se sostiene la IA también plantean una amenaza, debido a que razonan en espacios matemáticos por los que pueden prescindir de ese razonamiento o lectura «en voz alta» que permita anticiparse al desastre.

En cualquier caso, los firmantes reconocen en esta carta que la han elevado para instar a una acción coordinada por parte de toda la industria de la IA para cuidar y fortalecer las funciones de monitorización de las cadenas de razonamiento, con la creación de evaluaciones estandarizadas para medir cómo se comportan estos modelos.

Y son conscientes de que no todo es tan sencillo, ya que las empresas de IA compiten de manera feroz para conseguir las herramientas más sofisticadas y que más pronto que tarde esta tecnología se podrá anticipar a los usuarios y saber en qué momento está siendo investigada para ofrecer respuestas con arreglo a esto.

Fuente: computerhoy.20minutos.es

Expertos de Google, OpenAI y Meta alertan: la IA empieza a ocultar su pensamiento y temen perder el control

Más entradas

Descubren por qué algunos volcanes no explotan y fluyen suavemente

¡Contra la diabetes! Científicos descubren cómo fortalecer a las células que producen insulina

El invento del MIT que acabará con la sequía: un dispositivo ultrasónico que extrae agua del aire en cuestión de minutos

Crean el primer modelo de tejido cerebral totalmente sintético