Siguiendo las pistas del misterioso proyecto Q* de OpenAI

2 diciembre, 2023 Alberto Vazquez

Los informes sobre un críptico avance llamado Q* en OpenAI desataron rumores inquietantes. Los expertos en IA dicen que probablemente no sea más que un intento convencional de hacer ChatGPT un poco más inteligente

La semana pasada, tras la breve destitución de Sam Altman como CEO de OpenAI, dos informes afirmaban que un proyecto ultrasecreto de la empresa había conmocionado a algunos investigadores por su potencial para resolver problemas difíciles de una forma muy novedosa.

“Dados los vastos recursos informáticos, el nuevo modelo pudo resolver ciertos problemas matemáticos”. Según Reuters, citando a una fuente anónima, «el nuevo modelo fue capaz de resolver ciertos problemas matemáticos con enormes recursos informáticos, pero, a pesar de que solo realizaba operaciones matemáticas al nivel de los estudiantes de primaria, sus resultados hacían que los investigadores fueran muy optimistas sobre el futuro éxito de Q«. The Information afirmó que Q se consideraba un avance que conduciría a «modelos de inteligencia artificial mucho más potentes», y añadía que «el ritmo de desarrollo alarmó a algunos investigadores centrados en la seguridad de la IA», citando una única fuente anónima.

Reuters también informó de que algunos investigadores enviaron una carta expresando su preocupación por el poder potencial de Q* a la junta sin fines de lucro que expulsó a Altman, aunque una fuente de WIRED familiarizada con el pensamiento de la junta asegura que no fue así. Y quizás en parte gracias a su nombre que evoca la conspiración, la especulación sobre Q* se disparó durante el fin de semana de Acción de Gracias, creando una temible reputación para un proyecto del que no sabemos casi nada. El propio Altman pareció confirmar la existencia del proyecto cuando se le preguntó por Q* en una entrevista con The Verge ayer, diciendo: «Ningún comentario en particular sobre esa desafortunada filtración».

¿Qué podría ser Q*?

Una lectura atenta de los informes iniciales y una consideración de los problemas más candentes de la IA en estos momentos sugieren que podría estar relacionado con un proyecto que OpenAI anunció en mayo, en el que declaraba obtener nuevos y potentes resultados de una técnica llamada «supervisión de procesos».

En el proyecto participó Ilya Sutskever, científico jefe y cofundador de OpenAI, que ayudó a destituir a Altman pero luego se retractó. The Information destaca que dirigió el trabajo sobre Q*. El trabajo de mayo se centró en reducir los errores lógicos cometidos por los grandes modelos de lenguaje (LLM). La supervisión de procesos, que consiste en entrenar a un modelo de IA para que desglose los pasos necesarios para resolver un problema, puede mejorar las posibilidades de que un algoritmo dé con la respuesta correcta. El proyecto demostró cómo esto podría ayudar a los LLM, que a menudo cometen errores simples en preguntas matemáticas elementales, a abordar estos problemas con mayor eficacia.

Andrew Ng, profesor de la Universidad de Stanford, quien dirigió laboratorios de IA tanto en Google como en Baidu y que introdujo a muchas personas en el aprendizaje automático a través de sus clases en Coursera, sostiene que mejorar los grandes modelos de lenguaje es el siguiente paso lógico para hacerlos más útiles. «Los LLM no son tan buenos en matemáticas, pero tampoco lo son los humanos», aclara Ng. «Sin embargo, si me das un lápiz y un papel, entonces soy mucho mejor en la multiplicación, y creo que en realidad no es tan difícil afinar un LLM con memoria para que sea capaz de pasar por el algoritmo de la multiplicación.»

Otras alternativas sobre qué puede ser Q*

Hay otras pistas sobre lo que podría ser Q. El nombre puede ser una alusión al Q-learning, una forma de aprendizaje por refuerzo que implica que un algoritmo aprenda a resolver un problema mediante retroalimentación positiva o negativa, que se ha utilizado para crear bots que juegan y para afinar ChatGPT para que sea más útil. Algunos han sugerido que el nombre también puede estar relacionado con el algoritmo de búsqueda A, muy utilizado para que un programa encuentre el camino óptimo hacia un objetivo.

The Information aporta otra pista: «El avance de Sutskever permitió a OpenAI superar las limitaciones para obtener suficientes datos de alta calidad para entrenar nuevos modelos», reza su artículo. «La investigación consistió en utilizar datos generados por computadora, en lugar de datos del mundo real, como texto o imágenes extraídas de internet, para entrenar nuevos modelos», lo que parece ser una referencia a la idea de entrenar algoritmos con los llamados datos de entrenamiento sintéticos, que han surgido como una forma de entrenar modelos de IA más potentes.

Subbarao Kambhampati, profesor de la Universidad Estatal de Arizona que investiga las limitaciones de razonamiento de los LLM, cree que Q* puede implicar el uso de enormes cantidades de datos sintéticos, combinados con el aprendizaje por refuerzo, para entrenar a los LLM en tareas específicas como la aritmética simple. Kambhampati señala que no hay garantías de que el método se generalice en algo capaz de resolver cualquier problema matemático posible.

Para más especulaciones sobre lo que podría ser Q, lee este artículo de un científico especializado en aprendizaje automático que reúne el contexto y las pistas con un detalle impresionante y lógico. La versión TLDR es que Q podría ser un esfuerzo por utilizar el aprendizaje por refuerzo y algunas otras técnicas para mejorar la capacidad de un gran modelo de lenguaje para resolver tareas razonando por pasos a lo largo del camino. Aunque eso podría hacer que ChatGPT fuera mejor en los acertijos matemáticos, no está claro si sugeriría automáticamente que los sistemas de IA podrían evadir el control humano.

El aprendizaje por refuerzo es buen candidato

Que OpenAI intente utilizar el aprendizaje por refuerzo para mejorar los LLM parece plausible, porque muchos de los primeros proyectos de la empresa, como los robots de videojuegos, se centraron en esta técnica. El aprendizaje por refuerzo también fue fundamental para la creación de ChatGPT, ya que puede utilizarse para que los LLM produzcan respuestas más coherentes, pidiendo a los humanos que proporcionen comentarios mientras conversan con un chatbot. Cuando WIRED habló con Demis Hassabis, CEO de Google DeepMind, a principios de este año, insinuó que la empresa estaba tratando de combinar ideas del aprendizaje por refuerzo con los avances observados en los grandes modelos de lenguaje.

Resumiendo las pistas disponibles sobre Q*, no parece que haya motivos para el pánico. Pero todo depende de tu valor P(doom) personal, la probabilidad que atribuyas a la posibilidad de que la IA destruya a la humanidad. Mucho antes de ChatGPT, los científicos y líderes de OpenAI estaban tan asustados por el desarrollo de GPT-2, un generador de texto para 2019 que ahora parece ridículamente insignificante, que dijeron que no podía hacerse público. Ahora la empresa ofrece acceso gratuito a sistemas mucho más potentes.

OpenAI se negó a hacer comentarios sobre Q*. Quizá tengamos más detalles cuando la empresa decida que es hora de compartir más resultados de sus esfuerzos por hacer que ChatGPT no solo sea bueno hablando, sino también razonando.

Fuente: es.wired.com