DestacadaTecnología

OpenAI guarda silencio sobre por qué GPT-4 es mejor que ChatGPT

Ya hemos podido echar un primer vistazo al nuevo y esperado modelo lingüístico de OpenAI. Pero, esta vez, su funcionamiento está aún más oculto

Por fin, OpenAI ha desvelado GPT-4, su nuevo modelo de lenguaje que se rumoreaba había estado en desarrollo durante el último año. ChatGPT, el último éxito la empresa de San Francisco (EE UU), iba a ser difícil de superar. Pero OpenAI ha conseguido que GPT-4 sea aún más grande y mejor.

Sin embargo, OpenAI no dirá cómo de grande es, y por qué es mejor. GPT-4 es la versión más secreta que la empresa ha publicado jamás, marcando así su transición definitiva de laboratorio de investigación sin ánimo de lucro a empresa tecnológica con ánimo de lucro.

«Eso es algo que no podemos comentar en este momento. Hay mucha competitividad», ha explicado Ilya Sutskever, jefe científico de OpenAI, durante una videollamada en la que hablé con el equipo de GPT-4 después del anuncio.

GPT-4 es un gran modelo de lenguaje multimodal, esto significa que puede responder tanto a texto como a imágenes. Si le das una foto del contenido de tu frigorífico y le preguntas qué podrías preparar, GPT-4 intentará elaborar recetas con los ingredientes de la fotografía. Además, es excelente explicando chistes, afirma Suskever: «Si le muestras un meme, puede decirte por qué es gracioso».

El acceso a GPT-4 estará disponible para los usuarios que se inscriban en la lista de espera, y para los suscriptores de pago de ChatGPT Plus, con capacidad limitada y textual únicamente.

«Las continuas mejoras en muchas dimensiones son notables. Ahora, GPT-4 es el estándar por el que se evaluarán todos los modelos», afirma Oren Etzioni, del Allen Institute for AI.

«Un buen modelo multimodal ha sido el santo grial de muchos grandes laboratorios tecnológicos en los últimos dos años. Pero ha sido esquivo», afirma Thomas Wolf, cofundador de Hugging Face, la empresa de IA que está tras BLOOM, el modelo de código abierto.

En teoría, la combinación de texto e imágenes podría permitir a los modelos multimodales comprender mejor el mundo. «Podría abordar los tradicionales puntos débiles de los modelos lingüísticos, como el razonamiento espacial», imagina Wolf.

Aún no está claro si esto ocurre con GPT-4. El nuevo modelo de OpenAI parece mejor que ChatGPT en algunos razonamientos básicos, tanto resolviendo rompecabezas sencillos como resumiendo bloques de texto en palabras que empiezan por la misma letra. Durante la videollamada, me mostraron a GPT-4 resumiendo el anuncio de la web de OpenAI utilizando solo palabras que empiezan por la letra g: «GPT-4, crecimiento generacional revolucionario, obtiene mayores calificaciones. Guardarraíles, guía y ganancias cosechadas. Gigantesco, rompedor y globalmente superdotado» [“GPT-4, groundbreaking generational growth, gains greater grades. Guardrails, guidance, and gains garnered. Gigantic, groundbreaking, and globally gifted”, en inglés]. En otra demostración, GPT-4 respondió a preguntas sobre un documento de impuestos, justificando sus respuestas.

También supera a ChatGPT en pruebas humanas, como el examen estándar de Abogacía (Uniform Bar Examination, UBE, en inglés), donde GPT-4 se sitúa en el percentil 90 y ChatGPT en el 10. Otro ejemplo es la Olimpiada de Biología (International Biology Olympiad, en inglés), donde GPT-4 se sitúa en el percentil 99 y ChatGPT en el 31. «Es emocionante ver cómo se empieza a evaluar con los mismos parámetros que utilizan los humanos para sí mismos», afirma Wolf. Pero añade que, sin ver los detalles técnicos, es difícil juzgar hasta qué punto estos resultados son impresionantes.

Según OpenAI, GPT-4 funciona mejor que ChatGPT (que se basaba en GPT-3.5, una versión tecnológica anterior de la empresa) porque es un modelo más grande y con más parámetros. Es decir, los valores de una red neuronal, que se ajustan durante el entrenamiento. Esto sigue una tendencia importante que la empresa descubrió con sus modelos anteriores. GPT-3 superó a GPT-2 porque era 100 veces más grande, con 175.000 millones de parámetros frente a los 1.500 millones de GPT-2. «Esa fórmula fundamental no ha cambiado. Pero sigue siendo como construir una nave espacial, donde tienes que acertar con todos los pequeños componentes, y asegurarte de que ninguno se rompe «, afirma Jakub Pachocki, uno de los desarrolladores de GPT-4.

No obstante, OpenAI ha decidido no revelar el tamaño de GPT-4. A diferencia de sus versiones anteriores, la empresa no está revelando nada sobre cómo se construyó GPT-4: ni los datos, la potencia de cálculo o las técnicas de entrenamiento. «Ahora, OpenAI es una empresa cerrada con una comunicación científica similar a los comunicados de prensa de los productos», asegura Wolf.

OpenAI afirma que ha dedicado seis meses a desarrollar GPT-4 de forma más segura y precisa. Según la empresa, GPT-4 tiene un 82% menos de probabilidades que GPT-3.5 de responder a solicitudes de contenidos que OpenAI no permite, y un 60% menos de probabilidades de inventarse cosas.

OpenAI afirma que ha logrado estos resultados con el mismo planteamiento que adoptó con ChatGPT, utilizando el aprendizaje por refuerzo a través de la respuesta humana. Esto implica que evaluadores humanos puntúen las respuestas del modelo, y utilizar esas puntuaciones para mejorar los futuros resultados.

El equipo incluso utilizó GPT-4 para mejorarse a sí mismo, pidiéndole que generara entradas que dieran lugar a respuestas sesgadas, inexactas u ofensivas; para después arreglar el modelo y que las rechazara en el futuro.

Puede que GPT-4 sea el mejor modelo multimodal de lenguaje construido hasta la fecha, pero no está solo, como lo estaba GPT-3 cuando apareció por primera vez en el año 2020. Han pasado muchas cosas en los últimos tres años. En la actualidad, GPT-4 se encuentra junto a otros modelos multimodales, como Flamingo, de DeepMind. Hugging Face también está trabajando en un modelo multimodal de código abierto, que será gratuito para que otros puedan utilizarlo y adaptarlo, cuenta Wolf.

Ante semejante competencia, OpenAI trata esta versión más como un adelanto del producto que como una actualización de su investigación. Las primeras versiones de GPT-4 se han compartido con algunos socios de OpenAI, como Microsoft, que confirmó el pasado 14 de marzo que ha utilizado una versión de GPT-4 para crear Bing Chat. OpenAI también está trabajando, entre otros, con Stripe, Duolingo, Morgan Stanley y el gobierno de Islandia, que está utilizando GPT-4 para preservar la lengua islandesa.

Muchas empresas están esperando: «Los costes para arrancar un modelo de esta escala están fuera del alcance de la mayoría de empresas, pero el enfoque adoptado por OpenAI ha hecho que los grandes modelos lingüísticos sean accesibles para las start-ups. Esto catalizará una enorme innovación sobre GPT-4», afirma Sheila Gulati, cofundadora de la firma de inversión Tola Capital.

Nunca antes una nueva y poderosa inteligencia artificial había pasado tan rápido del laboratorio a los productos de consumo. El pasado 14 de marzo, Google anunció que está poniendo PaLM, su propio modelo de lenguaje, a disposición de desarrolladores externos. También está implementando funciones de chatbot en Google Docs y Gmail. Además, Anthropic, la firma de IA, ha anunciado un nuevo modelo de gran lenguaje llamado Claude, que está sometiéndose a pruebas de varias compañías, incluidas Notion y Quora.

Sin embargo, los grandes modelos lingüísticos siguen siendo defectuosos. GPT-4 todavía puede generar textos tendenciosos, falsos o de odio; o puede ser pirateado para saltarse sus guardarraíles. Aunque OpenAI ha mejorado esta tecnología, no la ha arreglado del todo. La empresa asegura que sus pruebas de seguridad han sido suficientes para que GPT-4 pueda utilizarse en aplicaciones de terceros, pero también está preparada para las sorpresas.

«La seguridad no es algo binario; es un proceso. Las cosas se complican cada vez que se alcanza un nivel de nuevas capacidades. Ahora, muchas de estas capacidades se comprenden bastante bien, pero estoy seguro de que algunas seguirán siendo sorprendentes», afirma Sutskever.

Incluso Sutskever sugiere que, a veces, es preferible ir más despacio con los lanzamientos: «Sería deseable acabar en un mundo donde las empresas idearan algún tipo de proceso que permitiera lanzar más despacio estos modelos con capacidades inéditas».

Fuente: technologyreview.es