Google refuerza su buscador y lo humaniza con habilidades de diálogo natural y visión

Alberto Vazquez

hace 1 año

La multinacional iguala la apuesta de Open AI y presenta una plataforma de búsqueda similar a la interacción con una persona

Tan solo 24 horas después de la presentación de ChatGPT-4o, la versión más avanzada del robot conversacional de Open AI, Google ha igualado y subido la apuesta este martes, cuando ha presentado mejoras similares para su buscador, que comienzan ya en Estados Unidos para ir extendiéndose al resto del mundo. La nueva plataforma de búsqueda reproduce las habilidades de lo que la compañía denomina “agentes”, con capacidad de planificar y ejecutar acciones en nombre del usuario, pero la humaniza hasta emular una interacción con una persona. A Gemini, como se denomina la inteligencia artificial de la multinacional y el buscador, se le puede interrumpir para reorientar la conversación y la cámara del móvil se convierte en sus ojos para describir lo que ve, resolver los problemas que observa o precisar dónde se encuentra un objeto que ha registrado durante su conversación. ¿Dónde he puesto las llaves? ¿Cuál es la solución de este problema? ¿Qué es esto? Pregunte a Gemini.

Google ha sacado todas sus fuerzas para contrarrestar a Open AI y luchar por su hegemonía en el ámbito de las búsquedas. El máximo responsable de la compañía, Sundar Pichai, ha asumido la presentación de los últimos avances en inteligencia artificial este martes en la edición anual de Google I/O en Mountain View (California). Se aplicará a todos los productos (Gmail, Fotos, Drive, Meet y cualquier herramienta del Workspace), pero especialmente, según ha afirmado Pichai, a la plataforma que es su baluarte: “La transformación más emocionante con Gemini, por supuesto, está en la búsqueda de Google. Modificamos radicalmente cómo funciona”.

“Gemini puede mantener una conversación personalizada e interactiva, mezclando y combinando entradas y salidas”, explica Pichai sobre la humanización de la interacción con el buscador, que deja de ser lineal (consultas y respuestas sucesivas) para pasar a emular una relación similar a la personal. Son habilidades que ya presentaron con los agentes en Las Vegas el pasado abril, durante el Google Next, donde se lanzaron los robots que planifican y ejecutan acciones en nombre del usuario. “Son sistemas inteligentes que muestran razonamiento, planificación y memoria. Son capaces de pensar varios pasos por delante y trabajar en todos los programas y sistemas o de hacer algo en nombre del usuario y, lo que es más importante, con su supervisión. Estamos pensando mucho en cómo hacerlo de una manera que sea privada, segura y que funcione para todos”, ha precisado el directivo en respuesta a los riesgos éticos identificados por el grupo de investigación de la propia compañía (DeepMind).

El buscador convencional, que arroja páginas web más o menos relacionadas con la solicitud del usuario, pasa a la historia con Gemini. Liz Reid, directora de Google Search, asegura que, aunque esta herramienta ha sido “increíblemente poderosa”, requiere “mucho trabajo”, en relación con la labor de afinar los descriptores y expurgar la información relevante de los miles de resultados obtenidos. “Buscar ha sido a través de una pregunta tras otra”, admite.

Las nuevas habilidades entienden, según explica, “qué es realmente lo que tienes en mente”, contextualiza, conoce desde dónde se interactúa y “razona” para ofrecer un resultado que aúna lo encontrado en varios dominios y expone un plan y consejos. Según explica con un ejemplo práctico, mientras al buscador tradicional se le preguntaba por restaurantes en la zona, gracias al AI Overview de Gemini, ahora se puede requerir “un lugar para celebrar un aniversario” y el buscador ofrece diferentes categorías de planes, precios, localizaciones y sugerencias. O también puede aportar un complejo programa de viaje para una familia de varios miembros con intereses diferentes. “Google puede hacer una tormenta de ideas por ti”, resalta Reid.

Pero Gemini va más allá de la conversación, razonamiento y planificación, que ya supone un avance radical. El nuevo paso es la mayor humanización posible y que, además de oído, adquiera otro sentido fundamental: la vista. Demis Hassabis, director de DeepMid, lo explica: “Siempre quisimos construir un agente universal que fuera útil en la vida cotidiana. Por eso hicimos que Gemini fuera multimodal desde el principio. Ahora estamos procesando un flujo de información sensorial diferente. Estos agentes pueden ver y escuchar mejor lo que hacemos, entienden el contexto en el que nos encontramos y responden rápidamente en la conversación, haciendo que el ritmo y la calidad de la interacción sean mucho más naturales”.

Hassabis muestra estas habilidades, que estarán disponibles en la aplicación Live para suscriptores del plan Advanced, en un plano secuencia grabado en tiempo real. El buscador utiliza la cámara del móvil para registrar el contexto real de una usuaria que le pregunta qué es lo que ve, cómo se llama la parte específica de un objeto que señala, cómo se resuelve un problema matemático escrito sobre un papel y cómo mejorar un proceso de distribución de datos en un esquema que se muestra una pizarra. Finalmente, le pregunta: “¿Dónde he dejado mis gafas?”. Gemini, que ha registrado todo lo que ha visto durante la interacción, aunque no sea relevante en la conversación mantenida hasta ahora, revisa en las imágenes percibidas y responde exactamente dónde las ha visto. A partir de ahí, las gafas actúan con Gemini.

“Gemini es mucho más que un robot de chat [conversación]. Está diseñado para ser su asistente personal”, explica Sissie Hsiao, vicepresidenta de Google y directora general de Gemini, en referencia al proyecto Astra que lidera su compañero Hassabis. Es lo que Sam Altman, máximo responsable de Open AI, competidora de Google y desarrollador del similar ChapGPT-4o, califica de “colega supercompetente”.

“Las respuestas son personalizadas [se puede elegir entre 10 voces y el sistema se ajusta al patrón de habla del usuario] e intuitivas para mantener una conversación real de ida y vuelta con el modelo. Gemini es capaz de proporcionar información de forma más sucinta y responder de manera más conversacional que, por ejemplo, si está interactuando solo con texto”, precisa Hsiao.

También se ha avanzado en potencia, no solo con nuevos dispositivos, como procesadores propios (el chip Axion y la TPU Trillium), sino también en capacidad de carga. Los suscriptores de Gemini 1.5 Pro podrán gestionar hasta un millón de tokens, lo que, según Hsiao, es “la mayor ventana de contexto”. Un token es la unidad básica de información. Se puede entender como una palabra, número, símbolo o cualquier otro elemento individual que constituye una parte de los datos de entrada o salida del programa. Con esta capacidad, Gemini puede cargar y analizar un PDF de hasta 1.500 páginas o 30.000 líneas de código o un video de una hora de duración o revisar y resumir varios archivos. Google espera ofrecer los dos millones de tokens.

Para facilitar la implementación de estas habilidades en dispositivos con menos capacidad, como los móviles, Google ha actualizado los sistemas específicos para estos terminales y desarrollado Flash, un sistema de alto rendimiento que aporta velocidad, eficiencia y menor consumo.

Y aunque no ha sido en esta edición del Google I/O el desarrollo principal, Google también se han presentado mejoras en los programas de inteligencia artificial para fotografías, con la versión 3 de Imagen, creación de vídeos (Veo) y de música, con Lyria y Synth ID. El buscador Ask Fotos, que comenzará a estar operativo en verano, será capaz de localizar y agrupar imágenes por temas a petición del usuario y crear un álbum con todas las imágenes relacionadas.

Fuente: elpais.com