sliderTecnología

Ya podés usar gratis Gemini Live, la IA de Google con capacidad para hablar como humano

Con la nueva IA de Google podrás hablar con tu móvil en lenguaje natural y solicitar peticiones como si de una conversación con una persona se tratase

En mayo de 2024, Google lanzó “Gemini Live”, un nuevo modo de chat de voz basado en inteligencia artificial, diseñado para ofrecer una interacción conversacional más fluida y natural. Inicialmente disponible solo para los suscriptores de Gemini Advanced y en idioma inglés, este servicio ahora ha comenzado a expandirse a los usuarios gratuitos de Android. A través de Gemini Live, los usuarios pueden participar en diálogos con la IA de Google de una manera que simula una conversación casual, similar a charlar con un amigo.

Recientemente, Gemini Live fue liberado para todos los usuarios de Android, no solo aquellos que están suscritos al servicio avanzado. Este modo conversacional se caracteriza por su capacidad para realizar pausas o interrumpir respuestas sin necesidad de tocar el dispositivo.

De este modo, permite detener el diálogo a mitad de una respuesta y reanudarlo más tarde sin complicaciones. También ofrece la posibilidad de funcionar en segundo plano, lo que significa que el usuario puede realizar otras tareas o incluso bloquear el teléfono, mientras la conversación continúa.

Una de las principales características de Gemini Live es su naturaleza multimodal. Esto quiere decir que, además de comprender texto y voz, el sistema puede procesar imágenes. A futuro, se espera que Google amplíe estas capacidades para incluir video, lo que permitiría una interacción aún más completa. Esta funcionalidad posiciona a Gemini Live como una herramienta versátil y útil para una amplia variedad de situaciones, desde consultas sencillas hasta el manejo de tareas más complejas.

Variedad de voces disponibles en Gemini Live

Para mejorar la experiencia de los usuarios, Google ha incorporado diferentes opciones de voces en Gemini Live. Actualmente, existen 10 nuevas voces que se dividen en distintos rangos y tonos, permitiendo una personalización de la experiencia de chat según las preferencias individuales de cada usuario. Las voces disponibles incluyen:

  1. Nova: Voz de rango medio con un tono tranquilo.
  2. Ursa: Voz de rango medio con una entonación más comprometida.
  3. Vega: Voz más alta, con un tono brillante.
  4. Pegasus: Voz más grave y comprometida.
  5. Órbita: Voz profunda y energética.
  6. Lyra: Voz más alta y brillante.
  7. Orión: Voz profunda y brillante.
  8. Dipper: Voz profunda y comprometida.
  9. Eclipse: Voz de rango medio y energética.
  10. Capella: Voz más alta, con un acento británico.

La diversidad de estas voces permite a los usuarios elegir la opción que mejor se adapte a su estilo de interacción o a sus necesidades específicas en cada momento.

Acceso a Gemini Live, la IA de Google con capacidad para hablar como un humano
Para acceder a Gemini Live en Android, los usuarios pueden hacerlo a través de una forma de onda circular ubicada en la parte inferior derecha de la interfaz de la aplicación. Al iniciar el modo conversacional, la pantalla muestra dos botones principales: “Mantener” y “Finalizar”.

Estos permiten continuar o terminar la conversación en cualquier momento. Además, una de las características más destacadas es que, aunque el usuario salga de esta pantalla, el chat de voz seguirá activo en segundo plano, asegurando una experiencia sin interrupciones.

Una vez que se concluye una conversación, Gemini Live guarda automáticamente una transcripción de texto en la sección de historial. Esta transcripción incluye tanto las instrucciones dadas por el usuario como las respuestas proporcionadas por la IA. Desde esta misma sección, es posible reiniciar la conversación, lo que facilita la continuidad o revisión de temas previamente tratados.

Limitaciones y proyecciones futuras

Si bien el servicio ofrece una gran cantidad de funciones útiles, existen algunas limitaciones. Actualmente, Gemini Live no permite el acceso a ciertas aplicaciones mediante extensiones de Live, como Gmail o YouTube Music, según informó el medio especializado 9to5Google. Sin embargo, se espera que estas integraciones estén disponibles en el futuro, lo que ampliará las capacidades de interacción de Gemini Live.

A pesar de estas restricciones iniciales, el potencial de la tecnología es considerable, ya que Google tiene previsto añadir más idiomas al sistema, haciendo que esta funcionalidad esté disponible para una mayor cantidad de usuarios a nivel global. Esto marca un avance importante en el desarrollo de tecnologías de inteligencia artificial aplicadas a la vida diaria.

Fuente: iprofesional.com