DestacadaTecnología

Veo 3, el generador de video con IA más potente hasta la fecha

Google presentó recientemente Veo 3, su modelo más avanzado de generación de video con inteligencia artificial, capaz de producir clips de hasta ocho segundos con resolución de 720p. Esta tecnología permite integrar efectos de sonido y diálogos sincronizados, lo que marca un avance significativo en las herramientas audiovisuales basadas en IA.

El modelo Veo 3 genera contenido mediante descripciones textuales o imágenes fijas, utilizando un modelo de difusión que transforma ruido aleatorio en escenas coherentes. El sistema incluye varios componentes: un modelo de lenguaje para interpretar instrucciones, un generador de video y otro de sonido. Durante su entrenamiento, se aplicó un proceso en el cual se añadía ruido a videos reales para que la red neuronal aprendiera a reconstruirlos paso a paso.

DeepMind, desarrollador del modelo, no reveló las fuentes exactas utilizadas para el entrenamiento, aunque se considera probable el uso de contenido de YouTube. Para mitigar riesgos, se emplea SynthID, una tecnología que incrusta marcas de agua invisibles en cada cuadro, las cuales persisten incluso tras compresión o edición del video.

Además del modelo Veo 3, Google lanzó Flow, una plataforma web para crear películas mediante IA. Flow permite a los usuarios controlar personajes, escenas y estilos visuales combinando Veo 3, Imagen 4 y el modelo de lenguaje Gemini. Estas herramientas están disponibles para suscriptores de Google AI Ultra, un plan que cuesta 250 dólares mensuales e incluye 12,500 créditos.

Cada generación de video consume 150 créditos, permitiendo hasta 83 clips por suscripción. Créditos adicionales pueden comprarse por un centavo cada uno, en bloques de 25, 50 o 200 dólares. Los tiempos de generación oscilan entre tres y cinco minutos por video, dependiendo de la complejidad del contenido solicitado.

Durante las pruebas, se observaron algunas limitaciones técnicas, como errores en la sincronización de diálogos y distorsión en subtítulos. Google aplica filtros para bloquear instrucciones que incluyan violencia, contenido sexual, marcas registradas o nombres de figuras públicas, lo cual restringe ciertos tipos de resultados.

Entre las capacidades destacadas de Veo 3 se encuentra la generación de audio, incluyendo sonidos ambientales, música y diálogos complejos. Esta función fue probada mediante indicaciones detalladas como: «Llevas años buscando esto: un bárbaro musculoso con armas junto a un televisor CRT, cinematográfico, 8K, con iluminación de estudio. ¿Entendido, Benj?».

Los resultados muestran un alto nivel de coherencia temporal y un realismo visual notable, superando en muchos aspectos a herramientas previas como Runway, Meta o Pika. No obstante, aún se presentan errores cuando las solicitudes contienen múltiples personajes o acciones complejas que no están bien representadas en los datos de entrenamiento. Durante las pruebas, la generación de música con Veo 3 mostró resultados básicos pero funcionales en géneros como rock, jazz y country.

Fuente: notipress.mx

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *