El nuevo modelo de IA de Google es capaz de transformar fotos en vídeos

Alberto Vazquez

hace 2 años

VLOGGER es capaz de crear vídeos realistas de personas hablando a través de una única imagen

Recientemente se ha presentado VLOGGER, una IA que viene a cambiar el paradigma de la animación de fotografías a través de la IA. Promete un sinfín de funcionalidades gracias a su sencillez, ya que es capaz de animar una fotografía y hacer que hable y gesticule como si fuera la persona de la vida real. Esto, que suena profundamente futurista ha generado también algunas reticencias sobre la aplicación que podría tener.

Una aplicación con luces y sombras

Un equipo de investigadores de Google dirigido por Enric Corona ha logrado un gran salto en el campo de la inteligencia artificial con el desarrollo de VLOGGER, un sistema de IA capaz de crear videos realistas de personas hablando utilizando como prompt únicamente una foto. Si bien es cierto que es un avance bastante importante e interesante dentro de la industria de la IA, también está claro que los resultados todavía se encuentran en el conocido como valle de lo inquietante. Os animo a ver el vídeo unos segundos, seguro que notaréis algo raro dentro de vosotros, como una señal de vuestro cerebro de que en esas imágenes algo no va bien. Ese es el efecto que se denomina de esta manera.

El potencial de VLOGGER es bastante ammplio, ya que puede servir para generar doblaje en tiempo real con la voz del propio actor, pero también puede servir para mejorar de manera notable la accesibilidad de contenidos para personas con discapacidades. Sin embargo, no se puede ignorar la dualidad de su aplicación, ya que igualmente posee el poder de ser usado para crear deepfakes o propagar desinformación. Por este motivo, se pone sobre la mesa tanto lo bueno, como lo malo, y es que ya hay estafas con deepfakes que salen muy caro

VLOGGER trabaja a partir de una sola fotografía y un clip de audio, logrando generar videos donde el sujeto no solo habla sino también manifiesta expresiones faciales y hace gestos coherentes con lo que se está diciendo en el vídeo, mostrando que la capacidad de inferencia de la IA es elevada. Aunque los videos resultantes son fotorrealistas, aún presentan imperfecciones que permiten identificar su origen artificial. Además, es bastante notable que este avance no haya requerido de entrenamiento individualizado para cada persona. Gracias a su bloque de aprendizaje, VLOGGER ha podido aprender a adaptarse a cada persona sin ningún tipo de adaptación previa, lo que muestra un verdadero avance.

Eso sí, el vídeo como tal puede causar bastante malestar y las redes sociales ya han vertido sus primeras críticas al respecto. Ya existen apps para crear deepfakes, pero esto lo lleva a un nuevo nivel.

En resumidas cuentas:

Un grupo de investigadores de Google ha desarrollado un nuevo sistema de IA llamado VLOGGER que puede llegar a generar videos realistas de personas hablando.
Todavía está de forma muy notable en el valle de lo inquietante. Se nota de forma muy notable que es una IA, pero el rango de utilidades que puede tener se dispara.
También puede servir para hacer el mal, con deepfakes o generando desinformación.
El modelo de IA utiliza una fotografía de una persona y un clip de audio. Después, muestran a la persona con esas expresiones faciales y gestos correspondientes a lo que dice en el audio.
Son vídeos fotorrealistas, pero presentan algunos problemas visibles en la imagen que hacen que todavía se pueda detectar que es una IA.
Se trata de una IA que no requiere entrenamiento específico de cada persona, genera la imagen completa a través de su profunda base de conocimiento.
Además, aprendió con más de 2.200 horas de vídeo y 800.000 identidades diversas en lo que se conoce como el conjunto de datos MENTOR.
Podría ser útil para el doblaje automático y para otras cuestiones relativas a la accesibilidad de los contenidos.
De momento, muchos usuarios han señalado que les genera incomodidad.

Fuente: lavanguardia.com