Icono del sitio INVDES

El nuevo modelo de IA de Google es capaz de transformar fotos en vídeos

VLOGGER es capaz de crear vídeos realistas de personas hablando a través de una única imagen

Recientemente se ha presentado VLOGGER, una IA que viene a cambiar el paradigma de la animación de fotografías a través de la IA. Promete un sinfín de funcionalidades gracias a su sencillez, ya que es capaz de animar una fotografía y hacer que hable y gesticule como si fuera la persona de la vida real. Esto, que suena profundamente futurista ha generado también algunas reticencias sobre la aplicación que podría tener.

Una aplicación con luces y sombras

Un equipo de investigadores de Google dirigido por Enric Corona ha logrado un gran salto en el campo de la inteligencia artificial con el desarrollo de VLOGGER, un sistema de IA capaz de crear videos realistas de personas hablando utilizando como prompt únicamente una foto. Si bien es cierto que es un avance bastante importante e interesante dentro de la industria de la IA, también está claro que los resultados todavía se encuentran en el conocido como valle de lo inquietante. Os animo a ver el vídeo unos segundos, seguro que notaréis algo raro dentro de vosotros, como una señal de vuestro cerebro de que en esas imágenes algo no va bien. Ese es el efecto que se denomina de esta manera.

El potencial de VLOGGER es bastante ammplio, ya que puede servir para generar doblaje en tiempo real con la voz del propio actor, pero también puede servir para mejorar de manera notable la accesibilidad de contenidos para personas con discapacidades. Sin embargo, no se puede ignorar la dualidad de su aplicación, ya que igualmente posee el poder de ser usado para crear deepfakes o propagar desinformación. Por este motivo, se pone sobre la mesa tanto lo bueno, como lo malo, y es que ya hay estafas con deepfakes que salen muy caro

VLOGGER trabaja a partir de una sola fotografía y un clip de audio, logrando generar videos donde el sujeto no solo habla sino también manifiesta expresiones faciales y hace gestos coherentes con lo que se está diciendo en el vídeo, mostrando que la capacidad de inferencia de la IA es elevada. Aunque los videos resultantes son fotorrealistas, aún presentan imperfecciones que permiten identificar su origen artificial. Además, es bastante notable que este avance no haya requerido de entrenamiento individualizado para cada persona. Gracias a su bloque de aprendizaje, VLOGGER ha podido aprender a adaptarse a cada persona sin ningún tipo de adaptación previa, lo que muestra un verdadero avance.

Eso sí, el vídeo como tal puede causar bastante malestar y las redes sociales ya han vertido sus primeras críticas al respecto. Ya existen apps para crear deepfakes, pero esto lo lleva a un nuevo nivel.

En resumidas cuentas:

Fuente: lavanguardia.com

Salir de la versión móvil