¿Qué sigue para la IA? El próximo salto estaría en los videos instantáneos
Con solo escribir unas palabras en una computadora, algunos sistemas son capaces de generar videos cortos. Una empresa emergente en Nueva York desarrolla esta capacidad
Ian Sansavera, un arquitecto de software de una empresa emergente neoyorquina llamada Runway AI, tecleó una breve descripción de lo que quería ver en un video. Escribió: “Un río tranquilo en el bosque”.
Menos de dos minutos después, un servicio experimental de internet generó un video corto de un río tranquilo en un bosque. El agua corriente del río brillaba bajo el sol mientras se pasaba entre árboles y helechos, doblaba por un recodo y salpicaba suavemente sobre las rocas.
Runway, la cual planea abrir su servicio a un pequeño grupo de probadores de software la semana pasada, es una de varias empresas que están creando tecnología de inteligencia artificial que pronto les permitirá a los usuarios generar videos solo con teclear unas cuantas palabras en un recuadro de la pantalla de una computadora.
Representan la siguiente etapa de una carrera industrial —en la que participan gigantes como Microsoft y Google, así como empresas emergentes mucho más pequeñas— para crear nuevos tipos de sistemas de inteligencia artificial que algunos creen podrían llegar a ser el siguiente gran avance tecnológico, tan importante como los navegadores web o el iPhone.
Los nuevos sistemas de generación de video podrían acelerar el trabajo de cineastas y otros artistas digitales, y al mismo tiempo convertirse en un nuevo y rápido mecanismo que crea desinformación en línea difícil de detectar, lo cual dificultaría todavía más saber qué es real en internet.
Los sistemas son ejemplos de lo que se conoce como inteligencia artificial generativa, la cual puede crear texto, imágenes y sonidos en un instante. Otro ejemplo es ChatGPT, el chatbot en línea creado por OpenAI, una empresa emergente de San Francisco, que sorprendió a la industria tecnológica con sus habilidades a finales del año pasado.
Google y Meta, la empresa matriz de Facebook, develaron los primeros sistemas de generación de video el año pasado, pero no los compartieron con el público porque les preocupaba que los sistemas se utilizaran para difundir desinformación con una rapidez y eficacia inéditas.
Sin embargo, para Cristóbal Valenzuela, director ejecutivo de Runway, la tecnología era demasiado importante como para mantenerla en un laboratorio de investigación, a pesar de sus riesgos. “Es una de las tecnologías más impresionantes que hemos construido en los últimos cien años”, afirmó. “De hecho, es necesario que la gente la utilice”.
Por supuesto, la capacidad de editar y manipular películas y videos no es nada nuevo. Los cineastas lo han hecho durante más de un siglo. En años recientes, investigadores y artistas digitales han utilizado diversas tecnologías de inteligencia artificial y programas de software para crear y editar videos que a menudo se denominan videos ultrafalsos (deepfakes).
No obstante, sistemas como el que ha creado Runway, con el tiempo, podrían remplazar las habilidades de edición con solo presionar un botón.
La tecnología de Runway genera videos a partir de cualquier descripción breve. Para empezar, solo basta teclear una descripción como si fuera una nota rápida.
Eso funciona mejor si la escena tiene algo de acción —pero no demasiada—, algo así como “un día lluvioso en la gran ciudad” o “un perro con un teléfono celular en el parque”. Al presionar “aceptar”, el sistema generará un video en uno o dos minutos.
La tecnología puede reproducir imágenes comunes, como un gato durmiendo sobre una alfombra. O puede combinar conceptos dispares para generar videos raros pero divertidos, como una vaca en una fiesta de cumpleaños.
Los videos tan solo duran cuatro segundos y el video luce entrecortado y borroso si lo observas con detenimiento. En ocasiones, las imágenes son extrañas, distorsionadas y perturbadoras. El sistema puede fusionar animales como perros y gatos con objetos inanimados como pelotas y teléfonos celulares. No obstante, si se le dan las indicaciones correctas, produce videos que muestran hacia dónde se dirige la tecnología.
“En este momento, si veo un video de alta resolución, probablemente confíe en que es verdadero”, opinó Phillip Isola, profesor del Instituto Tecnológico de Massachusetts (MIT, por su sigla en inglés) especializado en inteligencia artificial. “Pero eso cambiará bastante pronto”.
Al igual que otras tecnologías de inteligencia artificial generativa, el sistema de Runway aprende analizando datos digitales, en este caso fotos, videos y pies de fotos que describen el contenido de esas imágenes. Al entrenar este tipo de tecnología con cantidades cada vez mayores de datos, los investigadores están seguros de poder mejorar y ampliar rápidamente sus capacidades. Los expertos creen que pronto generarán minipelículas de aspecto profesional, con música y diálogos.
Es difícil definir lo que el sistema crea en la actualidad. No es una foto No es un dibujo animado. Es una colección de muchos píxeles combinados para crear un video realista. La compañía planea ofrecer su tecnología junto a otras herramientas que, esperan, acelerarán el trabajo de los artistas profesionales.
Varias empresas emergentes, incluida OpenAI, han lanzado tecnologías similares capaces de generar imágenes fijas a partir de indicaciones breves como “foto de un oso de peluche montando una patineta en Times Square”. El rápido avance de las fotos generadas por IA podría sugerir hacia dónde se dirige la nueva tecnología de video.
El mes pasado, las redes sociales estuvieron repletas de imágenes del papa Francisco con un abrigo acolchado blanco de Balenciaga, un atuendo sorprendentemente moderno para un pontífice de 86 años. Pero las imágenes no eran reales. Un obrero de construcción de 31 años de Chicago había creado la sensación viral utilizando una popular herramienta de IA llamada Midjourney.
Isola ha pasado años construyendo y probando este tipo de tecnología, primero como investigador en la Universidad de California, campus Berkeley, luego en OpenAI, y luego como profesor en el MIT. Aún así, se dejó engañar por las imágenes nítidas y de alta resolución pero completamente falsas del papa Francisco.
“Hubo un tiempo en el que la gente publicaba deepfakes y no me engañaban, porque eran muy extravagantes o no eran muy realistas”, dijo. “Ahora no podemos dar por sentado la veracidad de ninguna de las imágenes que vemos en internet”.
Midjourney es uno de los muchos servicios que pueden generar imágenes fijas realistas a partir de una breve indicación. Entre los otros servicios se encuentran Stable Diffusion y DALL-E, una tecnología de OpenAI que inició esta ola de fotogeneradores cuando fue presentada hace un año.
Midjourney se basa en una red neuronal, que aprende sus habilidades analizando enormes cantidades de datos. Busca patrones mientras revisa millones de imágenes digitales, así como el texto que describe las imágenes representadas.
Cuando alguien describe una imagen para el sistema, genera una lista de características que la imagen podría incluir. Una característica podría ser la curva en la parte superior de la oreja de un perro. Otro podría ser el borde de un teléfono celular. Luego, una segunda red neuronal, llamada modelo de difusión, crea la imagen y genera los píxeles necesarios para las características. Al final transforma los píxeles en una imagen coherente.
Empresas como Runway, que tiene unos 40 empleados y ha recaudado 95,5 millones de dólares, utilizan esta técnica para generar imágenes en movimiento. Mediante el análisis de miles de videos, su tecnología puede aprender a unir muchas imágenes fijas de una manera igualmente coherente.
“Un video es solo una serie de cuadros —imágenes fijas— que se combinan de una manera que da la ilusión de movimiento”, dijo Valenzuela. “El truco radica en entrenar un modelo que comprenda la relación y la consistencia entre cada cuadro”.
Al igual que las primeras versiones de herramientas como DALL-E y Midjourney, la tecnología a veces combina conceptos e imágenes de formas curiosas. Si pides un oso de peluche que juega al baloncesto, podría generar una especie de animal de peluche mutante con una pelota de baloncesto como mano. Si pides un perro con un teléfono celular en el parque, es posible que genere un cachorro agarrando un teléfono celular con un cuerpo extrañamente humano.
Sin embargo, los expertos creen que pueden ir solucionando los defectos a medida que capaciten sus sistemas con más y más datos. Creen que la tecnología, al final, hará que crear un video sea tan fácil como escribir una oración.
“En los viejos tiempos, para hacer algo que se pareciera aunque fuera un poco a esto, debías tener una cámara, utilería, una locación, un permiso, dinero”, explicó Susan Bonser, redactora y editora de Pensilvania que ha experimentado con las primeras versiones de la tecnología del video generativo. “Ahora no hace falta nada de eso. Puedes sentarte e imaginarlo”.
Fuente: nytimes.com