La IA crea en segundos escenas en 3D a partir de fotos en 2D

1 abril, 2022 Alberto Vazquez

Una nueva tecnología podría usarse para crear avatares o escenas para mundos virtuales

La IA puede crear en milisegundos escenas en 3D a partir de fotos en 2D, invirtiendo así el proceso de la foto instantánea creada hace 75 años. Usando redes neuronales, imita el comportamiento de la luz para crear imágenes similares a las de mapa de bits.

Cuando se tomó la primera foto instantánea hace 75 años con una cámara Polaroid, fue innovador capturar al instante el mundo 3D en una imagen 2D realista.

Ahora, investigadores de Inteligencia Artificial (IA) han conseguido lo contrario: convertir una colección de imágenes fijas en 2D, en una escena digital 3D en cuestión de segundos.

Conocido como representación inversa, el proceso utiliza IA para imitar cómo se comporta la luz en el mundo real, lo que permite reconstruir una escena 3D a partir de un puñado de imágenes 2D tomadas desde diferentes ángulos.

El equipo de investigación de NVIDIA, una multinacional especializada en el desarrollo de unidades de procesamiento gráfico, ha desarrollado un enfoque que logra esta tarea casi al instante, lo que lo convierte en uno de los primeros modelos de este tipo en combinar el entrenamiento de redes neuronales ultrarrápidas y la representación gráfica (renderización) rápida.

Fuerte aceleración

Este equipo aplicó su enfoque a una nueva tecnología popular llamada Neural Radiance Fields o NeRF. El resultado, llamado Instant NeRF, es la técnica NeRF más rápida hasta la fecha: logra más de 1000x aceleraciones en algunos casos, según informa la compañía en un comunicado.

El modelo requiere solo unos segundos para entrenarse en unas docenas de fotos fijas, además de datos sobre los ángulos de cámara desde los que se tomaron, y luego puede renderizar la escena 3D resultante, todo ello en decenas de milisegundos.

Lo que hace esta tecnología es capturar la forma en que la luz se irradia desde un objeto o dentro de una escena, para de esta forma crear imágenes similares a las de mapa de bits, que se pueden visualizar en un monitor, papel u otro dispositivo.

Según sus desarrolladores, esta tecnología podría ser tan importante para el 3D como lo han sido las cámaras digitales y la compresión JPEG para la fotografía en 2D: aumenta la velocidad, la facilidad y el alcance de la captura y el uso compartido en 3D.

Fue presentada la semana pasada, y en una especie de tributo a los primeros días de las imágenes Polaroid, esta tecnología recreó una foto icónica de Andy Warhol tomando una foto instantánea, convirtiéndola a continuación en una escena 3D usando Instant NeRF.

Redes neuronales

El equipo explica que los NeRF usan redes neuronales para representar y renderizar escenas 3D realistas basadas en una colección de entrada de imágenes 2D.

La red neuronal requiere unas pocas docenas de imágenes tomadas desde múltiples posiciones alrededor de la escena, así como la posición de la cámara de cada uno de ellos, para alcanzar el 3D.

Si hay demasiado movimiento durante el proceso de captura de imágenes 2D, la escena 3D generada por IA se verá borrosa, pero esta tecnología se las ingenia para reconstruir la escena con más precisión mediante la predicción del color de la luz que se irradia en cualquier dirección, desde cualquier punto del espacio 3D.

La rapidez es otra ventaja de esta tecnología, ya que, si crear una escena 3D con métodos tradicionales lleva horas o más, según la complejidad y la resolución de la visualización, incorporar la IA a la imagen reduce el tiempo de renderizado en varios órdenes de magnitud.

Aplicaciones

La tecnología podría usarse para crear avatares o escenas para mundos virtuales, capturar participantes de videoconferencias y sus entornos en 3D, o reconstruir escenas para mapas digitales en 3D, señalan sus creadores.

También para ayudar a robots y automóviles autónomos a comprender el tamaño y la forma de los objetos del mundo real, mediante la captura de imágenes en 2D o secuencias de video de esos objetos.

También podría usarse en arquitectura y entretenimiento para generar rápidamente representaciones digitales de entornos reales que los creadores pueden modificar y construir.

Por último, los investigadores están explorando también cómo se podría usar esta técnica para acelerar múltiples desafíos de IA, incluido el aprendizaje por refuerzo, la traducción de idiomas y los algoritmos de aprendizaje profundo de ámbito general.

Fuente: Tendencias21