Un grupo de científicos logra imitar la visión humana con un solo píxel4

El campo de las imágenes por ordenador está experimentando una revolución. Se trata de la disciplina capaz de crear imágenes usando técnicas digitales en vez de ópticas. Su avance más conocido es la posibilidad de guardar imágenes y vídeos de alta resolución mediante un solo píxel. Sin embargo, los investigadores también lo han utilizado, entre otras cosas, para construir cámaras sin lentes y sistemas de imágenes tridimensionales.

En las últimas semanas, han dado un paso más allá con esta técnica al utilizarla para imitar el modo en que los humanos ven el mundo. En la Universidad de Glasgow (Reino Unido), David Phillips y sus compañeros han encontrado una manera de utilizar un único píxel para crear imágenes en cuyo centro se graban imágenes y vídeos de alta resolución, mientras que en la parte periférica se hace en baja resolución. Este funcionamiento imita la visión de los animales donde la retina tiene una región central con una gran agudeza visual, la fóvea, rodeada de un área de menor resolución.

El equipo incluso ha mostrado cómo desplazar la región foveal para que siga los objetos dentro del campo de visión. Esta técnica permitiría cambiar el modo en el que funcionarían los sistemas de imágenes en el futuro.

Antes de nada, un poco del contexto. Un sistema de imágenes de un solo píxel registra la luz de un entorno en único punto. Esta luz debe aleatorizarse de algún modo, como por ejemplo al hacerla pasar a través de un vidrio esmerilado o reflejándola en un conjunto de microespejos colocados de forma aleatoria.

Es fácil pensar que no se obtiene ningún beneficio al registrar luz aleatorizada usando estos métodos. El truco reside en capturar muchas imágenes de un solo píxel mediante esta técnica. A pesar de que cada punto de datos aparenta ser una muestra aleatoria de luz, los puntos de datos consecutivos están correlacionados ya que son reflejos de una misma imagen.

El secreto de las imágenes por ordenador reside en usar un algoritmo de extracción de datos para encontrar la relación entre las imágenes sucesivas. Por lo tanto, una serie de cálculos matemáticos puede recrear el entorno original.

Resulta ser algo sencillo, teniendo en cuenta que la luz del entorno está correctamente aleatorizada cada vez que el píxel la registra. La resolución de la imagen final dependerá del número de puntos de datos que se empleen para crearla.

En otras palabras, se podría considerar que cada punto de datos registra un píxel en la imagen final. Esta idea permite que Phillips y su equipo realicen variaciones en la resolución de una imagen.

Estos investigadores utilizan un conjunto de microespejos para aleatorizar la luz de un entorno para que llegue hasta un fotodetector de un solo píxel. También son capaces de controlar la resolución de la aleatorización del conjunto. De este modo, pueden utilizar una aleatorización de alta resolución en partes concretas de la escena para aumentar la resolución de la imagen final. Es lo que denominan como “imagen foveal”.

El conjunto de microespejos que han desarrollado puede mostrar unos 10 mil patrones aleatorizados por segundo, lo que permite generar imágenes de 32 x 32 píxeles a una velocidad de diez por segundo.

En principio, los píxeles son cuadrados y tienen un tamaño idéntico de 32 x 32 píxeles. Sin embargo la imagen foveal tiene una alta densidad de píxeles más pequeños en el centro y píxeles más grandes en las áreas periféricas. Phillips y sus compañeros lo logran aleatorizando la luz de la escena con mayor resolución en el centro de la imagen.

Y los resultados son impresionantes. El equipo ha mostrado cómo las imágenes tienen más resolución en el centro. “Hemos demostrado que la capacidad de recuperar datos de un sistema digital de imágenes con un solo píxel puede mejorarse al imitar la vista foveal, el mecanismo más común del reino animal”, afirman.

Además, han mostrado cómo es posible que la fóvea siga el movimiento de un objeto de una imagen a otra. Incluso han revelado que es posible tener dos fóveas en una sola imagen para seguir dos objetos distintos, lo que supone llevar la técnica más allá de las capacidades del reino animal. Asimismo, han probado que el sistema funciona tanto con luz visible como con infrarroja.

Este trabajo tan interesante tiene varias aplicaciones potenciales relevantes. La más evidente es la de sistemas de imágenes en los que no resulten prácticos los conjuntos de píxeles. Por ejemplo, los píxeles únicos son compatibles con frecuencias de terahercios, mientras que los conjuntos de píxeles no.

La técnica también podría aplicarse de manera más general. En cualquier sistema de imágenes existe una compensación entre la resolución y la velocidad de los fotogramas. Sin embargo, esta técnica permite optimizar esta compensación sobre la marcha y centrar la atención en las partes de la imagen de mayor interés.

Esta funcionalidad podría ser aún más potente si se combinase con otros algoritmos de técnicas de visión de máquinas, algunos de los cuales ya superan a los seres humanos en ciertas tareas como el reconocimiento de caras y objetos.

Históricamente, los seres humanos y los animales han sido superiores a las máquinas en tareas visuales. Sin embargo, con técnicas como esta, esta ventaja no durará mucho más.

Fuente: technologyreview.es

 

¿Ya conoces nuestro canal de YouTube? ¡Suscríbete!