DestacadaTecnología

No son fotografías, son imágenes creadas con inteligencia artificial

Profesionales del sector explican cómo funcionan estas aplicaciones

Asimple vista, el funcionamiento de aplicaciones como Dall-E, Lensa o Midjourney es sencillo. Son tres de los sistemas más populares en la red para crear imágenes a través de inteligencia artificial. El usuario envía un elemento de entrada, ya sea un texto o una fotografía, y el sistema lo convierte, en cuestión de segundos, en una representación visual original. La técnica ya ha sido explorada por profesionales del arte o la publicidad y, cada vez que una creación de estas características se viraliza en redes sociales, se abre un nuevo debate sobre los límites de la tecnología. «Ninguna de estas fotografías es real, ninguna de esta gente ha existido jamás», escribía un usuario después de que una de sus publicaciones hechas con inteligencia artificial se llenara de comentarios de otros tuiteros pensando que se encontraban ante retratos de cámara.

Más allá de cuestiones éticas, llama la atención el proceso en sí. Funciona gracias a una red compleja que relaciona el input de entrada con el resultado final. Berta Guijarro, profesora en el área de ciencia de la computación e inteligencia artificial de la UDC, explica que el modelo sobre el que se construyen estas aplicaciones —llamado en términos científicos «red neuronal»— trata de emular el modo en el que el cerebro humano procesa la información. Cuenta con una serie de parámetros ajustables que funciona mediante un algoritmo, «una receta de pasos que le damos a un ordenador para conseguir un objetivo».

María José Carreira, investigadora del CiTIUS y profesora titular de Ciencia de la Computación e Inteligencia Artificial en la USC, explica que, en cuanto a webs que generan imágenes a través de la inteligencia artificial, predominan dos modelos: los que toman el texto como elemento de entrada y los que se basan en una fotografía que facilita el usuario. Como ejemplos del primer grupo, Dall-E o Midjourney, dos de los más populares. En ellos, los usuarios escriben las palabras que desean y el servidor genera una imagen acorde. Por ejemplo, al escribir la oración «un perro negro» en la barra de mensajes crea, exactamente, la imagen de un perro negro. Además, por defecto, en estilo realista. No obstante, si el usuario desea obtener una imagen que siga otros estilos estéticos, como el cubista o el impresionista, basta con indicarlo en palabras. Cuanta más precisión en la descripción, mejor será el resultado. «Los algoritmos que convierten texto en imágenes (Text to Image) generan una representación numérica del texto que reciben como entrada. Esta representación condensa la información que el modelo considera más relevante y que posteriormente utiliza para la generación de las figuras», explica Carreira.

Crear avatares a partir de fotos

Del segundo grupo destaca Lensa, una aplicación que captura retratos para crear con ellos un avatar. Los usuarios deben facilitar entre diez y veinte fotografías, generalmente en formato selfie. «La representación del contenido se realiza a partir de seleccionar los aspectos más relevantes de esta imagen de entrada», comenta la investigadora. A partir de ahí, la generación del elemento de salida es equivalente al modelo de texto anterior.

Para su correcto funcionamiento, estos modelos requieren ser entrenados. Para ello, se cuenta con enormes bases de datos que relacionan las imágenes con una descripción. Por ejemplo, el modelo Stable Diffusion —utilizado por Lensa— utiliza el conjunto LAION-5B, que contiene más de 5.000 millones de imágenes, cada una acompañada por un texto descriptivo. Brais Cancela, profesor en el área de ciencia de la computación e inteligencia artificial de la UDC, explica que, durante el entrenamiento, se toma una imagen, se le añade ruido aleatorio y se pide al modelo que genere la imagen original a partir de su descripción textual. «Si no tienes un algoritmo entrenado, al pasar imágenes o texto, el programa te devolverá ruido. Es como cuando enciendes la tele y no tienes sintonizado un canal. Eso blanco con puntos negros es el ruido. Lo que le dices al sistema en el entrenamiento es: ‘no quiero que saques esto, sino que generes esta imagen en concreto», explica.

Por eso, lo que enriquece el modelo es que se componga de cuantos más datos mejor. «Es lo mismo que con ChatGPT [inteligencia artificial que genera texto]. Si tuviera todos los textos que han existido a lo largo de la historia de la humanidad, siempre saldrían mensajes coherentes, tenga o no tenga razón», explica Cancela.

Las imágenes mostradas en esta página, creadas con Midjourney para ilustrar la información, presentan algunos fallos de representación. Por ejemplo, las manos de las dos mujeres. El investigador de la UDC explica que, cuanto más diste la descripción del modelo que se ha entrenado, más fallos podrá tener el resultado final. No obstante, el problema viene de la procedencia de las referencias. Esta semana, saltaban todas las alarmas cuando el banco de imágenes Getty Images demandó a Stability AI, responsable de la herramienta Stable Difussion, por robar contenido fotográfico de su archivo.

Fuente: lavozdegalicia.es