Una IA ya genera imágenes a partir de frases como «un sillón con forma de aguacate»

Alberto Vazquez

hace 5 años

Una IA ya genera imágenes a partir de frases como "un sillón con forma de aguacate"

Open AI ha creado una inteligencia artificial que convierte frases en imágenes. Se llama DALL·E (un juego de palabras entre WALL·E y Dalí) y es una versión reducida del potente generador de textos GPT-3.

DALL·E, una versión de 12.000 millones de parámetros de GPT-3, ha sido entrenada con un segundo modelo llamado CLIP que aprendió a reconocer imágenes a partir de sus descripciones de texto; no de etiquetas como “gato” o “plátano”, que es como se entrena la mayoría de modelos de reconocimiento de imágenes, sino de descripciones completas sacadas de internet.

Según Open AI, CLIP puede identificar objetos más allá del conjunto de datos con el que fue entrenado, mientras que DALL·E es capaz de dibujar cosas como:

Un reloj verde pentagonal

Una foto de comida china

Una vista de corte transversal de una nuez

Un caracol hecho de arpa

Una ilustración de un rábano bebé con tutú paseando a un perro

Un capibara sentado en un campo en distintos estilos artísticos

Todos estos conjuntos de 30 imágenes fueron generados automáticamente por DALL·E a partir de las descripciones escritas de los investigadores y seleccionadas por CLIP, que decidió cuáles se ajustaban mejor a ellas.

Si la versión generadora de texto de GPT-3 imitaba de forma escalofriantemente precisa la escritura humana, DALL·E es capaz de predecir la visión de los humanos de maneras incluso más creativas que los propios humanos.

La inteligencia artificial no solo obedece a la semántica de las descripciones, sino que es capaz de crear versiones antropomórficas de animales y objetos, y de combinar conceptos que no pueden relacionarse de forma plausible.

Con 175.000 millones de parámetros, GPT-3 es la red neuronal más grande del mundo. Su creadora, Open AI, es una compañía sin ánimo de lucro fundada por inversores como Sam Altman y Elon Musk, quien se desvinculó del proyecto. Microsoft invirtió mil millones de dólares en 2019, casi cuatro años después de su fundación. La API de GPT-3 está disponible como beta privada.

Fuente: es.gizmodo.com