Open AI ha creado una inteligencia artificial que convierte frases en imágenes. Se llama DALL·E (un juego de palabras entre WALL·E y Dalí) y es una versión reducida del potente generador de textos GPT-3.
DALL·E, una versión de 12.000 millones de parámetros de GPT-3, ha sido entrenada con un segundo modelo llamado CLIP que aprendió a reconocer imágenes a partir de sus descripciones de texto; no de etiquetas como “gato” o “plátano”, que es como se entrena la mayoría de modelos de reconocimiento de imágenes, sino de descripciones completas sacadas de internet.
Según Open AI, CLIP puede identificar objetos más allá del conjunto de datos con el que fue entrenado, mientras que DALL·E es capaz de dibujar cosas como:
Un reloj verde pentagonal
Una foto de comida china
Una vista de corte transversal de una nuez
Un caracol hecho de arpa
Una ilustración de un rábano bebé con tutú paseando a un perro
Un capibara sentado en un campo en distintos estilos artísticos
Todos estos conjuntos de 30 imágenes fueron generados automáticamente por DALL·E a partir de las descripciones escritas de los investigadores y seleccionadas por CLIP, que decidió cuáles se ajustaban mejor a ellas.
Si la versión generadora de texto de GPT-3 imitaba de forma escalofriantemente precisa la escritura humana, DALL·E es capaz de predecir la visión de los humanos de maneras incluso más creativas que los propios humanos.
La inteligencia artificial no solo obedece a la semántica de las descripciones, sino que es capaz de crear versiones antropomórficas de animales y objetos, y de combinar conceptos que no pueden relacionarse de forma plausible.
Con 175.000 millones de parámetros, GPT-3 es la red neuronal más grande del mundo. Su creadora, Open AI, es una compañía sin ánimo de lucro fundada por inversores como Sam Altman y Elon Musk, quien se desvinculó del proyecto. Microsoft invirtió mil millones de dólares en 2019, casi cuatro años después de su fundación. La API de GPT-3 está disponible como beta privada.
Fuente: es.gizmodo.com