Los investigadores de Apple están haciendo un gran trabajo con su propio modelo de IA que ha dado un primer avance, UniGen 1.5 muestra cómo se está avanzando en la generación de imágenes basadas en texto

El equipo de investigadores de Apple enfocados en la IA están realizando trabajos interesantes respecto a nuevos modelos de edición de imágenes, el cual ha presentado un avance importante. El modelo llamado UniGen tiene una primera actualización UniGen 1.5, el modelo ahora puede gestionar la comprensión, generar y editar imágenes sin recurrir a otro modelo. En mayo presentaron un avance de un modelo de lenguaje multimodal unificado de gran tamaño que podía comprender y generar imágenes en un solo sistema, en lugar de tener modelos separados para cada una de las tareas. Veamos qué tanto han avanzado en la versión 1.5.

Apple está trabajando fuertemente en sus propios modelos, es momento de conocer lo nuevo de UniGen 1.5

Lo más relevante es que se añade la capacidad de edición de imágenes dentro de un solo marco unificado. Significa que ya no se realiza la división de la comprensión, generación y edición en varios sistemas. Es relevante porque la comprensión y generación requieren de un entendimiento diferente respecto a su enfoque. Ahora que el modelo los unifica puede aprovecharse la capacidad de compresión que a su vez mejoraría el rendimiento de la generación.

Lo importante es entender en su totalidad las instrucciones por complejas que estas sean respecto a la edición, especialmente cuando son demasiado suaves o muy específicas. En lugar de pedirle al modelo que mejore mediante aprendizaje, ahora se aplicará un entrenamiento para tener una descripción textual con detalle de lo que debe editarse en la imagen tomando como base la imagen original y la instrucción. El siguiente gráfico lo ilustra a la perfección junto con una imagen de ejemplo.

Los investigadores están utilizando el aprendizaje del refuerzo de una manera importante y que es el avance central de la versión 1.5, utilizar el sistema de recompensa para la generación y la edición de imágenes. UniGen 1.5 está al mismo nivel o supera a otros modelos de lenguaje multimodal grandes y abiertos de última generación.

Aún hay trabajo por hacer respecto a la generación de texto y algunas cuestiones de coherencia

Sabemos que no todo es perfecto y los mismos investigadores señalan que existen algunas carencias. Respecto al siguiente gráfico, se evidencian algunos casos donde existen inconvenientes en la generación de texto a imagen, además de la edición. Por ejemplo, UniGen 1.5 no logró representar algunos caracteres de texto en imagen apropiadamente (algo que también ocurrió con los primeros modelos de otras marcas). En otros ejemplos existen problemas de identidad, se hicieron con animales y es posible ver diferencias en los colores que son evidentes.

Estos avances son significativos y vemos que el equipo de investigadores de Apple va por buen camino. Sabemos que Roma no se construyó en un día y nada cambia radicalmente de la noche a la mañana, es la suma de esfuerzos por lo que Apple está sumándose poco a poco a tener una IA de calidad. ¿Qué opinas de estos avances?

Fuente: ipadizate.com