El MIT utiliza datos sintéticos para mejorar la precisión de los modelos de IA que reconocen imágenes

Antes de que un modelo de aprendizaje automático pueda completar una tarea, el modelo debe estar entrenado. El entrenamiento de modelos de clasificación de imágenes generalmente implica mostrar al modelo millones de imágenes de ejemplo reunidas en un conjunto de datos masivo. Para facilitar esta tarea, los investigadores del Instituto Tecnológico de Massachussets (MIT) han creado una nueva técnica escalable que utiliza datos sintéticos para mejorar la precisión de los modelos de inteligencia artificial (IA) que reconocen imágenes.

El uso de datos de imágenes reales puede generar preocupaciones prácticas y éticas: las imágenes podrían infringir las leyes de derechos de autor, violar la privacidad de las personas o estar sesgadas contra un determinado grupo racial o étnico. Para evitar estas trampas, los investigadores pueden usar programas de generación de imágenes para crear datos sintéticos para el entrenamiento de modelos. Pero estas técnicas son limitadas.

Los investigadores del MIT, el MIT-IBM Watson AI Lab y otros socios adoptaron un enfoque diferente, usar varios programas de generación de imágenes para crear datos sintéticos para el entrenamiento previo del modelo, pero los programas debían diseñarse cuidadosamente para que las imágenes sintéticas coincidieran con ciertas propiedades de las imágenes reales.

Comenzaron reuniendo una colección de 21.000 programas de generación de imágenes de Internet. Todos los programas están escritos en un lenguaje de programación simple y comprenden solo unos pocos fragmentos de código, por lo que generan imágenes rápidamente. Estos programas producen diversas imágenes que muestran colores y texturas simples.

Además, se utilizaron un enorme conjunto de datos de programas de generación de imágenes para preentrenar modelos de visión artificial para tareas de clasificación de imágenes tanto supervisadas como no supervisadas. En el aprendizaje supervisado, los datos de la imagen se etiquetan, mientras que en el aprendizaje no supervisado, el modelo aprende a categorizar las imágenes sin etiquetas.

Los investigadores demostraron que aumentar la cantidad de programas de imágenes en el conjunto de datos también aumenta el rendimiento del modelo, lo que reveló un camino para lograr una mayor precisión.

Resultados de las pruebas

Cuando compararon sus modelos preentrenados con modelos de visión artificial de última generación que habían sido preentrenados con datos sintéticos, sus modelos fueron más precisos, lo que significa que colocaron las imágenes en las categorías correctas con más frecuencia.

Si bien los niveles de precisión aún eran inferiores a los de los modelos entrenados con datos reales, su técnica redujo la brecha de rendimiento entre los modelos entrenados con datos reales y los capacitados con datos sintéticos en un 38%.

Los investigadores también utilizaron cada programa de generación de imágenes individual para el entrenamiento previo. Descubrieron que cuando un programa genera un conjunto de imágenes más diverso, el modelo funciona mejor. También descubrieron que las imágenes coloridas con escenas que ocupan todo el lienzo tienden a mejorar más el rendimiento del modelo.

Ahora que han demostrado el éxito de este enfoque de preentrenamiento, los investigadores quieren extender su técnica a otros tipos de datos, como los datos multimodales que incluyen texto e imágenes. También quieren seguir explorando formas de mejorar el rendimiento de la clasificación de imágenes.

Fuente: casadomo.com