Ciencia

Los cómics y sus viñetas a mano hacen fracasar a la inteligencia artificial

La lista de actividades en las que las máquinas de inteligencia artificial han superado el rendimiento humano está aumentando a un ritmo preocupante. El reconocimiento facial, el reconocimiento de objetos, el ajedrez, el juego de mesa Go, varios videojuegos y otras cuantas tareas ya han caído durante esta batalla.

Resulta natural entonces preguntarse por el tipo de tareas con las que aún tienen que pelearse las máquinas. ¿Dónde seguimos llevando la batuta los humanos? 

Hoy recibimos una especie de respuesta gracias al trabajo del investigador de la Universidad de Maryland en College Park (EEUU) Mohit Iyyer y varios de sus compañeros. Iyyer y el resto se han preguntado cómo de bien puede una máquina con inteligencia artificial (IA) comprender un cómic. ¿La respuesta? Apenas logran disimular los gestos y expresiones de victoria cuando revelan que las máquinas se quedan en un triste segundo puesto frente a los humanos.

Los cómics cuentan historias a través de una serie de viñetas compuestas por dibujos a mano y a menudo muy estilizados, lo que las diferencia bastante de las fotografías. Las viñetas también cuentan con textos dentro de los llamados bocadillos. Según el contenido de estos -un pensamiento, un diálogo, una narración-, tienen forma de nube, redondeada o rectangular.

El texto y los dibujos trabajan en conjunto, se leen juntos; a veces tanto que la historia no puede entenderse solo con los dibujos o los textos por separado. Incluso entonces, el lector necesita deducir y extrapolar ciertas partes de viñeta a viñeta; necesita inferir muchos detalles. 

«Es lo que el creador esconde en sus páginas lo que hace a los cómics tan interesantes; las conversaciones tácitas y las acciones ocultas en los espacios (o medianiles) entre viñetas contiguas», explica el equipo de Iyyer. Por tanto, la historia se forja en la imaginación de los lectores gracias al descifrado de todos esos detalles.

El complejo proceso complejo de visualizar una viñeta concreta y entender cómo está relacionada con las anteriores se llama «closure» (clausura), y de momento se trata de una habilidad exclusivamente humana.

Por eso el equipo de Iyyer diseñó un experimento para probar el rendimiento de las máquinas en esta tarea.

Para empezar, los investigadores crearon una gran base de datos de cómics para entrenar máquinas de aprendizaje profundo con números publicados entre 1930 y 1950, la llamada edad de oro de los cómics y que acabó a finales de la década de 1950 cuando se endureció la censura en Estados Unidos. Los derechos de autor de estas publicaciones ya han caducado, y están públicamente disponibles en una página web llamada Digital Comics Museum (Museo digital de cómics), donde los usuarios los suben en formato jpeg.

El equipo de Iyyer utilizó 4.000 de los cómics mejor valorados de la página web con los que generó una base de datos con más de 1,2 millones de viñetas. A continuación, emplearon el reconocimiento óptico de caracteres para digitalizar el texto de cada viñeta. 

Para comprobar las habilidades de clausura o cierre de la IA, el equipo de Iyyer diseñó una serie de experimentos en los que se muestra una secuencia de viñetas a una máquina para que ésta prediga, dentro de una serie de respuestas posibles, qué sucederá a continuación. La tarea puede ser predecir el próximo dibujo, el próximo texto, o emparejar el texto con un personaje concreto.  

Primero, la máquina tiene que aprender cómo funcionan los cómics. El equipo alimentó varios algoritmos de aprendizaje de máquinas con una parte de las viñetas y los textos para que pudiesen aprender cómo se suceden entre sí. Son máquinas preparadas para reconocer objetos, pero en fotografías en vez de dibujos. 

Tras entrenar las máquinas, el equipo las puso a prueba con una serie de viñetas desconocidas y les pidió que predijeran la próxima imagen o texto de la secuencia.

Los resultados son sorprendentes. Mientras que los humanos pueden predecir el próximo texto o la próxima imagen correctamente más de un 80% de las veces, las máquinas no se acercaron ni remotamente a este nivel de precisión. «Ninguna de las arquitecturas probadas supera el rendimiento humano medio, lo que señala la dificultad de entender los cómics», escribe el equipo de Iyyer. «Las características de las imágenes obtenidas por sistemas entrenados con imágenes naturales no pueden captar la gran variedad de estilos artísticos; y los entrenados con texto sufren con la riqueza y ambigüedad de los diálogos coloquiales que dependen fuertemente del contexto visual».

Es un resultado que no sorprende si se piensa en el sentido común necesario para seguir estas historias y el bagaje cultural para comprender la lógica de la narrativa de los cómics. Los humanos, de momento, siguen siendo los maestros aquí. Sin embargo, es muy probable que las máquinas mejoren su rendimiento a medida que aprendan las habilidades sociales y deductivas que se supone nos hacen más humanos.

Surge entonces una posibilidad interesante. Las máquinas de IA han superado a los humanos en el ajedrez, el concurso televisivo Jeopardy!, el juego de mesa Go y muchas otras tareas. Tal vez su próximo reto debería ser entender los cómics mejor que los humanos, y tal vez hasta crear sus propias historietas. Eso enfrentaría a Google DeepMind o cualquiera de sus rivales con los personajes de Marvel y DC Comics. La batalla perfecta y desde luego, una muy divertida. 

Fuente: technologyreview.es