Una máquina se enseña a sí misma a ganar en todo

El objetivo está lejos: conseguir una sola máquina capaz de enfrentarse a cualquier reto o tarea sin ayuda. Hasta ahora, los grandes logros de la inteligencia artificial se generan con máquinas dedicadas específicamente a una tarea, entrenadas para ello en una condiciones muy concretas, incapaces de adaptarse a un cambio sustancial. Pero los pasitos que se van dando hacia ese objetivo son firmes. El último progreso lo firma DeepMind, que ha conseguido que un mismo programa se convierta en invencible en ajedrez, shogi (una versión japonesa del juego) y go, los tres juegos de tablero más exigentes para el intelecto. Pero el mundo real es mucho más complejo e imprevisible.

El logro de DeepMind, la división de inteligencia artificial de Google, promete generar importantes avances. Este programa, llamado AlphaZero, ha aprendido solo a jugar sobre estos difíciles tableros, como explican sus desarrolladores en la revista Science.De cero (de ahí su nombre), sin ayuda ni ejemplos de jugadores reales. En otras ocasiones, el ordenador aprendía porque lo alimentaban con todo el conocimiento humano, millones de jugadas y ejemplos reales, y a partir de ahí el cerebro de silicio elegía las mejores estrategias. Deep Blue venció así a Kaspárov. Y AlphaGo venció así a Lee Sedol. Pero AlphaZero aprende de sí mismo y en apenas un puñado de horas; tan solo le explican las reglas del juego y a partir de ahí ha sido capaz de convertirse en el mejor jugador de todos los tiempos en estas tres disciplinas. Los programas que mejor juegan al ajedrez, al shogi y al go —sin rival entre los humanos y diseñados durante años específicamente para esta tarea— apenas son capaces de arañar una victoria entre miles de derrotas.

Es más, esta inteligencia artificial es capaz de vencer con una mano atada a la espalda. Al enfrentarse ordenadores contra ordenadores, se otorgaban unos tiempos a cada aparato para pensar su movimiento. La inteligencia de AlphaZero era tan superior que ganaba incluso cuando se le concedía tan solo una décima parte del tiempo que a sus rivales para procesar la información y mover. Y no es una cuestión de potencia computacional, es porque se le ha otorgado una forma de razonar más profunda y selectiva. En ajedrez, valora únicamente 60.000 posibilidades por segundo frente a los 60 millones de opciones que baraja su rival, Stockfish, el más potente jugador de ajedrez hasta ahora. El algoritmo busca solo entre los movimientos más prometedores.

Pero AlphaZero no solo vence, revoluciona el juego. Como la máquina aprende sola, sin modelos ni ejemplos, empieza con decisiones aleatorias y al cabo de un tiempo empieza a descubrirlas jugadas y planteamientos que llevan usando siglos los humanos. Pero enseguida encuentra mejores enfoques, completamente nuevos, creando un estilo de juego propio y poco ortodoxo. «Está libre de las limitaciones del modo en que los humanos piensan sobre el juego», explica Demis Hassabis, jefe de DeepMind, por lo que ha incorporado al tablero estrategias desconocidas que ya están fascinando a los expertos. En ajedrez, se habla de cómo sus piezas se arremolinan en torno al rey del oponente con fuerza, dinamismo y determinación. Desprecia el valor material de las piezas y prefiere hacer sacrificios impensables desde el principio de la partida porque al final merecerá la pena. En el shogi, realiza movimientos que van en contra de todos los manuales, como mover al rey al centro del tablero, porque supone ponerlo en peligro, pero para AlphaZero se convierte en una forma de mantener el control del campo de batalla. Cuando se hizo lo mismo en el milenario go, la máquina llegó a la conclusión de que el conocimiento humano era un lastre.

«El ajedrez se ha utilizado como una piedra de Rosetta tanto de la cognición humana como de la máquina durante más de un siglo», asegura Garri Kaspárov, en una nota proporcionada por DeepMind. «En lugar de procesar instrucciones y conocimientos humanos a una velocidad tremenda, como todas las máquinas de ajedrez anteriores, AlphaZero genera su propio conocimiento. ¡Y no puedo disimular mi satisfacción por que juegue con un estilo muy dinámico, muy parecido al mío!», festeja quien dominara el ajedrez mundial desde mediados de los ochenta hasta el arranque de este siglo.

El entrenamiento de AlphaZero, lanzado a finales de 2017, es fulminante: tardó nueve horas en prepararse para vencer al ajedrez, 12 para el shogi y 13 días para el go, el más complejo de los tres. Y cuando se le soltaba en la arena, frente a las mejores máquinas en cada juego, apenas se despeinaba para vencer. Al cabo de cuatro horas ya era el mejor jugador de la historia del ajedrez; dos horas le duró Elmo, el mejor en shogi; y 30 horas tardó en someter a su hermano AlphaGo, la máquina desarrollada por DeepMind para ser imbatible al go.

El especialista de IBM en inteligencia artificial Murray Campbell pone algunas pegas al logro de DeepMind, sobre todo desde la perspectiva computacional, puesto que ni los programas de ajedrez ni los de shogi podrían aprovechar las unidades de procesamiento para las que AlphaZero ha sido diseñado, «lo que dificulta las comparaciones directas». «Sus redes neuronales son muy poderosas, pero requieren una gran cantidad de cálculos. Los procesadores que utiliza AlphaZero son muy rápidos para ejecutar redes neuronales, pero no pueden ser utilizados por programas de juegos convencionales que no usan redes neuronales», explica a EL PAÍS este experto, que desarrolló Deep Blue para batir a Kaspárov.

Un campeón de ajedrez inútil

«El objetivo de DeepMind es construir sistemas que puedan resolver algunos de los problemas más complejos del mundo real; crear un programa que pueda enseñarse a sí mismo cómo jugar ajedrez de clase mundial, shogi y go partiendo de cero es un paso importante en este trayecto», asegura Hassabis. Su equipo, liderado por David Silver, ha desarrollado la máquina para que aprenda jugando contra sí misma a través de un proceso de ensayo y error denominado aprendizaje por refuerzo. Para AlphaZero se han basado en redes neuronales profundas que permiten ese razonamiento sofisticado y sendos algoritmos de búsqueda y razonamiento que son de propósito general, lo que le permite adaptarse para ganar a distintos juegos. Sin embargo, los tableros son tan transparentes y previsibles que quizá ya no sean el mejor reto para avanzar en la inteligencia artificial.

«Hay que ser cautos», advierte Miguel Lázaro, investigador español en inteligencia artificial de la empresa puntera Vicarious. Y añade: «Pese a la expectación que estos avances generan, este tipo de juegos son una manera inadecuada de medir el progreso en inteligencia artificial general». Para Lázaro, la comprensión del juego por parte de AlphaZero está codificada de manera opaca en el interior de la red neuronal, por lo que sigue sin poder adaptarse a un cambio en el entorno o a una nueva regla de juego, algo que les obligaría a volver a empezar de cero. Campbell coincide con Lázaro en que AlphaZero muestra «fragilidad», por lo que «si se cambiaran las reglas del juego, aunque fuera un poco, necesitaría una cantidad significativa de reentrenamiento». Ellos mismos lo reconocían hace meses: si cambian de golpe las dimensiones del tablero «estaríamos muertos».

Para Lázaro, que trabaja para una empresa que busca un enfoque más humano y adaptable para la inteligencia de las máquinas, este tipo de juegos son demasiado deterministas. Toda la información acerca de la partida está disponible y el resultado de una acción es perfectamente predecible, algo «muy distinto del escenario al que habitualmente se enfrenta la inteligencia humana». «Nosotros efectuamos acciones cuyo resultado solo podemos prever parcialmente en entornos de los que solo observamos una parte», describe.

Según Lázaro, AlphaZero podría ser el ejemplo más reciente de la paradoja de Moravec: «Es fácil conseguir que las computadoras muestren capacidades similares a las de un humano adulto en pruebas de inteligencia, y difícil o imposible lograr que posean las habilidades perceptivas y motrices de un bebé de un año». Es decir, es más fácil conseguir una máquina imbatible en ajedrez que una que sepa interactuar de forma natural con el mundo, tan imperfecto e imprevisible. «Las decisiones que tenemos que tomar a la hora de preparar un sándwich, manipulando y ensamblando los ingredientes, parecen mucho más sencillas, pero sin embargo son mucho más complicadas, desde la perspectiva computacional, que los juegos de mesa en los que compite AlphaZero», zanja Lázaro.

Además de las grandes exigencias computacionales que demanda AlphaZero, Campbell añade un último problema a los progresos de DeepMind: la falta de interpretabilidad. «Si bien AlphaZero puede identificar lo que cree que es el mejor movimiento y proporcionar secuencias de movimientos para respaldarlo, no es capaz de explicar sus decisiones en términos que los humanos puedan entender fácilmente», asegura el experto de IBM. Es decir, no sabemos los motivos por los que elige una determinada opción, lo que puede ser un grave problema al llevar estos algoritmos a otros ámbitos de decisión.

Fuente: elpais.com