Por primera vez, un robot vence profesionales del póquer con Inteligencia Artificial

13 julio, 2019 Alberto Vazquez

Un robot triunfó sobre cinco oponentes humanos en un juego profesionales de Texas hold’em. Esto acerca a los robots a la resolución de problemas complicados del mundo real.

Pluribus, un robot programado para jugar póquer, derrotó a los mejores profesionales humanos en el juego Texas Hold’em, una de las variaciones más famosas del póquer. Es la primera vez que un programa de inteligencia artificial (IA) ha vencido a jugadores humanos de élite en un juego con más de dos jugadores.

De acuerdo con la revista Nature, otro robot llamado Libratus ya había vencido a profesionales en el póquer en un juego de dos dos jugadores. Lo novedoso de Pluribus es que ganó en un juego con multijugadores. Este robot necesita mucho menos poder de cómputo para jugar partidos. En una sesión de 12 días con más de 10.000 manos, venció a los 15 mejores jugadores humanos. «Muchos investigadores de AI no pensaron que era posible hacerlo usando [nuestras] técnicas», dijo a Nature el científico Noam Brown, de la Universidad Carnegie Mellon en Pittsburgh, Filadelfia y Facebook AI Research en Nueva York, quien desarrolló Pluribus con su colega Carnegie. Tuomas Sandholm.

El póquer es un juego retador para el aprendizaje de robots con Inteligencia Artificial dado que es un juego con una gran cantidad de información oculta, mentiras, «bluffeos», etc. Usando las técnicas ya existentes en los juegos de dos personas, habría sido necesaria una potencia de computación 10.000 veces superior para adaptarlo al póquer, de seis.

Pero Pluribus no es el caso. De acuerdo con Nature, Brown y Sandholm revisaron radicalmente el algoritmo de búsqueda de Libratus. La mayoría de las IA de juego buscan avances en los árboles de decisión para realizar el mejor movimiento en una situación determinada, algo así como la elección de la mejor movida en una serie de posibles predicciones en un juego, igual en que en ajedrez. Libratus buscó hasta el final de un juego antes de elegir una acción. Pluribus no.

En este caso, se enseñó a sí mismo desde cero utilizando una forma de aprendizaje por refuerzo. Comienza jugando al póquer al azar y mejora a medida que determina qué acciones ganan más dinero. Después de cada mano, mira cómo jugó y verifica si hubiera ganado más dinero con diferentes acciones, como subir en lugar de apegarse a una apuesta. Si las alternativas conducen a mejores resultados, será más probable que elija una jugada en el futuro.

De acuerdo con Europa Press, los investigadores de Facebook utilizaron durante ocho días un servidor de 64 núcleos que requirió un total de menos de 512 GB de RAM, sin emplearse unidades de procesamiento gráfico (GPU) en el proceso.
Para entrena estar herramienta, los investigadores de Facebook utilizaron durante ocho días un servidor de 64 núcleos que requirió un total de menos de 512 GB de RAM, sin emplearse unidades de procesamiento gráfico (GPU) en el proceso.

Al jugar billones de manos de póquer contra sí mismo, Pluribus creó una estrategia básica que utiliza en los partidos. En cada punto de decisión, compara el estado del juego con su plano y busca algunos movimientos para ver cómo se desarrolló la acción. Luego decide si puede mejorarlo. Y debido a que se enseñó a jugar sin la intervención humana, la IA se basó en algunas estrategias que los jugadores humanos tienden a no usar. En el juego ganó 50.000 dólares.

Fuente: elespectador.com