AlphaZero, la IA capaz de aprender ella misma a jugar al ajedrez y ganar a todas a las IAs adiestradas por humanos

A finales de 2017, DeepMind (la filial británica de Alphabet dedicada a la IA) presentó en sociedad a AlphaZero, una inteligencia artificial que había demostrado ser capaz de aprender a jugar desde cero ajedrez, shogi y Go, y terminar ganando a todas las IAs que se habían proclamado campeonas en cada uno de esos juegos.

Ahora, la revista Science ha publicado un artículo de análisis sobre AlphaZero que describe el modo en que empezó a aprender autónomamente y recurriendo a una red neuronal profunda, a través de constantes partidas aleatorias y sin contar más información previa que las reglas del juego.

Eso suponía una ruptura con respecto al enfoque adoptado hasta ahora por las IAs que han destacado en el campo del ajedrez (como Stockfish, o Deep Blue de IBM): éstas se basaban en miles de reglas y heurísticas creadas por fuertes jugadores humanos que tratan de explicar cada eventualidad en un juego.

Un ejemplo de aprendizaje por refuerzo

Según los autores de la investigación, miembros de DeepMind, los "resultados demuestran que un algoritmo de aprendizaje por refuerzo y de propósito general puede aprender desde cero y alcanzar un rendimiento sobrehumano en varios juegos de gran complejidad".

La cantidad de entrenamiento que AlphaZero necesitó en cada caso dependió del estilo y la complejidad del juego: aproximadamente 9 horas para el ajedrez, 12 horas para el shogi y 13 días para el Go.

El mencionado 'aprendizaje por refuerzo' (ya usado también con videojuegos) consiste en este caso en una red neuronal que juega millones de partidas contra sí misma en un proceso de prueba y error, de tal modo que va tomando nota de la clase de jugadas que contribuyen de alcanzar el objetivo de ganar la partida.

Una vez entrenada, la red se usa para guiar un algoritmo de búsqueda llamado 'Árbol de búsqueda de Monte-Carlo' que permite que, en lugar de analizar todos los movimientos posibles, AlphaZero se centre únicamente en aquellos más prometedores según su experiencia previa.

Pese a eso (y a contar con menor capacidad de computación), AlphaZero se proclamó vencedor sobre todos sus rivales.

Un jugador poco ortodoxo

Desde DeepMind destacan cómo les emocionó "la respuesta de los miembros de la comunidad de ajedrez, quienes vieron en los juegos de AlphaZero un estilo de juego innovador, altamente dinámico y 'no convencional'.

De hecho, dos ajedrecistas de talla internacional, Matthew Sadler y Natasha Regan, analizaron miles de partidas de ajedrez de AlphaZero para su libro "Game Changer" (que saldrá a la venta dentro de un mes) y afirman que su estilo es diferente al de cualquier motor de ajedrez tradicional:

"Es como descubrir los cuadernos secretos de algún gran jugador del pasado".

Y es que, al ser autodidacta y no estar limitado por la sabiduría convencional, AlphaZero "desarrolló sus propias intuiciones y estrategias, agregando un conjunto nuevo y expansivo de ideas novedosas que aumentan siglos de pensamiento sobre la estrategia del ajedrez".

El sistema, por ejemplo, se muestra especialmente dispuesto a sacrificar piezas al principio de un juego si con ello calcula que puede recibir un beneficio a largo plazo.

En Xataka

De ajedrez, máquinas y humanos

"Los motores tradicionales son excepcionalmente robustos y cometen pocos errores obvios, pero pueden tener problemas cuando se enfrentan a posiciones sin una solución concreta y calculable", explica Sadler.

"Es precisamente en esas situaciones, en las que se requiere 'sentimiento', 'percepción' o 'intuición', donde AlphaZero se reivindica".

Más que un juego

Los investigadores se proclaman "entusiasmados con la respuesta creativa de AlphaZero al ajedrez, que ha sido un gran desafío para la inteligencia artificial desde los inicios de la era de la computación".

Garri Kaspárov, ex campeón mundial de ajedrez y autor del libro 'Deep Thinking' sobre la inteligencia artificial, explica la importancia de los logros de Alpha Zero en este juego de mesa: "Durante más de un siglo, el ajedrez se ha venido usando como Piedra Rosetta tanto de la cognición humana como de la artificial".

Pero los investigadores del equipo de AlphaZero avisan que su creación "va más allá de ajedrez, el shogi o el Go":

"El objetivo de DeepMind es construir sistemas que puedan solucionar algunos de los problemas más complejos del mundo y crear un programa que puede enseñarse a sí mismo cómo dominar el ajedrez, el shogi y el go desde cero es un importante primer paso en ese camino".

Un ejemplo de aprendizaje por refuerzo

Un jugador poco ortodoxo

Más que un juego

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios