Inteligencia Artificial, jugando al escondite

Este es un video en el que se explica un modelo de aprendizaje por refuerzo, fue publicado por Two Minute Papers, un canal de YouTube que me atrajo bastante a este mundo.

El video principalmente trata de un modelo de machine learning que va aprendiendo por refuerzo. Un juego simple del escondite.

Inicia perdiendo siempre hasta millones de intentos después aprende que puede bloquear las entradas con unas cajas que había en el mapa, millones de intentos después la otra IA logra pasar por encima de las paredes con una rampa que también se podía mover, hasta billones de intentos después puedes ver como refinan sus estrategias, logran encontrar fallos en el mapa y los aprovechan, logran lanzar bloques fuera del mapa para que el otro equipo no pueda usarlos y el aprendizaje nunca para.

Este modelo fue entrenado de forma simple con muy pocas indicaciones de como ganar el juego, y aprendió hasta el punto de calcular perfectamente cada movimiento.

Ahora imaginen que el modelo sigue y sigue practicando, y cambiamos el juego del escondite por algo con otro uso, las posibilidades son infinitas, interesantes y aterradoras.