Déplacez-vous dans le problème de demande linéaire, les perturbations infinitésimales, les plans de transport, et le théorème principal à partir de 2018.
Introduit Q-Learning, Deep Q-Learning, l'algorithme REINFORCE et Monte-Carlo Tree Search dans l'apprentissage par renforcement, aboutissant à AlphaGo Zero.