Introduit Q-Learning, Deep Q-Learning, l'algorithme REINFORCE et Monte-Carlo Tree Search dans l'apprentissage par renforcement, aboutissant à AlphaGo Zero.
Déplacez-vous dans la construction d'ensembles robustes grâce à l'augmentation de la marge pour améliorer la défense contradictoire dans les modèles d'apprentissage automatique.
Explore le lemme de Farkas, la séparation hyperplane, la combinatoire et son application dans la théorie des jeux, en se concentrant sur les stratégies de penalty kick.
Couvre la dynamique d'apprentissage dans les jeux d'action finis et explore divers types d'équilibres, y compris les équilibres corrélés et corrélés grossiers.