Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Explore l'ergonomie et la distribution stationnaire dans les chaînes Markov, en mettant l'accent sur les propriétés de convergence et les distributions uniques.