Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.
Explore l'application de l'apprentissage de renforcement pour enseigner à Pacman à jouer de façon autonome en utilisant les méthodes de gradient de politique et les processus de décision Markov.
Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.
Couvre les chaînes de Markov et leurs applications dans les algorithmes, en se concentrant sur l'échantillonnage Markov Chain Monte Carlo et l'algorithme Metropolis-Hastings.
Explore l'ergonomie et la distribution stationnaire dans les chaînes Markov, en mettant l'accent sur les propriétés de convergence et les distributions uniques.
Explore les distributions invariantes, les états récurrents et la convergence dans les chaînes de Markov, y compris des applications pratiques telles que PageRank dans Google.
Couvre les concepts clés de l'apprentissage par renforcement, des réseaux neuronaux, du clustering et de l'apprentissage non supervisé, en mettant l'accent sur leurs applications et leurs défis.
Introduit des modèles de Markov cachés, expliquant les problèmes de base et les algorithmes comme Forward-Backward, Viterbi et Baum-Welch, en mettant laccent sur lattente-Maximisation.