Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.
Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.
Explore les représentations factorisées pour la planification, en se concentrant sur la réduction de la complexité et l'amélioration de l'efficacité grâce à une modélisation distincte des fonctionnalités.
Couvre l'approche de programmation linéaire de l'apprentissage par renforcement, en se concentrant sur ses applications et ses avantages dans la résolution des processus décisionnels de Markov.
Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.
Couvre les bases de l'apprentissage du renforcement, y compris les processus décisionnels de Markov et les méthodes de gradient des politiques, et explore les applications du monde réel et les avancées récentes.
Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.
Couvre les méthodes du noyau dans l'apprentissage machine avancé, se concentrant sur les noyaux, l'apprentissage non supervisé, et les algorithmes de classification.
Explore les agents réactifs et les processus décisionnels, couvrant des sujets tels que les processus décisionnels de Markov et les agents en temps réel.