Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.
Couvre l'approche de programmation linéaire de l'apprentissage par renforcement, en se concentrant sur ses applications et ses avantages dans la résolution des processus décisionnels de Markov.
Explore les processus stochastiques contrôlés, en se concentrant sur l'analyse, le comportement et l'optimisation, en utilisant la programmation dynamique pour résoudre les problèmes du monde réel.
Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.
Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.
Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.
Explore l'optimisation dans la modélisation des systèmes énergétiques, couvrant les variables de décision, les fonctions objectives et les différentes stratégies avec leurs avantages et leurs inconvénients.
Explore la programmation dynamique pour un contrôle optimal, en se concentrant sur la stabilité, la politique stationnaire et les solutions récursives.
Explore les aspects pratiques de la résolution des jeux de parité, y compris les stratégies gagnantes, les algorithmes, la complexité, le déterminisme et les approches heuristiques.