Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.
Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Couvre la complexité algorithmique et l'analyse du temps de trajet, en se concentrant sur la mesure du temps pris par les algorithmes et l'évaluation de leurs performances.
Explore les aspects pratiques de la résolution des jeux de parité, y compris les stratégies gagnantes, les algorithmes, la complexité, le déterminisme et les approches heuristiques.
Explore l'exactitude de l'algorithme, l'analyse de la complexité dans le pire des cas et la comparaison de l'efficacité en fonction de la taille des entrées.
Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.
Couvre la théorie et les applications de la coloration graphique, en se concentrant sur les modèles de blocs stochastiques dissortatifs et la coloration plantée.
Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.
Explore la méthode Extra-Gradient pour l'optimisation Primal-dual, couvrant les problèmes non convexes, les taux de convergence et les performances pratiques.