Séances de cours associées à Iteration des politiques et programmation linéaire dans les MDP

Problèmes d'horizon infini : formulation et complexité

Couvre les problèmes d'horizon infini dans les processus de probabilité appliquée et stochastiques.

Processus de décision de Markov: Techniques de programmation dynamique

Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.

Processus de décision de Markov: fondements de l'apprentissage par renforcement

Couvre les processus décisionnels de Markov, leur structure et leur rôle dans l'apprentissage par renforcement.

Séance de cours interactive : Apprentissage du renforcement

Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.

Problème de vente d'actifs

Explore le problème de la vente d'actifs pour maximiser la récompense à long terme sans délai.

Prédiction sans modèle dans l'apprentissage par renforcement: méthodes clés

Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.

Stratégie marketing optimale

Couvre la prise de décision dans le marketing basé sur le comportement du client pour des stratégies optimales.

Techniques de programmation linéaire dans l'apprentissage par renforcement

Couvre l'approche de programmation linéaire de l'apprentissage par renforcement, en se concentrant sur ses applications et ses avantages dans la résolution des processus décisionnels de Markov.

Apprentissage automatique avancé : apprentissage par renforcement discret

Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.

Accélération de l'itération de valeur : fractionnement de l'opérateur et de l'IDP

Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.

Programmation dynamique : contrôle optimal

Explore la programmation dynamique pour un contrôle optimal, en se concentrant sur la stabilité, la politique stationnaire et les solutions récursives.

Méthodes d'optimisation : discussion théorique

Explore les méthodes d'optimisation, y compris les problèmes sans contraintes, la programmation linéaire et les approches heuristiques.

Introduction à l'apprentissage par renforcement: concepts et applications clés

Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.

Programmation linéaire: Points extrêmes

Explore les points extrêmes de la programmation linéaire et le rôle des contraintes dans la recherche de solutions optimales.

Décisions d’investissement : rentes et coûts d’actualisation

Couvre les décisions d'investissement, en se concentrant sur les rentes, les coûts d'actualisation et l'évaluation de la rentabilité par la valeur actualisée nette et les taux de rendement internes.

Jeux de Markov: Concepts et applications dans l'apprentissage par renforcement

Couvre les jeux de Markov, leur dynamique, leurs équilibres et leurs applications dans l'apprentissage par renforcement.

Problèmes d'optimisation : recherche des voies et affectation des portefeuilles

Couvre les problèmes d'optimisation dans la recherche de chemin et l'allocation de portefeuille.

Formulation du jeu de coupures : problème MST

Explore la formulation de cutset pour la méthode MST Problem and Gomory Cutting Planes.

Réduction : Arbitrage intertemporel et évaluation financière

Couvre l'actualisation en économie de l'environnement, en mettant l'accent sur l'arbitrage intertemporel et l'évaluation des coûts et des avantages au fil du temps.

Introduction à l'apprentissage par renforcement: concepts et applications

Introduit l'apprentissage par renforcement, couvrant ses concepts, ses applications et ses algorithmes clés.