Séances de cours associées à Processus de décision markovien

Problème de vente d'actifs

Explore le problème de la vente d'actifs pour maximiser la récompense à long terme sans délai.

Problèmes d'horizon infini : formulation et complexité

Couvre les problèmes d'horizon infini dans les processus de probabilité appliquée et stochastiques.

Stratégie marketing optimale

Couvre la prise de décision dans le marketing basé sur le comportement du client pour des stratégies optimales.

Processus de décision de Markov: fondements de l'apprentissage par renforcement

Couvre les processus décisionnels de Markov, leur structure et leur rôle dans l'apprentissage par renforcement.

Iteration des politiques et programmation linéaire dans les MDP

Discute de l'itération des politiques et des méthodes de programmation linéaire pour résoudre les processus décisionnels de Markov.

Processus de décision de Markov: Techniques de programmation dynamique

Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.

Jeux de Markov: Concepts et applications dans l'apprentissage par renforcement

Couvre les jeux de Markov, leur dynamique, leurs équilibres et leurs applications dans l'apprentissage par renforcement.

Équation de Lindblad

Couvre l'interprétation de l'équation de Lindblad et sa partie unitaire dans les gaz quantiques.

Introduction à l'apprentissage par renforcement: concepts et applications clés

Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.

Représentations factorielles : efficacité de la planification

Explore les représentations factorisées pour la planification, en se concentrant sur la réduction de la complexité et l'amélioration de l'efficacité grâce à une modélisation distincte des fonctionnalités.

Techniques de programmation linéaire dans l'apprentissage par renforcement

Couvre l'approche de programmation linéaire de l'apprentissage par renforcement, en se concentrant sur ses applications et ses avantages dans la résolution des processus décisionnels de Markov.

Équation de Lindblad

Couvre la dérivation de l'équation de Lindblad et l'évolution des gaz quantiques.

Accélération de l'itération de valeur : fractionnement de l'opérateur et de l'IDP

Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.

Renforcement de l'apprentissage : bases et applications

Couvre les bases de l'apprentissage du renforcement, y compris les processus décisionnels de Markov et les méthodes de gradient des politiques, et explore les applications du monde réel et les avancées récentes.

Apprentissage automatique avancé : apprentissage par renforcement discret

Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.

Méthodes de noyau: Avancée de l'apprentissage de la machine

Couvre les méthodes du noyau dans l'apprentissage machine avancé, se concentrant sur les noyaux, l'apprentissage non supervisé, et les algorithmes de classification.

Simulation stochastique : Génération de processus Markov

Couvre la génération des processus de Markov et de Poisson en simulation stochastique.

Renforcement de l'apprentissage pour Pacman

Couvre l'application de l'apprentissage du renforcement pour enseigner à Pacman de jouer de manière autonome par essai et erreur.

Apprentissage par renforcement : horizon en une étape (problèmes de bande)

Couvre les problèmes de bandits dans l'apprentissage par renforcement, en se concentrant sur les jeux d'horizon en une étape et les valeurs Q.

Agents réactifs : processus de décision

Explore les agents réactifs et les processus décisionnels, couvrant des sujets tels que les processus décisionnels de Markov et les agents en temps réel.