Séance de cours

Agents réactifs : processus de décision

Séances de cours associées (32)

Couvre la prise de décision dans le marketing basé sur le comportement du client pour des stratégies optimales.

Problèmes d'horizon infini : formulation et complexité

Couvre les problèmes d'horizon infini dans les processus de probabilité appliquée et stochastiques.

Les chaînes de Markov : théorie et applications

Couvre la théorie et les applications des chaînes de Markov dans la modélisation de phénomènes aléatoires et la prise de décision sous incertitude.

Séance de cours interactive : Apprentissage du renforcement

Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.

Renforcement de l'apprentissage pour Pacman

Couvre l'application de l'apprentissage du renforcement pour enseigner à Pacman de jouer de manière autonome par essai et erreur.

Introduction à l'apprentissage par renforcement: concepts et applications clés

Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.

Processus de décision de Markov: fondements de l'apprentissage par renforcement

Couvre les processus décisionnels de Markov, leur structure et leur rôle dans l'apprentissage par renforcement.

Renforcement de l'apprentissage pour Pacman

Explore l'application de l'apprentissage de renforcement pour enseigner à Pacman à jouer de façon autonome en utilisant les méthodes de gradient de politique et les processus de décision Markov.

Jeux de Markov: Concepts et applications dans l'apprentissage par renforcement

Couvre les jeux de Markov, leur dynamique, leurs équilibres et leurs applications dans l'apprentissage par renforcement.

Équation de Lindblad

Couvre l'interprétation de l'équation de Lindblad et sa partie unitaire dans les gaz quantiques.

Apprentissage automatique avancé : apprentissage par renforcement discret

Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.

Chaînes Markov: Récurrence et Transience

Explore les premiers temps de passage, la propriété forte de Markov et déclare la récurrence/transience dans les chaînes de Markov.

Chaînes et applications Markov

Explore les chaînes de Markov, le modèle Ising, l'algorithme Metropolis et la dynamique Glauber.

Exemples de MCMC et estimation des erreurs

Couvre des exemples de chaîne Markov Monte Carlo et des méthodes d'estimation des erreurs.

Markov Chain Games

Explore les jeux de la chaîne de Markov, les probabilités de frappe et les temps de frappe attendus dans un ensemble de cibles.

Chaînes et algorithmes de Markov

Couvre les chaînes de Markov et leurs applications dans les algorithmes, en se concentrant sur l'échantillonnage Markov Chain Monte Carlo et l'algorithme Metropolis-Hastings.

Chaînes Markov: Ergodicité et distribution stationnaire

Explore l'ergonomie et la distribution stationnaire dans les chaînes Markov, en mettant l'accent sur les propriétés de convergence et les distributions uniques.

Distributions invariantes: Chaînes Markov

Explore les distributions invariantes, les états récurrents et la convergence dans les chaînes de Markov, y compris des applications pratiques telles que PageRank dans Google.

Concepts d'apprentissage par renforcement

Couvre les concepts clés de l'apprentissage par renforcement, des réseaux neuronaux, du clustering et de l'apprentissage non supervisé, en mettant l'accent sur leurs applications et leurs défis.

Hidden Markov Modèles: Primer

Introduit des modèles de Markov cachés, expliquant les problèmes de base et les algorithmes comme Forward-Backward, Viterbi et Baum-Welch, en mettant laccent sur lattente-Maximisation.