Séances de cours associées à Processus de décision de Markov: fondements de l'apprentissage par renforcement

Introduction à l'apprentissage par renforcement: concepts et applications clés

Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.

Techniques de programmation linéaire dans l'apprentissage par renforcement

Couvre l'approche de programmation linéaire de l'apprentissage par renforcement, en se concentrant sur ses applications et ses avantages dans la résolution des processus décisionnels de Markov.

Iteration des politiques et programmation linéaire dans les MDP

Discute de l'itération des politiques et des méthodes de programmation linéaire pour résoudre les processus décisionnels de Markov.

Jeux de Markov: Concepts et applications dans l'apprentissage par renforcement

Couvre les jeux de Markov, leur dynamique, leurs équilibres et leurs applications dans l'apprentissage par renforcement.

Processus stochastiques contrôlés

Explore les processus stochastiques contrôlés, en se concentrant sur l'analyse, le comportement et l'optimisation, en utilisant la programmation dynamique pour résoudre les problèmes du monde réel.

Problèmes d'horizon infini : formulation et complexité

Couvre les problèmes d'horizon infini dans les processus de probabilité appliquée et stochastiques.

Méthodes d'optimisation : discussion théorique

Explore les méthodes d'optimisation, y compris les problèmes sans contraintes, la programmation linéaire et les approches heuristiques.

Processus de décision de Markov: Techniques de programmation dynamique

Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.

Accélération de l'itération de valeur : fractionnement de l'opérateur et de l'IDP

Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.

Problème de vente d'actifs

Explore le problème de la vente d'actifs pour maximiser la récompense à long terme sans délai.

Séance de cours interactive : Apprentissage du renforcement

Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.

Stratégie marketing optimale

Couvre la prise de décision dans le marketing basé sur le comportement du client pour des stratégies optimales.

Programmation linéaire: Résoudre les LP

Couvre le processus de résolution des programmes linéaires (LP) à l'aide de la méthode simplex.

Apprentissage automatique avancé : apprentissage par renforcement discret

Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.

Optimisation des systèmes énergétiques

Explore l'optimisation dans la modélisation des systèmes énergétiques, couvrant les variables de décision, les fonctions objectives et les différentes stratégies avec leurs avantages et leurs inconvénients.

Design d'algorithme: Diviser et conquerer

Couvre la récursion, la programmation dynamique et la conception d'algorithmes en utilisant des stratégies de partage et de conquête.

Programmation dynamique : contrôle optimal

Explore la programmation dynamique pour un contrôle optimal, en se concentrant sur la stabilité, la politique stationnaire et les solutions récursives.

Introduction aux algorithmes: Aperçu des cours et notions de base

Introduit le cours d'algorithmes CS-250, couvrant sa structure, ses objectifs et ses sujets clés dans la résolution de problèmes algorithmiques.

Algorithmes d'approximation

Couvre les algorithmes d'approximation pour les problèmes d'optimisation, la relaxation LP et les techniques d'arrondi aléatoire.

Résoudre les jeux de parité dans la pratique

Explore les aspects pratiques de la résolution des jeux de parité, y compris les stratégies gagnantes, les algorithmes, la complexité, le déterminisme et les approches heuristiques.