Séance de cours

Programmation dynamique : contrôle optimal

Séances de cours associées (32)

Explore les processus stochastiques contrôlés, en se concentrant sur l'analyse, le comportement et l'optimisation, en utilisant la programmation dynamique pour résoudre les problèmes du monde réel.

Contrôle prédictif du modèle non linéaire

Explore le contrôle prédictif du modèle non linéaire, couvrant la stabilité, l'optimalité, les pièges et les exemples.

Contrôle quadratique linéaire (LQ) : preuve de théorème

Couvre la preuve de la formule récursive pour les gains optimaux dans le contrôle LQ sur un horizon fini.

Programmation dynamique : contrôle optimal

Explore la programmation dynamique pour un contrôle optimal, couvrant le remplacement de la machine, les chaînes de Markov, les politiques de contrôle et les problèmes quadratiques linéaires.

Contrôle LQ Infinite-Horizon : Solution et exemple

Explore Infinite-Horizon Contrôle optimal du Quadratic linéaire (LQ), mettant l'accent sur les méthodes de solution et les exemples pratiques.

Processus de décision de Markov: fondements de l'apprentissage par renforcement

Couvre les processus décisionnels de Markov, leur structure et leur rôle dans l'apprentissage par renforcement.

Séance de cours interactive : Apprentissage du renforcement

Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.

Stabilité : pôles, zéros et contrôle

Couvre la stabilité, les pôles, les zéros et le contrôle dans les systèmes dynamiques, en soulignant l'importance de l'observabilité.

Accélération de l'itération de valeur : fractionnement de l'opérateur et de l'IDP

Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.

Problème de vente d'actifs

Explore le problème de la vente d'actifs pour maximiser la récompense à long terme sans délai.

Apprentissage automatique avancé : apprentissage par renforcement discret

Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.

Prédiction sans modèle dans l'apprentissage par renforcement: méthodes clés

Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.

Contrôle optimal: NMPC

Couvre les principes de contrôle prédictif de modèle non linéaire (NMPC), y compris la stabilisation de consigne et le principe maximum de Pontryagin.

Introduction à l'apprentissage par renforcement: concepts et applications clés

Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.

Iteration des politiques et programmation linéaire dans les MDP

Discute de l'itération des politiques et des méthodes de programmation linéaire pour résoudre les processus décisionnels de Markov.

Théorie du contrôle optimal : les bases

Couvre les principes fondamentaux de la théorie du contrôle optimal, en se concentrant sur la définition des OCP, l'existence de solutions, les critères de performance, les contraintes physiques et le principe d'optimalité.

Problèmes d'horizon infini : formulation et complexité

Couvre les problèmes d'horizon infini dans les processus de probabilité appliquée et stochastiques.

Identification et stabilité du système

Explore l'identification du système, les critères de stabilité et les défis liés à la stabilisation des caméras sur les plates-formes mobiles.

Stabilité de l'ODE

Explore la stabilité des équations différentielles ordinaires, en se concentrant sur la dépendance des solutions, les données critiques, la linéarisation et le contrôle des systèmes non linéaires.

Contrôle quadratique linéaire optimal : analyse et solution

Explore le contrôle quadratique optimal linéaire, analyse les coûts et présente la solution au problème FH-LQ.