Processus de décision de Markov: fondements de l'apprentissage par renforcement

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (30)

Problème de changement de pièce

Explore le problème du changement de pièce, en comparant des algorithmes de programmation gourmands et dynamiques pour des solutions optimales.

Simplex Algorithme: Bases

Introduit l'algorithme Simplex pour résoudre les problèmes de flux et gérer les cycles de coûts négatifs.

Renforcement de l'apprentissage pour Pacman

Couvre l'application de l'apprentissage du renforcement pour enseigner à Pacman de jouer de manière autonome par essai et erreur.

Programmation dynamique: Séquence Steinitz

Explore la programmation dynamique avec la séquence Steinitz pour optimiser les solutions efficacement.

Prédiction sans modèle dans l'apprentissage par renforcement: méthodes clés

Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.

Chaînes et algorithmes de Markov

Couvre l'application des chaînes de Markov et des algorithmes pour l'optimisation des fonctions et les colorations des graphes.

Principes d'optimisation

Couvre les principes d'optimisation, y compris l'optimisation linéaire, les réseaux et les exemples de recherche concrets dans le transport.

Formulation du jeu de coupures : problème MST

Explore la formulation de cutset pour la méthode MST Problem and Gomory Cutting Planes.

Programmation dynamique : Découpe de bâtonnets et transformation

Explore la programmation dynamique à travers la coupe de tiges et les problèmes d'optimisation de changement.

Renforcement de l'apprentissage : bases et applications

Couvre les bases de l'apprentissage du renforcement, y compris les processus décisionnels de Markov et les méthodes de gradient des politiques, et explore les applications du monde réel et les avancées récentes.

Page 2 sur 2