Processus de décision markovien

Applied sciences
Information engineering
Automatique
Théorie du contrôle

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (32)

Connectez-vous pour filtrer par séance de cours

Monte Carlo Tree Search et Alpha Zero

Explore Monte Carlo Tree Search et Alpha Zero dans l'apprentissage par renforcement profond.

Stratégies de chasse optimales

Explore les stratégies de chasse optimales, les prix incertains du pétrole et les politiques linéaires de minimisation des coûts.

Équation de Bellman : Cohérence de la valeur et actions optimales

Couvre l'équation de Bellman, les valeurs Q, le facteur de réduction et les actions optimales.

Apprentissage du renforcement: processus Markov et optimisation des politiques

Couvre les processus de Markov, les règles de décision et les techniques d'optimisation des politiques pour renforcer l'apprentissage.

Génération de processus de Markov

Couvre la génération des processus de Markov et des chaînes de Markov, y compris les matrices de transition et les matrices stochastiques.

Séance de cours interactive : Apprentissage du renforcement

Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.

Chaînes Markov: Ergodicité et distribution stationnaire

Explore l'ergonomie et la distribution stationnaire dans les chaînes Markov, en mettant l'accent sur les propriétés de convergence et les distributions uniques.

Programmation dynamique : Optimisation de portefeuille

Explore la programmation dynamique pour optimiser les choix de portefeuille et la théorie de la tarification des actifs.

RL profonde basée sur le modèle: planification et VAST

Couvre l'apprentissage par modèle, la planification, la tabulation des états variables et la mise à jour efficace des valeurs Q et V.

Machines vectorielles de soutien: Solutions d'exercices

Couvre les solutions aux exercices SVM, en discutant des conditions d'optimalité, des fonctions de décision et des impacts des paramètres.

Méthodes de gradient de politique: convergence et optimisation

Couvre la convergence des méthodes de gradient de politique et leur optimisation dans l'apprentissage de renforcement.

Récurrence positive: distributions invariantes

Explore les récurrences positives et les distributions invariantes dans les chaînes de Markov, en discutant de leur relation et de leurs implications.

Page 2 sur 2