Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.
Plongez dans les bases de l'apprentissage par renforcement, en discutant des états, des actions, des récompenses, des politiques et des applications de réseaux neuronaux.
Explore la perception dans l'apprentissage profond pour les véhicules autonomes, couvrant la classification d'image, les méthodes d'optimisation, et le rôle de la représentation dans l'apprentissage automatique.
Fournit une vue d'ensemble de l'apprentissage par renforcement, en se concentrant sur le gradient de politique et les méthodes critiques des acteurs pour les réseaux de neurones artificiels profonds.
Explore les processus stochastiques contrôlés, en se concentrant sur l'analyse, le comportement et l'optimisation, en utilisant la programmation dynamique pour résoudre les problèmes du monde réel.
Fournit un aperçu des méthodes de gradient de politique dans l'apprentissage par renforcement, en se concentrant sur le tour de log-vraisemblance et la transition de l'apprentissage par lots à l'apprentissage en ligne.
Explore les réseaux profonds et convolutifs, couvrant la généralisation, l'optimisation et les applications pratiques dans l'apprentissage automatique.
Explore les robots d'entraînement en renforçant l'apprentissage et l'apprentissage de la démonstration, mettant en évidence les défis de l'interaction homme-robot et de la collecte de données.
Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.
Discute des méthodes d'apprentissage par renforcement profond, en se concentrant sur les mini-batchs et les implications des techniques de formation on-policy et off-policy.
Explore les défis d'apprentissage en renforcement continu de l'état, l'estimation de la fonction de valeur, les gradients des politiques et l'apprentissage des politiques par l'exploration pondérée.