Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Discute des méthodes d'apprentissage par renforcement profond, en se concentrant sur les mini-batchs et les implications des techniques de formation on-policy et off-policy.
Couvre le concept de descente de gradient dans les cas scalaires, en se concentrant sur la recherche du minimum d'une fonction en se déplaçant itérativement dans la direction du gradient négatif.
Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.
Couvre les bases de l'apprentissage de renforcement, y compris l'apprentissage d'essai et d'erreur, l'apprentissage Q, le RL profond, et les applications dans le jeu et la planification.
Explore la programmation dynamique pour un contrôle optimal, en se concentrant sur la stabilité, la politique stationnaire et les solutions récursives.
Explore l'apprentissage profond pour les véhicules autonomes, couvrant la perception, l'action et les prévisions sociales dans le contexte des technologies de capteurs et des considérations éthiques.
Explore l'apprentissage en apprentissage profond pour les véhicules autonomes, couvrant les modèles prédictifs, RNN, ImageNet, et l'apprentissage de transfert.
Explore les agents d'apprentissage profond dans l'apprentissage du renforcement, en mettant l'accent sur les approximations du réseau neuronal et les défis dans la formation des systèmes multiactifs.