Cours

CS-456: Deep reinforcement learning

Séances de ce cours (96)

Mini-bateaux dans l'apprentissage de renforcement profond sur-et-hors-politique

Explique l'importance des mini-lots dans l'apprentissage par renforcement profond et les différences entre les méthodes on-policy et off-policy.

Astuces du commerce de l'apprentissage profond: objectifs

Couvre les questions pratiques et les objectifs de l'apprentissage profond, y compris les types de neurones, l'architecture du réseau, l'optimisation et l'initialisation du poids.

Optimisation de la politique proximale pour un contrôle continu

Explore l'optimisation des politiques proximales pour améliorer la stabilité et l'efficacité du contrôle continu avec un apprentissage par renforcement profond.

Gradient de politique déterministe profonde pour le contrôle continu

Présente l'algorithme Deep Deterministic Policy Gradient pour former efficacement les réseaux neuronaux dans les espaces d'action continue.

Théorie du bagging

Explore la théorie de l'ensachage, démontrant comment elle améliore les performances du modèle et l'importance des données non corrélées pour son succès.

Ensachage : méthode de régularisation en apprentissage profond

Explore l'ensachage en tant que méthode de régularisation dans l'apprentissage en profondeur, en formant plusieurs variantes de modèles sur différents sous-ensembles de données pour améliorer la généralisation.

Monte Carlo Tree Search et Alpha Zero

Explore Monte Carlo Tree Search et Alpha Zero dans l'apprentissage par renforcement profond.

MuZero: Modèle de planification et d'apprentissage

Couvre MuZero, un modèle qui apprend à prédire les récompenses et les actions de manière itérative, réalisant des performances de pointe dans les jeux de société et les jeux vidéo Atari.

RL profonde basée sur le modèle: planification et VAST

Couvre l'apprentissage par modèle, la planification, la tabulation des états variables et la mise à jour efficace des valeurs Q et V.

Décrochage: astuces du commerce

Explore le Dropout en tant que méthode de régularisation dans les réseaux neuronaux profonds, en mettant l'accent sur sa mise en œuvre pratique et son efficacité.

Augmentation des données : Deep Learning

Explore l'augmentation des données en tant que méthode de régularisation clé dans l'apprentissage en profondeur, couvrant des techniques telles que les traductions, les rotations et le transfert de style artistique.

Initialisation du poids: astuces du commerce

Explore l'initialisation intelligente du poids dans les réseaux neuronaux, en soulignant l'importance d'une normalisation appropriée des données et d'une initialisation aléatoire du poids.

Problème de gradient de disparition: Deep Learning

Discute du problème du gradient de fuite dans les réseaux neuronaux profonds et de ses solutions.

Deep Learning: Propagation vers l'arrière et Gradient de disparition

Plonge dans la propagation en arrière dans l'apprentissage profond, répondant au défi de la disparition du gradient et à la nécessité d'unités cachées efficaces.

Mise à jour de poids: entrée moyenne et problème de biais

Discute du décalage d'entrée moyen et du problème de biais dans les mises à jour de poids pour les réseaux neuronaux, soulignant l'importance d'une initialisation correcte pour prévenir les problèmes de gradient.

Normalisation par lots: pourquoi cela fonctionne

Explore le but et le processus de normalisation par lots dans les réseaux neuronaux profonds, en soulignant son importance dans la stabilisation de l'entrée moyenne et la résolution du problème du gradient de fuite.

Variations du SARSA : apprentissage prévu du SARSA et du Q

Explore l'apprentissage SARSA et Q attendu, deux variantes de l'algorithme SARSA.

TD Learning : Apprentissage par différence temporelle

Couvre l'apprentissage par différence temporelle, les valeurs V, les valeurs d'état et les méthodes TD dans l'apprentissage par renforcement.

Monte-Carlo Methods Quiz

Présente un quiz sur l'estimation des variables de retour dans les méthodes Monte-Carlo.

Méthodes Monte-Carlo pour l'apprentissage par renforcement

Explore les méthodes de Monte-Carlo pour l'apprentissage par renforcement, en les comparant avec les méthodes TD et en mettant l'accent sur l'efficacité des méthodes TD dans la propagation de l'information.