Cours

CS-456: Deep reinforcement learning

Séances de ce cours (96)

Traces dans les algorithmes de gradient de politique

Plonge dans l'émergence de traces d'éligibilité dans les algorithmes de gradient de politique, rendant l'apprentissage rapide et efficace.

Traces d'éligibilité pour le gradient de politique et la critique d'acteur

Explore les traces d'éligibilité dans les architectures de gradient de politique et d'acteur-critique, conduisant à une règle d'apprentissage en ligne élégante.

Algorithme BackProp: Pseudocode et étapes de traitement

Couvre l'algorithme BackProp, y compris l'initialisation, la propagation du signal, le calcul des erreurs, la mise à jour du poids et la comparaison de la complexité avec la différenciation numérique.

Réseaux de neurones pour l'apprentissage par l'action: règles à trois facteurs et dopamine

Explore les réseaux neuronaux apprenant par récompense, les structures acteur-critique, la plasticité synaptique et le rôle de la dopamine dans les changements synaptiques.

Règles à trois facteurs: DeepRL1.5A

Explique les règles à trois facteurs dans les algorithmes de gradient de politique et leur mise en œuvre dans les systèmes biologiques et matériels.

Réseaux neuronaux pour l’apprentissage par l’action : Insights sur la mise en œuvre du cerveau

Explore les réseaux neuronaux pour l'apprentissage par l'action et la mise en œuvre de l'apprentissage par renforcement du cerveau.

Le problème de l’overfitting

Discute du problème du suréquipement dans les réseaux profonds et de l'importance de contrôler la flexibilité pour l'éviter.

Apprendre à trouver un objectif

Plonge dans une version biologiquement inspirée de l'apprentissage par renforcement, en se concentrant sur la navigation dans le labyrinthe et la mise en œuvre des neurones de stimulation.

Méthodes de régularisation : Formation et Validation Base

Explore les méthodes de régularisation dans les réseaux neuronaux, en soulignant l'importance des bases d'entraînement et de validation pour éviter les surajustements.

Apprentissage par renforcement basé sur un modèle ou sans modèle

Compare l'apprentissage par renforcement basé sur un modèle et sans modèle, en soulignant les avantages du premier pour s'adapter aux changements de récompense et planifier les actions futures.

Attention à la validation croisée

Souligne l'importance d'une validation croisée prudente dans les réseaux neuronaux profonds, y compris la division des données et le concept de validation croisée K-fold.

Régularisation par arrêt anticipé

Explore la régularisation en s'arrêtant tôt dans les réseaux neuronaux profonds pour contrôler la flexibilité et éviter les surajustements.

Renforcement de l’apprentissage : l’apprentissage basé sur la récompense

Explore les réseaux neuronaux artificiels, les informations sur les récompenses dans le cerveau, le conditionnement animal, l'apprentissage par renforcement profond et un quiz sur les récompenses.

Éléments du renforcement de l'apprentissage

Introduit les éléments fondamentaux de l'apprentissage du renforcement et démontre leur application avec le système Acrobot.

Éléments d'apprentissage par renforcement : quiz sur les États

Comprend un quiz sur le nombre d'états discrets dans le backgammon, mettant en évidence l'immense complexité des applications d'apprentissage de renforcement.

Apprentissage par renforcement : horizon en une étape (problèmes de bande)

Couvre les problèmes de bandits dans l'apprentissage par renforcement, en se concentrant sur les jeux d'horizon en une étape et les valeurs Q.

Apprentissage par renforcement: problèmes de bandits

Couvre la convergence dans l'attente de la valeur Q dans l'apprentissage par renforcement.

Exploration vs. Exploitation: Softmax Policy Quiz

Présente un quiz sur le dilemme exploration vs exploitation en utilisant la politique softmax.

Équation de Bellman : Cohérence de la valeur et actions optimales

Couvre l'équation de Bellman, les valeurs Q, le facteur de réduction et les actions optimales.

Relation de l'équation de SARSA et de Bellman

Explore la relation entre la fluctuation des valeurs Q dans le SARSA et l'équation de Bellman par le biais des attentes et de la constance des politiques.