Explore les traces d'éligibilité dans les architectures de gradient de politique et d'acteur-critique, conduisant à une règle d'apprentissage en ligne élégante.
Couvre l'algorithme BackProp, y compris l'initialisation, la propagation du signal, le calcul des erreurs, la mise à jour du poids et la comparaison de la complexité avec la différenciation numérique.
Explore les réseaux neuronaux apprenant par récompense, les structures acteur-critique, la plasticité synaptique et le rôle de la dopamine dans les changements synaptiques.
Plonge dans une version biologiquement inspirée de l'apprentissage par renforcement, en se concentrant sur la navigation dans le labyrinthe et la mise en œuvre des neurones de stimulation.
Explore les méthodes de régularisation dans les réseaux neuronaux, en soulignant l'importance des bases d'entraînement et de validation pour éviter les surajustements.
Compare l'apprentissage par renforcement basé sur un modèle et sans modèle, en soulignant les avantages du premier pour s'adapter aux changements de récompense et planifier les actions futures.
Souligne l'importance d'une validation croisée prudente dans les réseaux neuronaux profonds, y compris la division des données et le concept de validation croisée K-fold.
Explore les réseaux neuronaux artificiels, les informations sur les récompenses dans le cerveau, le conditionnement animal, l'apprentissage par renforcement profond et un quiz sur les récompenses.
Comprend un quiz sur le nombre d'états discrets dans le backgammon, mettant en évidence l'immense complexité des applications d'apprentissage de renforcement.
Explore la relation entre la fluctuation des valeurs Q dans le SARSA et l'équation de Bellman par le biais des attentes et de la constance des politiques.