CS-456: Deep reinforcement learning

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de ce cours (96)

Traces d'éligibilité

Introduit des traces d'éligibilité, expliquant comment elles permettent un flux d'informations rapide dans l'apprentissage par renforcement.

N-step TD Methods: SARSA et SARSA attendu

Explore les méthodes n-step TD dans l'apprentissage par renforcement, améliorant le flux d'informations et la précision de l'estimation.

Modélisation de l'espace d'entrée

Explore la modélisation d'espaces d'entrée continus dans l'apprentissage par renforcement à l'aide de réseaux de neurones et de fonctions de base radiales.

Comparaison des traces de SARSA et d'admissibilité

Présente un quiz comparant l'algorithme SARSA en n-étape avec SARSA en utilisant des traces d'admissibilité.

Réseaux de neurones artificiels et apprentissage profond: paysage de perte et méthodes d'optimisation

Explore le paysage des fonctions d'erreur, les méthodes d'optimisation et les réseaux neuronaux profonds pour la classification.

Paysage de perte: points de selle et minima

Discute des minima dans les fonctions d'erreur, des minima multiples, des points de selle, de la symétrie de l'espace de poids et des bonnes solutions presque équivalentes dans les réseaux neuronaux profonds.

Pourquoi y a-t-il autant de points de selle? : Paysage de perte et méthodes d'optimisation

Explore les raisons de l'abondance des points de selle dans l'optimisation de l'apprentissage en profondeur, en mettant l'accent sur les arguments statistiques et géométriques.

Gradient Descent avec Momentum

Explore l'utilisation de l'élan dans la descente en pente pour améliorer la vitesse et la stabilité.

Méthodes d'optimisation : RMSprop et ADAM

Explore les méthodes d'optimisation RMSprop et ADAM dans les réseaux neuronaux artificiels, en se concentrant sur les fonctions d'erreur, l'élan et le rapport signal/bruit.

No Free Lunch Theorem: Cours en ligne gratuit

Explore le théorème du déjeuner sans gratuit et comment les réseaux profonds correspondent aux structures de problèmes du monde réel.

Réseaux profonds versus réseaux peu profonds: réseaux neuronaux artificiels et apprentissage profond

Compare les réseaux profonds avec les réseaux peu profonds dans les réseaux de neurones artificiels et l'apprentissage profond, en explorant les raisons de leurs différences de performance.

Premiers pas vers l’apprentissage par renforcement profond

Explore le passage à l'apprentissage par renforcement profond à travers les réseaux neuronaux pour l'apprentissage direct des politiques, en contournant les valeurs Q et V.

Méthodes de dégradé de politique: exemple dacteur binaire

Introduit des méthodes de gradient de politique en utilisant un exemple simple d'un seul neurone avec une sortie binaire.

Méthodes de gradient de politique: exemple de neurone unique

Couvre les méthodes de gradient de politique utilisant un seul neurone avec une sortie binaire.

Évaluation du gradient de la politique : Exemple (horizon à 1 étape)

Explore l'évaluation du gradient des politiques avec un horizon en 1 étape, met à jour les règles, les comparaisons avec Perceptron et la biologie, et les techniques de généralisation.

Quiz : méthodes de gradient de politique

Présente un quiz discutant des revendications liées aux algorithmes d'apprentissage par renforcement.

Log-Likelihood Trick: De lot à en ligne

Couvre le tour de log-vraisemblance pour la transition de lot à l'apprentissage en ligne.

Méthodes de dégradé de politique: plusieurs étapes temporelles

Explore les méthodes de dégradé de politique sur plusieurs étapes temporelles, en mettant l'accent sur la mise à jour des paramètres de politique pour maximiser les récompenses.

Soustraire la récompense moyenne via la fonction valeur

Couvre l'importance de la soustraction de la récompense moyenne dans les méthodes de gradient de politique pour l'apprentissage par renforcement profond, réduisant le bruit dans le gradient stochastique.

Algorithmes de gradient de politique et valeurs V

Explore l'utilisation des valeurs V dans les algorithmes de gradient de politique pour une convergence plus rapide.

Page 4 sur 5