Séances du CS-456: Deep reinforcement learning

Introduction générale aux réseaux de neurones artificiels

Couvre l'histoire et l'inspiration derrière les réseaux neuronaux artificiels, la structure des neurones, l'apprentissage par les connexions synaptiques et la description mathématique des neurones artificiels.

Processus de décision de Markov: fondements de l'apprentissage par renforcement

Couvre les processus décisionnels de Markov, leur structure et leur rôle dans l'apprentissage par renforcement.

Exploration versus exploitation

Explore l'équilibre entre l'exploration de nouvelles possibilités et l'exploitation d'actions gratifiantes connues dans l'apprentissage par renforcement.

Apprentissage par renforcement : algorithme SARSA

Explore l'algorithme SARSA pour l'apprentissage par renforcement, en mettant l'accent sur la mise à jour des valeurs Q et l'importance de l'exploration dans l'apprentissage par récompenses.

Processus de décision de Markov: Techniques de programmation dynamique

Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.

Introduction générale aux réseaux de neurones artificiels: classification des images

Introduit des réseaux de neurones artificiels pour la classification d'images en utilisant des réseaux feedforward et récurrents en couches.

Introduction générale aux réseaux de neurones artificiels: partie 3

Couvre l'apprentissage par des récompenses dans l'apprentissage par renforcement profond sans détails mathématiques.

Apprentissage par renforcement: Diagrammes de sauvegarde

Présente le diagramme de sauvegarde en tant que représentation graphique clé dans l'apprentissage par renforcement.

Iteration des politiques et programmation linéaire dans les MDP

Discute de l'itération des politiques et des méthodes de programmation linéaire pour résoudre les processus décisionnels de Markov.

Introduction à l'apprentissage supervisé: classification et perceptrons

Explore l'apprentissage supervisé par la classification comme un problème géométrique et le concept de trouver une surface de séparation.

Introduction à l’apprentissage supervisé

Introduit un apprentissage supervisé en utilisant des points de données étiquetés pour optimiser la sortie du classificateur.

Introduction : classification par un perceptron simple

Couvre le concept d'un perceptron simple et sa capacité à résoudre des problèmes linéairement séparables en imposant un hyperplan de séparation.

Introduction à l'algorithme de Perceptron

Introduit l'algorithme de perceptron et son interprétation géométrique, en mettant l'accent sur la rotation de l'hyperplan due à des motifs mal classés.

Introduction à l'apprentissage par la descente en gradient stochastique: Perceptron simple

Couvre la dérivation de la formule de descente de gradient stochastique pour un perceptron simple et explore l'interprétation géométrique de la classification.

Q-Learning profond: DeepRL1.1

Couvre le Q-learning profond dans les réseaux neuronaux profonds, son application dans les jeux, la rétropropagation, les valeurs Q et les valeurs V.

Méthodes de descente de gradient pour les réseaux de neurones artificiels

Explore les méthodes de descente de gradient pour l'entraînement des réseaux de neurones artificiels, couvrant l'apprentissage supervisé, les réseaux monocouches et les règles modernes de descente de gradient.

Apprentissage par renforcement profond: fonction de gradient et de valeur de la politique

Explique la mise en œuvre de l'algorithme REINFORCE avec une ligne de base à l'aide d'un réseau de neurones.

Problème XOR : réseaux neuronaux

Se penche sur la résolution du problème XOR à l'aide d'un réseau neuronal à deux couches.

Acteur-Critique Architecture et Avantage-Acteur-Critique

Explore les réseaux acteur-critique et la méthode critique acteur avantage pour optimiser les paramètres pour maximiser le rendement.

Réseaux multicouches : les premiers pas

Couvre la préparation pour dériver l'algorithme Backprop dans des réseaux en couches en utilisant des perceptrons multicouches et la descente de gradient.