Séance de cours
Cette séance de cours présente le concept de gradients de politiques, en expliquant comment les actions sont associées aux observations pour optimiser les récompenses de manière paramétrique en utilisant une méthode de gradient, en la comparant à Q-learning.