Explore la relation entre la fluctuation des valeurs Q dans le SARSA et l'équation de Bellman par le biais des attentes et de la constance des politiques.
Explore la programmation dynamique pour un contrôle optimal, en se concentrant sur la stabilité, la politique stationnaire et les solutions récursives.
Explore l'exposition cachée des chaînes d'approvisionnement américaines aux fournisseurs étrangers et l'importance de simplifier les réalités complexes au moyen de modèles mentaux.
Examine les impacts négatifs involontaires de la technologie dans le développement durable, en abordant les défis et les conséquences dans les pays du Sud.
Couvre les méthodes de prédiction sans modèle dans l'apprentissage par renforcement, en se concentrant sur Monte Carlo et les différences temporelles pour estimer les fonctions de valeur sans connaissance de la dynamique de transition.
Couvre l'analyse des réponses de la politique monétaire à l'accumulation de la dette publique et comprend un projet sur l'évaluation des politiques alternatives.