Explore les agents réactifs et les processus décisionnels, couvrant des sujets tels que les processus décisionnels de Markov et les agents en temps réel.
Explore la synthèse de boucliers pour l'exécution dans les systèmes réactifs, assurant un comportement correct avec une déviation minimale, illustré avec des exemples comme les contrôleurs de feux de circulation et Pac-Man.
Explore les distributions invariantes, les états récurrents et la convergence dans les chaînes de Markov, y compris des applications pratiques telles que PageRank dans Google.
Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Explore l'évaluation de la fiabilité, la maintenance préventive, la fiabilité, les modèles Markov, FMEA, FTA et l'intégrité de la sécurité logicielle dans l'automatisation industrielle.
Explore les chaînes de Markov, leurs propriétés et leurs applications algorithmiques, en mettant l'accent sur la quantification de l'information et la monotonie des états.
Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.
Explore la découverte primée du prix Nobel des méthodes de réplique et de cavité dans des systèmes complexes, en se concentrant sur le modèle d'énergie aléatoire et l'application de la théorie des probabilités.