Discute des processus décisionnels de Markov et des techniques de programmation dynamique pour résoudre des politiques optimales dans divers scénarios.
Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.
Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.
Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.
Explore le problème du mariage, modélisant le processus comme un processus stochastique contrôlé avec des algorithmes de programmation dynamiques pour trouver la politique optimale pour accepter les célibataires.
Couvre les concepts clés de l'apprentissage par renforcement, des réseaux neuronaux, du clustering et de l'apprentissage non supervisé, en mettant l'accent sur leurs applications et leurs défis.
S'insère dans les stratégies de marketing tactique, les états de revenus, les décisions de tarification et l'influence du marketing numérique et du contenu généré par les utilisateurs.
Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.
Couvre la probabilité appliquée, les processus stochastiques, les chaînes de Markov, l'échantillonnage de rejet et les méthodes d'inférence bayésienne.
Explore les éléments de stratégie marketing de base, la segmentation, le positionnement et les approches axées sur le client pour lancer de nouvelles entreprises.