Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Processus de décision markovienEn théorie de la décision et de la théorie des probabilités, un processus de décision markovien (en anglais Markov decision process, MDP) est un modèle stochastique où un agent prend des décisions et où les résultats de ses actions sont aléatoires. Les MDPs sont utilisés pour étudier des problèmes d'optimisation à l'aide d'algorithmes de programmation dynamique ou d'apprentissage par renforcement. Les MDPs sont connus depuis les années 1950. Une grande contribution provient du travail de Ronald A.
Mémoire (psychologie)thumb|350px|Les formes et fonctions de la mémoire en sciences. En psychologie, la mémoire est la faculté de l'esprit d'enregistrer, conserver et rappeler les expériences passées. Son investigation est réalisée par différentes disciplines : psychologie cognitive, neuropsychologie, et psychanalyse. thumb|Pyramide des cinq systèmes de mémoire. Le courant cognitiviste classique regroupe habituellement sous le terme de mémoire les processus dencodage, de stockage et de récupération des représentations mentales.
Apprentissage automatiqueL'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.
Memory consolidationMemory consolidation is a category of processes that stabilize a memory trace after its initial acquisition. A memory trace is a change in the nervous system caused by memorizing something. Consolidation is distinguished into two specific processes. The first, synaptic consolidation, which is thought to correspond to late-phase long-term potentiation, occurs on a small scale in the synaptic connections and neural circuits within the first few hours after learning.
Faux souvenirsthumb|upright=1.5|Mémoire retrouvée (Recovered Memory), une sculpture de Nicola Hicks sur le thème de la mémoire retrouvée. Un est un phénomène psychologique qui se produit lorsqu'une personne se remémore un événement qui, en fait, n'a pas eu lieu. Les observations ou les hypothèses sur l'existence de faux souvenirs remontent aux débuts de la psychanalyse et de la psychologie clinique ; on les retrouve dans les écrits de Sigmund Freud et Pierre Janet.
Incitation économiqueOn appelle incitation économique (aussi souvent improprement désignée en Français par son équivalent anglais incentive) toute mesure spécifique de politique économique non-obligatoire, cherchant à obtenir des agents qu'elle vise un comportement déterminé, non souhaité par eux, ou qu'ils n'ont pas idée d'adopter au moins au départ, en échange d'un ou plusieurs avantages déterminés. La notion peut alors se concevoir sous différentes formes selon le contexte (économique, commercial...
Apprentissage par renforcement profondL'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.
Prise de décisionvignette|Lorsqu'il s'agit de prendre une décision, il est bon de savoir que des situations différentes nécessitent une approche différente. Il n'y a pas de façon unique de penser/d'agir. la plupart du temps, nous errons dans l'espace du désordre, sans savoir ce qui se passe, sans savoir comment agir. Dans ce cas, nous avons tendance à entrer dans l'espace avec lequel nous nous sentons le plus à l'aise et à commencer à agir. Lorsque vous avez trouvé le Saint Graal, la solution unique pour chaque problème, vous feriez mieux de faire attention.
Arbre de décisionvignette| Arbre de décision Un arbre de décision est un outil d'aide à la décision représentant un ensemble de choix sous la forme graphique d'un arbre. Les différentes décisions possibles sont situées aux extrémités des branches (les « feuilles » de l'arbre), et sont atteintes en fonction de décisions prises à chaque étape. L'arbre de décision est un outil utilisé dans des domaines variés tels que la sécurité, la fouille de données, la médecine, etc. Il a l'avantage d'être lisible et rapide à exécuter.
Heuristique de jugementLes heuristiques de jugement, concept fréquemment employé dans le domaine de la cognition sociale, sont des opérations mentales automatiques, intuitives et rapides pouvant être statistiques ou non statistiques. Ces raccourcis cognitifs sont utilisés par les individus afin de simplifier leurs opérations mentales dans le but de répondre aux exigences de l’environnement. Par exemple, les gens ont tendance à estimer le temps mis pour trouver un emploi en fonction de la facilité avec laquelle ils peuvent penser à des individus qui ont récemment été engagés, et non selon le temps moyen de recherche dans la population.
Théorie du choix rationnelLa théorie du choix rationnel (en anglais « rational choice theory », prononcé 'ræʃənl tʃɔɪs thēərē), ou « décision rationnelle », en microéconomie contemporaine, regroupe plusieurs théories de l'action qui, de manière générale, attribuent aux agents un comportement rationnel, lequel, en raison de préférences, dénote une recherche du plus grand profit pour le moindre mal. Elles ont été développées en économie (où elles constituent un paradigme dominant), en sociologie (où elles sont en concurrence avec d'autres paradigmes) et en psychologie, notamment en criminologie.
Suite (mathématiques)vignette|Exemple de suite : les points bleus représentent ses termes. En mathématiques, une suite est une famille d'éléments — appelés ses « termes » — indexée par les entiers naturels. Une suite finie est une famille indexée par les entiers strictement positifs inférieurs ou égaux à un certain entier, ce dernier étant appelé « longueur » de la suite. Lorsque tous les éléments d'une suite (infinie) appartiennent à un même ensemble , cette suite peut être assimilée à une application de dans .
Decision intelligenceDecision intelligence is an engineering discipline that augments data science with theory from social science, decision theory, and managerial science. Its application provides a framework for best practices in organizational decision-making and processes for applying machine learning at scale. The basic idea is that decisions are based on our understanding of how actions lead to outcomes. Decision intelligence is a discipline for analyzing this chain of cause and effect, and decision modeling is a visual language for representing these chains.
Espace séquentielEn mathématiques, un espace séquentiel est un espace topologique dont la topologie est définie par l'ensemble de ses suites convergentes. C'est le cas en particulier pour tout espace à base dénombrable. Soit X un espace topologique. Un sous-ensemble U de X est dit « séquentiellement ouvert » si toute suite (xn) de X qui converge vers un point de U « appartient à U à partir d'un certain rang ». Un sous-ensemble F de X est dit « séquentiellement fermé » si la convergence d'une suite (xn) de F vers x implique que x appartient à F.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Mathématiques discrètesLes mathématiques discrètes, parfois appelées mathématiques finies, sont l'étude des structures mathématiques fondamentalement discrètes, par opposition aux structures continues. Contrairement aux nombres réels, qui ont la propriété de varier "en douceur", les objets étudiés en mathématiques discrètes (tels que les entiers relatifs, les graphes simples et les énoncés en logique) ne varient pas de cette façon, mais ont des valeurs distinctes séparées.
Incentive programAn incentive program is a formal scheme used to promote or encourage specific actions or behavior by a specific group of people during a defined period of time. Incentive programs are particularly used in business management to motivate employees and in sales to attract and retain customers. Scientific literature also refers to this concept as pay for performance. Motivation Employee incentive programs are programs used to increase overall employee performance.
Diagramme d'influenceUn diagramme d'influence (DI) (également appelé schéma de pertinence, diagramme de décision ou réseau de décision) est une représentation graphique et mathématique compacte d'une situation de décision. Il s'agit d'une généralisation d'un réseau bayésien, dans lequel non seulement les problèmes d'inférence probabiliste, mais aussi les problèmes de prise de décision (ex : critère d'utilité maximale attendue) peuvent être modélisés et résolus.
Bellman equationA Bellman equation, named after Richard E. Bellman, is a necessary condition for optimality associated with the mathematical optimization method known as dynamic programming. It writes the "value" of a decision problem at a certain point in time in terms of the payoff from some initial choices and the "value" of the remaining decision problem that results from those initial choices. This breaks a dynamic optimization problem into a sequence of simpler subproblems, as Bellman's “principle of optimality" prescribes.