Publication

Team Policy Learning For Multi-Agent Reinforcement Learning

Concepts associés (25)

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

Système multi-agents

En informatique, un système multi-agent (SMA) est un système composé d'un ensemble d'agents (un processus, un robot, un être humain, une fourmi etc.), actifs dans un certain environnement et interagissant selon certaines règles. Un agent est une entité caractérisée par le fait qu'elle est, au moins partiellement, autonome, ce qui exclut un pilotage centralisé du système global.

Q-learning

vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.

Agent intelligent

En intelligence artificielle, un agent intelligent (AI) est une entité autonome capable de percevoir son environnement grâce à des capteurs et aussi d'agir sur celui-ci via des effecteurs afin de réaliser des objectifs. Un agent intelligent peut également apprendre ou utiliser des connaissances pour pouvoir réaliser ses objectifs. Ils peuvent être simples ou complexes. Par exemple, un simple système réactif, comme le thermostat est considéré comme étant un agent intelligent.

Film interactif

Le film interactif est un genre de jeu vidéo, sous-genre du jeu d'aventure, dans lequel le jeu est essentiellement composé de scènes cinématiques et de scripts. Il est souvent réalisé en full motion video de prises de vue réelles ou de séquences animées, on parle alors de jeux en FMV. Les scènes peuvent être jouées par de vrais acteurs, parfois par le biais de capture de mouvement. Le premier film interactif est Kinoautomat (1967) réalisé par Radúz Činčera. Il est présenté à l'Exposition universelle de 1967 à Montréal.

Multijoueur

thumb|Jeu multijoueur. Un jeu vidéo multijoueur permet à plusieurs personnes de participer ensemble et simultanément à une même partie. Cette fonctionnalité peut se réaliser soit en partageant le matériel (exemple : un jeu multijoueur sur une console de salon qui divise l'écran en fonction du nombre de joueurs), soit en mode de jeu en réseau sur plusieurs plates-formes de jeu distinctes qui communiquent entre elles au travers d'un réseau informatique (soit entre particuliers en réseau local, soit sur un jeu en ligne via Internet).

Politique monétaire

La politique monétaire est la politique publique menée par l'autorité monétaire (en général, la banque centrale). Elle a souvent vocation à assurer la stabilité des prix, le plein-emploi ou encore la stabilité du taux de change. La politique monétaire exploite un certain nombre de canaux de transmission tels que le taux d'intérêt, le taux de change ou les valeurs boursières. Elle se distingue de la politique budgétaire. Ces deux politiques interagissent et forment ensemble le policy-mix.

Jeu de rôle en ligne massivement multijoueur

vignette|upright=1.4|Interface classique dans les MMORPG (ici un jeu en 2D isométrique) : la majorité de l'écran présente une vue du monde où évolue l'avatar du joueur, tandis que différentes fenêtres lui permettent d'interagir (icônes d'action, fenêtre de discussion, etc.) et décrivent son état (équipement, points de vie, de magie, d'expérience, de protection, description du groupe, etc.). — Capture d'écran du jeu Daimonin.

Jeu en ligne massivement multijoueur

vignette|Une image du jeu Daimonin Stoneglow. Le jeu en ligne massivement multijoueur (MMOG, de l'anglais massively multiplayer online game, parfois encore abrégé en MMO) est un genre de jeu vidéo faisant participer un très grand nombre de joueurs simultanément par le biais d'un réseau informatique ayant accès à Internet. Le jeu en ligne massivement multijoueur est un genre de jeu vidéo qui se définit traditionnellement par trois critères cumulatifs : l'univers n'est accessible que par un réseau ; l'univers est persistant, c'est-à-dire qu'il existe tout le temps, que des joueurs y soient connectés ou non ; l'univers est accessible à un très grand nombre de joueurs simultanément.

Commande optimale

La théorie de la commande optimale permet de déterminer la commande d'un système qui minimise (ou maximise) un critère de performance, éventuellement sous des contraintes pouvant porter sur la commande ou sur l'état du système. Cette théorie est une généralisation du calcul des variations. Elle comporte deux volets : le principe du maximum (ou du minimum, suivant la manière dont on définit l'hamiltonien) dû à Lev Pontriaguine et à ses collaborateurs de l'institut de mathématiques Steklov , et l'équation de Hamilton-Jacobi-Bellman, généralisation de l'équation de Hamilton-Jacobi, et conséquence directe de la programmation dynamique initiée aux États-Unis par Richard Bellman.

Fiction interactive

vignette|upright=1.3|La Cité des eaux, un jeu en mode texte (2006), joué sur un interpréteur moderne. Une fiction interactive désigne principalement les jeux informatiques représentés textuellement. Les termes aventure en mode texte ou aventure textuelle sont également fréquemment utilisés. Le jeu vidéo textuel est une modalité particulière de la fiction interactive et, historiquement, le terme dénote principalement les jeux vidéo qui réagissent aux commandes tapées par le joueur sur son clavier – jeux apparus avec l’arrivée de l’ordinateur personnel, au début des années 1970.

Machine à vecteurs de support

Les machines à vecteurs de support ou séparateurs à vaste marge (en anglais support-vector machine, SVM) sont un ensemble de techniques d'apprentissage supervisé destinées à résoudre des problèmes de discrimination et de régression. Les SVM sont une généralisation des classifieurs linéaires. Les séparateurs à vaste marge ont été développés dans les années 1990 à partir des considérations théoriques de Vladimir Vapnik sur le développement d'une théorie statistique de l'apprentissage : la théorie de Vapnik-Tchervonenkis.

Bandit manchot (mathématiques)

vignette|Une rangée de machines à sous à Las Vegas. En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot (généralisable en problème du bandit à K bras ou problème du bandit à N bras) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur.

Ziel

A goal or objective is an idea of the future or desired result that a person or a group of people envision, plan and commit to achieve. People endeavour to reach goals within a finite time by setting deadlines. A goal is roughly similar to a purpose or aim, the anticipated result which guides reaction, or an end, which is an object, either a physical object or an abstract object, that has intrinsic value. Goal setting Goal-setting theory was formulated based on empirical research and has been called one of the most important theories in organizational psychology.

Fonction d'erreur

thumb|right|upright=1.4|Construction de la fonction d'erreur réelle. En mathématiques, la fonction d'erreur (aussi appelée fonction d'erreur de Gauss) est une fonction entière utilisée en analyse. Cette fonction se note erf et fait partie des fonctions spéciales. Elle est définie par : La fonction erf intervient régulièrement dans le domaine des probabilités et statistiques, ainsi que dans les problèmes de diffusion (de la chaleur ou de la matière).

Algorithme génétique

Les algorithmes génétiques appartiennent à la famille des algorithmes évolutionnistes. Leur but est d'obtenir une solution approchée à un problème d'optimisation, lorsqu'il n'existe pas de méthode exacte (ou que la solution est inconnue) pour le résoudre en un temps raisonnable. Les algorithmes génétiques utilisent la notion de sélection naturelle et l'appliquent à une population de solutions potentielles au problème donné.

Équipe

Une équipe est un petit groupe d'individus partenaires dans un but commun. Temporaires ou permanentes, en mode hiérarchique ou en mode transverse, on peut distinguer : L'équipe de travail ; L'équipe de résolution de problème ou d'amélioration ; L'équipe autonome ; L'équipe transverse ; L'équipe virtuelle ; L'équipe mananagériale (conseil d'administration, équipe ou comité de direction, etc.) L'équipe de gestion de projet.

Algorithme

thumb|Algorithme de découpe d'un polygone quelconque en triangles (triangulation). Un algorithme est une suite finie et non ambiguë d'instructions et d’opérations permettant de résoudre une classe de problèmes. Le domaine qui étudie les algorithmes est appelé l'algorithmique. On retrouve aujourd'hui des algorithmes dans de nombreuses applications telles que le fonctionnement des ordinateurs, la cryptographie, le routage d'informations, la planification et l'utilisation optimale des ressources, le , le traitement de textes, la bio-informatique L' algorithme peut être mis en forme de façon graphique dans un algorigramme ou organigramme de programmation.

Fonction gamma

En mathématiques, la fonction gamma (notée par Γ la lettre grecque majuscule gamma de l'alphabet grec) est une fonction utilisée communément, qui prolonge de la fonction factorielle à l'ensemble des nombres complexes. En ce sens, il s'agit une fonction complexe. Elle est considérée également comme une fonction spéciale. La fonction gamma est défini pour tous les nombres complexes, à l'exception des entiers négatifs. On a pour tout entier strictement positif, où est la factorielle de , c'est-à-dire le produit des entiers entre 1 et : .