Publication

Deep Reinforcement Learning for room temperature control: a black-box pipeline from data to policies

Concepts associés (32)

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.

Économies d'énergie

Les économies d'énergie sont les gains obtenus en réduisant la consommation d'énergie ou les pertes sur l'énergie produite. Les économies d'énergie sont devenues un objectif important des pays fortement consommateurs d'énergie vers la fin du , notamment après le choc pétrolier de 1973 puis à partir des années 1990, afin de répondre à plusieurs inquiétudes : la crainte d'un épuisement des ressources naturelles, particulièrement des combustibles fossiles ; le réchauffement climatique résultant des émissions de gaz à effet de serre ; les problèmes politiques et de sécurité d'approvisionnement dus à l'inégale répartition des ressources sur la planète ; le coût de l'énergie que la combinaison de ces phénomènes peut faire augmenter.

Stratégie de régulation

Une stratégie (ou topologie) de régulation est, pour un procédé industriel, l'organisation du système de contrôle-commande en vue de maintenir une grandeur physique dans une plage de tolérance donnée. Le choix de stratégie est très important dans les industries de transformation (par exemple les industries chimiques, papetières, agroalimentaires) en raison de la variabilité d'un nombre élevé de grandeurs physiques incidentes (dites « perturbations ») qui y sont présentes.

Multi-agent reinforcement learning

Multi-agent reinforcement learning (MARL) is a sub-field of reinforcement learning. It focuses on studying the behavior of multiple learning agents that coexist in a shared environment. Each agent is motivated by its own rewards, and does actions to advance its own interests; in some environments these interests are opposed to the interests of other agents, resulting in complex group dynamics. Multi-agent reinforcement learning is closely related to game theory and especially repeated games, as well as multi-agent systems.

Reinforcement learning from human feedback

In machine learning, reinforcement learning from human feedback (RLHF) or reinforcement learning from human preferences is a technique that trains a "reward model" directly from human feedback and uses the model as a reward function to optimize an agent's policy using reinforcement learning (RL) through an optimization algorithm like Proximal Policy Optimization. The reward model is trained in advance to the policy being optimized to predict if a given output is good (high reward) or bad (low reward).

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

OpenAI

OpenAI (« AI » pour artificial intelligence, ou intelligence artificielle) est une entreprise spécialisée dans le raisonnement artificiel, à « but lucratif plafonné », dont le siège social est à San Francisco. Avant , elle est reconnue association à but non lucratif. L'objectif de cette société est de promouvoir et de développer un raisonnement artificiel à visage humain qui profitera à toute l'humanité.

Efficacité énergétique (économie)

En économie, l’efficacité énergétique ou efficience énergétique désigne l'état de fonctionnement d'un système pour lequel la consommation d’énergie est minimisée pour un service rendu identique. C'est un cas particulier de la notion d’efficience. Elle concerne notamment les transports motorisés, les métiers du bâtiment et l'industrie (ces derniers étant responsables respectivement d'environ 40 % et 25 % de la consommation énergétique totale de l'Union européenne).

Supervision (informatique)

La supervision est une technique industrielle de suivi et de pilotage informatique de procédés de fabrication automatisés. La supervision concerne l'acquisition de données (mesures, alarmes, retour d'état de fonctionnement) et des paramètres de commande des processus généralement confiés à des automates programmables. Dans l'informatique, la supervision est la surveillance du bon fonctionnement d’un système ou d’une activité. À ne pas confondre avec l'hypervision, qui elle correspond à la centralisation des outils de supervision, d’infrastructure, d'applications et de référentiels (ex.

Energy consumption

Energy consumption is the amount of energy used. In the body, energy consumption is part of energy homeostasis. It derived from food energy. Energy consumption in the body is a product of the basal metabolic rate and the physical activity level. The physical activity level are defined for a non-pregnant, non-lactating adult as that person's total energy expenditure (TEE) in a 24-hour period, divided by his or her basal metabolic rate (BMR): Topics related to energy consumption in a demographic sense are: Wo

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Google DeepMind

Google DeepMind est une entreprise spécialisée dans l'intelligence artificielle appartenant à Google. L'entreprise est remarquée notamment pour son programme de jeu de Go AlphaGo, et son logiciel AlphaFold, qui permet de prédire la structure des protéines à partir de leurs séquences en acides aminés. Originellement appelée DeepMind Technologies Limited et fondée en 2010 par Demis Hassabis, Mustafa Suleyman et Shane Legg, elle est rachetée le 26 janvier 2014, par Google pour plus de 628 millions de dollars américains.

Q-learning

vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.

Automatique

L’automatique est une science qui traite de la modélisation, de l’analyse, de l’identification et de la commande des systèmes dynamiques. Elle inclut la cybernétique au sens étymologique du terme, et a pour fondements théoriques les mathématiques, la théorie du signal et l’informatique théorique. L’automatique permet de commander un système en respectant un cahier des charges (rapidité, précision, stabilité...). Les professionnels en automatique se nomment automaticiens.

Simulation de phénomènes

La simulation de phénomènes est un outil utilisé dans le domaine de la recherche et du développement. Elle permet d'étudier les réactions d'un système à différentes contraintes pour en déduire les résultats recherchés en se passant d'expérimentation. Les systèmes technologiques (infrastructures, véhicules, réseaux de communication, de transport ou d'énergie) sont soumis à différentes contraintes et actions. Le moyen le plus simple d'étudier leurs réactions serait d'expérimenter, c'est-à-dire d'exercer l'action souhaitée sur l'élément en cause pour observer ou mesurer le résultat.

Self-play

Self-play is a technique for improving the performance of reinforcement learning agents. Intuitively, agents learn to improve their performance by playing "against themselves". In multi-agent reinforcement learning experiments, researchers try to optimize the performance of a learning agent on a given task, in cooperation or competition with one or more agents. These agents learn by trial-and-error, and researchers may choose to have the learning algorithm play the role of two or more of the different agents.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Energy Saving Trust

Energy Saving Trust is a British organization devoted to promoting energy efficiency, energy conservation, and the sustainable use of energy, thereby reducing carbon dioxide emissions and helping to prevent man-made climate change. It was founded in the United Kingdom as a government-sponsored initiative in 1992, following the global Earth Summit. Energy Saving Trust is no longer public funded and is a profit for purpose company. Energy Saving Trust has regional offices in England, Wales, Northern Ireland, and Scotland and runs numerous energy advice services in the UK.

Immotique

L'Immotique est un néologisme formé à partir du mot immeuble et du suffixe -tique, qui connote l'informatique et l'électronique voire l'automatique etc. Comme la domotique, ce domaine est issu de la réunion de l'électronique, de l'informatique et des télécommunications. Autant que possible et théoriquement, l'immotique est un service et une somme de processus qui devraient être rendu de manière transparente ou discrète, fiable et non-intrusive pour les usagers et visiteurs d'un bâtiment.

Incitation économique

On appelle incitation économique (aussi souvent improprement désignée en Français par son équivalent anglais incentive) toute mesure spécifique de politique économique non-obligatoire, cherchant à obtenir des agents qu'elle vise un comportement déterminé, non souhaité par eux, ou qu'ils n'ont pas idée d'adopter au moins au départ, en échange d'un ou plusieurs avantages déterminés. La notion peut alors se concevoir sous différentes formes selon le contexte (économique, commercial...