Publication

CPG-RL: Learning Central Pattern Generators for Quadruped Locomotion

Concepts associés (27)

Le réseau locomoteur spinal, ou central pattern generator (CPG) en anglais, est un réseau de neurones localisé dans la moelle spinale responsable de la locomotion. La particularité de ce réseau est qu’il peut fonctionner de manière autonome, indépendamment des commandes descendantes et des retours sensoriels . Après avoir été activé par le cortex moteur ou d'autres régions supraspinales telles que la région mésencéphalique locomotrice (MLR en anglais), ce réseau peut générer à lui seul l’activité locomotrice.

Multi-agent reinforcement learning

Multi-agent reinforcement learning (MARL) is a sub-field of reinforcement learning. It focuses on studying the behavior of multiple learning agents that coexist in a shared environment. Each agent is motivated by its own rewards, and does actions to advance its own interests; in some environments these interests are opposed to the interests of other agents, resulting in complex group dynamics. Multi-agent reinforcement learning is closely related to game theory and especially repeated games, as well as multi-agent systems.

Apprentissage par renforcement

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.

Proprioception

La proprioception (formé de proprio-, tiré du latin proprius, « propre », et de [ré]ception), ou sensibilité profonde, désigne la perception, consciente ou non, de la position des différentes parties du corps. Elle fonctionne grâce à de nombreux récepteurs musculaires et ligamentaires et aux voies et centres nerveux impliqués. La proprioception fait partie de la somesthésie. Le propriocepteur est le récepteur sensoriel qui assure la proprioception. La proprioception a été d'abord caractérisée chez les humains.

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

Reinforcement learning from human feedback

In machine learning, reinforcement learning from human feedback (RLHF) or reinforcement learning from human preferences is a technique that trains a "reward model" directly from human feedback and uses the model as a reward function to optimize an agent's policy using reinforcement learning (RL) through an optimization algorithm like Proximal Policy Optimization. The reward model is trained in advance to the policy being optimized to predict if a given output is good (high reward) or bad (low reward).

Oscillation

Une oscillation est un mouvement ou une fluctuation périodique autour d'une position d'équilibre stable. Les oscillations sont soit régulières (périodiques) soit décroissantes (amorties). Elles répondent aux mêmes équations quel que soit le domaine. Une oscillation est une "variation d'une grandeur mécanique, électrique, caractérisée par un changement périodique de sens". Le cycle d'une oscillation est le temps écoulé entre deux passages successifs par la position d'équilibre.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Q-learning

vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.

Équilibrioception

L'équilibrioception, ou sens de l'équilibre, désigne un sens physiologique. Il aide à prévenir et à anticiper toute chute chez les humains et animaux lorsqu'ils sont en équilibre. L'équilibre est réalisé grâce à plusieurs fonctions : les yeux (perception visuelle), les oreilles (système vestibulaire) et les autres sens spatiaux (proprioception) qui ont idéalement besoin d'être intacts. Le système vestibulaire s'associe au système visuel pour percevoir si un objet est en mouvement.

Agent intelligent

En intelligence artificielle, un agent intelligent (AI) est une entité autonome capable de percevoir son environnement grâce à des capteurs et aussi d'agir sur celui-ci via des effecteurs afin de réaliser des objectifs. Un agent intelligent peut également apprendre ou utiliser des connaissances pour pouvoir réaliser ses objectifs. Ils peuvent être simples ou complexes. Par exemple, un simple système réactif, comme le thermostat est considéré comme étant un agent intelligent.

Terrestrial locomotion

Terrestrial locomotion has evolved as animals adapted from aquatic to terrestrial environments. Locomotion on land raises different problems than that in water, with reduced friction being replaced by the increased effects of gravity. As viewed from evolutionary taxonomy, there are three basic forms of animal locomotion in the terrestrial environment: legged – moving by using appendages limbless locomotion – moving without legs, primarily using the body itself as a propulsive structure.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Google DeepMind

Google DeepMind est une entreprise spécialisée dans l'intelligence artificielle appartenant à Google. L'entreprise est remarquée notamment pour son programme de jeu de Go AlphaGo, et son logiciel AlphaFold, qui permet de prédire la structure des protéines à partir de leurs séquences en acides aminés. Originellement appelée DeepMind Technologies Limited et fondée en 2010 par Demis Hassabis, Mustafa Suleyman et Shane Legg, elle est rachetée le 26 janvier 2014, par Google pour plus de 628 millions de dollars américains.

Self-play

Self-play is a technique for improving the performance of reinforcement learning agents. Intuitively, agents learn to improve their performance by playing "against themselves". In multi-agent reinforcement learning experiments, researchers try to optimize the performance of a learning agent on a given task, in cooperation or competition with one or more agents. These agents learn by trial-and-error, and researchers may choose to have the learning algorithm play the role of two or more of the different agents.

Locomotion robotique

La locomotion robotique est le nom collectif des différentes méthodes que les robots utilisent pour se déplacer d'un endroit à l'autre. Les robots à roues sont généralement assez efficaces sur le plan énergétique et simples à contrôler. Toutefois, d'autres formes de locomotion peuvent être plus appropriées pour un certain nombre de raisons, par exemple pour traverser un terrain accidenté, ainsi que pour se déplacer et interagir dans des environnements humains.

Agent-based social simulation

Agent-based social simulation (or ABSS) consists of social simulations that are based on agent-based modeling, and implemented using artificial agent technologies. Agent-based social simulation is a scientific discipline concerned with simulation of social phenomena, using computer-based multiagent models. In these simulations, persons or group of persons are represented by agents. MABSS is a combination of social science, multiagent simulation and computer simulation.

Locomotion

En physiologie, la locomotion est la faculté, pour un organisme vivant, de se mouvoir pour se déplacer. Des contraintes sont exercées sur ces organismes suivant le milieu, terrestre, aérien ou aquatique, dans lesquels ils se meuvent. La fonction locomotrice se traduit par un ensemble de mouvements qui entraînent le déplacement de l'être vivant : la progression quadrupède, bipède et apode, dont la reptation, en milieu terrestre, diverses formes de nage et de propulsion en milieu aquatique (système de propulsion par réaction des calmars) et les vols planés ou battus en milieu aérien.

Formation réticulée

vignette|281x281px|Formation réticulée et posture La (ou ; également, en formatio reticularis) est une structure nerveuse du tronc cérébral à l'interface des systèmes autonome, moteur et sensitif. Elle a été mise en évidence la première fois en 1949 par et . Elle intervient dans la régulation de grandes fonctions vitales (comme les cycles veille-sommeil), le contrôle d'activités motrices réflexes ou stéréotypées, comme la marche ou le tonus postural et dans des fonctions cognitives telles que l'attention.

Oscillateur (électronique)

vignette|Un oscillateur intégré à quartz. Un oscillateur électronique est un circuit dont la fonction est de produire un signal électrique périodique, de forme sinusoïdale, carrée, en dents de scie, ou quelconque. L'oscillateur peut avoir une fréquence fixe ou variable. Il existe plusieurs types d'oscillateurs électroniques ; les principaux sont : oscillateurs à circuit LC et un étage amplificateur, HF le plus souvent ; oscillateurs à déphasage avec étage RC, qui délivrent des signaux sinusoïdaux : l'exemple-type est l'oscillateur à pont de Wien ; générateur de créneaux ; oscillateur à quartz, très stable et de haute précision grâce à des résonateurs à micro-onde ; ils sont utilisés dans les horloges atomiques.