Apprentissage par renforcement profondL'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.
Q-learningvignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.
Intelligence animalethumb|right|300px|Une comparaison du cerveau de différents mammifères. « Intelligence animale » est une expression renvoyant aux capacités cognitives des animaux et à leur étude. Le sujet a donné lieu à de nombreux travaux dont les résultats offrent non seulement une meilleure compréhension du monde animal mais aussi, par extension, des pistes pour l’étude de l'intelligence humaine. Différents groupes d'espèces se démarquent par leurs aptitudes intellectuelles lors des recherches sur l'éthologie cognitive.
ApprentissageL’apprentissage est un ensemble de mécanismes menant à l'acquisition de savoir-faire, de savoirs ou de connaissances. L'acteur de l'apprentissage est appelé apprenant. On peut opposer l'apprentissage à l'enseignement dont le but est de dispenser des connaissances et savoirs, l'acteur de l'enseignement étant l'enseignant.
Apprentissage par renforcementEn intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.
Lignée pureUne lignée pure est une population qui produit, par croisements ou autofécondation, des descendants toujours semblables entre eux, ainsi qu’aux géniteurs, pour une caractéristique donnée. Tous les individus sont ainsi génétiquement identiques et homozygotes pour ces caractères en raison d'une consanguinité prolongée. Tous les individus d'une lignée pure ont un génotype aussi identique.
Mémoire à long termeEn psychologie cognitive, la mémoire à long terme (MLT) est la mémoire qui permet de retenir, de manière illimitée, une information sur des périodes de temps très longues (années). La notion de MLT est un concept utilisé dans les modèles de mémoire qui distinguent plusieurs sous-systèmes en fonction du type d'information mémorisé et de la durée de rétention. La mémoire à long terme s'oppose ainsi au registre sensoriel (ou mémoire sensorielle), à la mémoire à court terme et à la mémoire de travail.
Observational learningObservational learning is learning that occurs through observing the behavior of others. It is a form of social learning which takes various forms, based on various processes. In humans, this form of learning seems to not need reinforcement to occur, but instead, requires a social model such as a parent, sibling, friend, or teacher with surroundings. Particularly in childhood, a model is someone of authority or higher status in an environment.
Mémoire à court termeLa mémoire à court terme (MCT) désigne en psychologie le type de mémoire qui permet de retenir et de réutiliser une quantité limitée d'informations pendant un temps relativement court, environ une demi-minute. Un grand nombre de recherches en psychologie cognitive ont cherché à déterminer les caractéristiques (capacité, durée, fonctionnement) et le rôle de la mémoire à court terme dans la cognition. Le concept de mémoire à court terme est assez ancien en psychologie scientifique.
Learning rateIn machine learning and statistics, the learning rate is a tuning parameter in an optimization algorithm that determines the step size at each iteration while moving toward a minimum of a loss function. Since it influences to what extent newly acquired information overrides old information, it metaphorically represents the speed at which a machine learning model "learns". In the adaptive control literature, the learning rate is commonly referred to as gain. In setting a learning rate, there is a trade-off between the rate of convergence and overshooting.
Méta-analyseUne méta-analyse est une méthode scientifique systématique combinant les résultats d'une série d'études indépendantes sur un problème donné, selon un protocole reproductible. Plus spécifiquement, il s'agit d'une synthèse statistique des études incluses dans une revue systématique. La méta-analyse permet une analyse plus précise des données par l'augmentation du nombre de cas étudiés et de tirer une conclusion globale. La méta-analyse fait partie des méthodes d'analyse dites secondaires en ce sens qu'elles s'appuient sur la ré-exploitation de données existantes.
Potentialisation à long termevignette|300x300px|La potentialisation à Long terme (PLT) est une augmentation persistante de la force synaptique après stimulation à haute fréquence d'une synapse chimique. Des études de la PLT sont souvent réalisées dans des parties de l'hippocampe, un organe important pour l'apprentissage et la mémoire. Dans ces études, les enregistrements électriques sont obtenus à partir de cellules et tracés dans un graphique comme celui-ci. Ce graphique compare la réponse à des stimuli au niveau des synapses qui ont subi PLT contre les synapses qui n'ont pas subi la PLT.
Mémoire spatialevignette|La mémoire spatiale est nécessaire pour naviguer dans un environnement. La mémoire spatiale est la partie de la mémoire d'un individu responsable de l'enregistrement des informations concernant l'espace environnant et l'orientation spatiale de l'individu dans celui-ci. La mémoire spatiale est ainsi requise pour la navigation spatiale dans un lieu connu, comme dans un quartier familier. Elle est étudiée en neuroscience (chez le rat) et en psychologie cognitive (chez l'homme).
Souris de laboratoirethumb|upright=1.2|Souris blanches (variété albinos souvent utilisée par les laboratoires). L'expression « souris de laboratoire » désigne un rongeur sentient utilisé dans le cadre de recherches scientifiques ou de tests biologiques, par exemple allergologiques ou cancérologiques. Les laboratoires utilisent également l’expression « modèle murin ». Les souris communes (Mus musculus) ont été et continuent à être beaucoup utilisées comme organismes modèles en biologie, par exemple en génétique, en embryologie, en oncologie, en pharmacologie ou en toxicologie.
StressLe stress (de l'anglais stress ) est, en biologie, l'ensemble des réactions d'un organisme soumis à des pressions ou contraintes de l'environnement, les . Ces réactions dépendent toujours de la perception qu'a l'individu des pressions qu'il ressent. Selon la définition médicale, il s'agit d'une séquence complexe de situations provoquant des réactions physiologiques, psychosomatiques. Par extension tous ces incidents sont également qualifiés de stress. Dans le langage courant, on parle de stress positif (eustress en anglais) ou négatif (distress).
Long short-term memoryLong short-term memory (LSTM) network is a recurrent neural network (RNN), aimed to deal with the vanishing gradient problem present in traditional RNNs. Its relative insensitivity to gap length is its advantage over other RNNs, hidden Markov models and other sequence learning methods. It aims to provide a short-term memory for RNN that can last thousands of timesteps, thus "long short-term memory".
Signification statistiquevignette|statistique En statistiques, le résultat d'études qui portent sur des échantillons de population est dit statistiquement significatif lorsqu'il semble exprimer de façon fiable un fait auquel on s'intéresse, par exemple la différence entre 2 groupes ou une corrélation entre 2 données. Dit autrement, il est alors très peu probable que ce résultat apparent soit en fait trompeur s'il n'est pas dû, par exemple, à un , trop petit ou autrement non représentatif (surtout si la population est très diverse).
Mémoire (psychologie)thumb|350px|Les formes et fonctions de la mémoire en sciences. En psychologie, la mémoire est la faculté de l'esprit d'enregistrer, conserver et rappeler les expériences passées. Son investigation est réalisée par différentes disciplines : psychologie cognitive, neuropsychologie, et psychanalyse. thumb|Pyramide des cinq systèmes de mémoire. Le courant cognitiviste classique regroupe habituellement sous le terme de mémoire les processus dencodage, de stockage et de récupération des représentations mentales.
Génie génétiqueLe génie génétique est l'ensemble des outils permettant de modifier la constitution génétique d'un organisme en supprimant, en introduisant ou en remplaçant de l'ADN. Celui-ci peut être introduit directement dans les cellules de l'organisme hôte ou dans des cellules cultivées ex vivo puis réintroduites dans l'organisme. Un prérequis au développement du génie génétique a été la mise au point de techniques recombinantes d'acide nucléique pour former de nouvelles combinaisons de matériel génétique héritable suivies de l'incorporation de ce matériel soit indirectement à travers un système vecteur ou directement par microinjection, macroinjection ou microencapsulation.
Apprentissage automatiqueL'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.