Publication

Leveraging Continuous Time to Understand Momentum When Training Diagonal Linear Networks

Concepts associés (24)

L'algorithme du gradient stochastique est une méthode de descente de gradient (itérative) utilisée pour la minimisation d'une fonction objectif qui est écrite comme une somme de fonctions différentiables. À la fois l'estimation statistique et l'apprentissage automatique s'intéressent au problème de la minimisation d'une fonction objectif qui a la forme d'une somme : où le paramètre qui minimise doit être estimé. Chacune des fonctions est généralement associée avec la -ème observation de l'ensemble des données (utilisées pour l'apprentissage).

Algorithme du gradient

Lalgorithme du gradient, aussi appelé algorithme de descente de gradient, désigne un algorithme d'optimisation différentiable. Il est par conséquent destiné à minimiser une fonction réelle différentiable définie sur un espace euclidien (par exemple, , l'espace des n-uplets de nombres réels, muni d'un produit scalaire) ou, plus généralement, sur un espace hilbertien. L'algorithme est itératif et procède donc par améliorations successives. Au point courant, un déplacement est effectué dans la direction opposée au gradient, de manière à faire décroître la fonction.

Réseau de neurones récurrents

Un réseau de neurones récurrents (RNN pour recurrent neural network en anglais) est un réseau de neurones artificiels présentant des connexions récurrentes. Un réseau de neurones récurrents est constitué d'unités (neurones) interconnectées interagissant non-linéairement et pour lequel il existe au moins un cycle dans la structure. Les unités sont reliées par des arcs (synapses) qui possèdent un poids. La sortie d'un neurone est une combinaison non linéaire de ses entrées.

Rétropropagation du gradient

En intelligence artificielle, plus précisément en apprentissage automatique, la rétropropagation du gradient est une méthode pour entraîner un réseau de neurones. Elle consiste à mettre à jour les poids de chaque neurone de la dernière couche vers la première. Elle vise à corriger les erreurs selon l'importance de la contribution de chaque élément à celles-ci. Dans le cas des réseaux de neurones, les poids synaptiques qui contribuent plus à une erreur seront modifiés de manière plus importante que les poids qui provoquent une erreur marginale.

Moment cinétique

En mécanique classique, le moment cinétique (ou moment angulaire par anglicisme) d'un point matériel M par rapport à un point O est le moment de la quantité de mouvement par rapport au point O, c'est-à-dire le produit vectoriel : Le moment cinétique d'un système matériel est la somme des moments cinétiques (par rapport au même point O) des points matériels constituant le système : Cette grandeur, considérée dans un référentiel galiléen, dépend du choix de l'origine O, par suite, il n'est pas possible de com

Fonction softmax

vignette|Fonction softmax utilisée après un CNN (Réseau neuronal convolutif). Ici le vecteur (35.4, 38.1, -5.0) est transformée en (0.06, 0.94, 0.00). Dans ce contexte de classification d'images, le chien est reconnu. En mathématiques, la fonction softmax, aussi appelée fonction softargmax ou fonction exponentielle normalisée, est une généralisation de la fonction logistique. Elle convertit un vecteur de K nombres réels en une distribution de probabilités sur K choix.

Learning rate

In machine learning and statistics, the learning rate is a tuning parameter in an optimization algorithm that determines the step size at each iteration while moving toward a minimum of a loss function. Since it influences to what extent newly acquired information overrides old information, it metaphorically represents the speed at which a machine learning model "learns". In the adaptive control literature, the learning rate is commonly referred to as gain. In setting a learning rate, there is a trade-off between the rate of convergence and overshooting.

Attention (machine learning)

Machine learning-based attention is a mechanism mimicking cognitive attention. It calculates "soft" weights for each word, more precisely for its embedding, in the context window. It can do it either in parallel (such as in transformers) or sequentially (such as recursive neural networks). "Soft" weights can change during each runtime, in contrast to "hard" weights, which are (pre-)trained and fine-tuned and remain frozen afterwards. Multiple attention heads are used in transformer-based large language models.

Accélération

L'accélération est une grandeur physique vectorielle, appelée de façon plus précise « vecteur accélération », utilisée en cinématique pour représenter la modification affectant la vitesse d'un mouvement en fonction du temps. La norme (l'intensité) de ce vecteur est appelée simplement « accélération » sans autre qualificatif. Dans le langage courant, l'accélération s'oppose à la décélération (mathématiquement, une accélération négative) et indique l'augmentation de la vitesse ou de la fréquence d'évolution d'un processus quelconque, par exemple l'accélération de la fréquence cardiaque ou celle d'une suite de situations.

Quantité de mouvement

En physique, la quantité de mouvement est le produit de la masse par le vecteur vitesse d'un corps matériel supposé ponctuel. Il s'agit donc d'une grandeur vectorielle, définie par , qui dépend du référentiel d'étude. Par additivité, il est possible de définir la quantité de mouvement d'un corps non ponctuel (ou système matériel), dont il est possible de démontrer qu'elle est égale à la quantité de mouvement de son centre d'inertie affecté de la masse totale du système, soit (C étant le centre d'inertie du système).

Boltzmann machine

A Boltzmann machine (also called Sherrington–Kirkpatrick model with external field or stochastic Ising–Lenz–Little model) is a stochastic spin-glass model with an external field, i.e., a Sherrington–Kirkpatrick model, that is a stochastic Ising model. It is a statistical physics technique applied in the context of cognitive science. It is also classified as a Markov random field. Boltzmann machines are theoretically intriguing because of the locality and Hebbian nature of their training algorithm (being trained by Hebb's rule), and because of their parallelism and the resemblance of their dynamics to simple physical processes.

Quadri-moment

En relativité restreinte, le quadri-moment (ou quadrivecteur impulsion ou quadri-impulsion ou quadrivecteur impulsion-énergie ou quadrivecteur énergie-impulsion) est une généralisation du moment linéaire tridimensionnel de la physique classique sous la forme d'un quadrivecteur de l'espace de Minkowski, espace-temps à 4 dimensions de la relativité restreinte. Le quadri-moment d'une particule combine le moment tridimensionnel et d'énergie : Comme tout quadrivecteur, il est covariant, c'est-à-dire que les changements de ses coordonnées lors d'un changement de référentiel inertiel se calculent à l'aide des transformations de Lorentz.

Hyperparamètre

Dans l'apprentissage automatique, un hyperparamètre est un paramètre dont la valeur est utilisée pour contrôler le processus d'apprentissage. En revanche, les valeurs des autres paramètres (généralement la pondération de nœuds) sont obtenues par apprentissage. Les hyperparamètres peuvent être classifiés comme étant des hyperparamètres de modèle, qui ne peuvent pas être déduits en ajustant la machine à l'ensemble d'entraînement parce qu'ils s'appliquent à la tâche de la sélection du modèle, ou des hyperparamètres d'algorithmes, qui en principe n'ont aucune influence sur la performance du modèle mais affectent la rapidité et la qualité du processus d'apprentissage.

Équation du mouvement

L'équation du mouvement est une équation mathématique décrivant le mouvement d'un objet physique. En général, l'équation du mouvement comprend l'accélération de l’objet en fonction de sa position, de sa vitesse, de sa masse et de toutes variables affectant l'une de celles-ci. Cette équation est surtout utilisée en mécanique classique et est normalement représentée sous la forme de coordonnées sphériques, coordonnées cylindriques ou coordonnées cartésiennes et respecte les lois du mouvement de Newton.

Optimisation (mathématiques)

L'optimisation est une branche des mathématiques cherchant à modéliser, à analyser et à résoudre analytiquement ou numériquement les problèmes qui consistent à minimiser ou maximiser une fonction sur un ensemble. L’optimisation joue un rôle important en recherche opérationnelle (domaine à la frontière entre l'informatique, les mathématiques et l'économie), dans les mathématiques appliquées (fondamentales pour l'industrie et l'ingénierie), en analyse et en analyse numérique, en statistique pour l’estimation du maximum de vraisemblance d’une distribution, pour la recherche de stratégies dans le cadre de la théorie des jeux, ou encore en théorie du contrôle et de la commande.

Réseau de neurones artificiels

Un réseau de neurones artificiels, ou réseau neuronal artificiel, est un système dont la conception est à l'origine schématiquement inspirée du fonctionnement des neurones biologiques, et qui par la suite s'est rapproché des méthodes statistiques. Les réseaux de neurones sont généralement optimisés par des méthodes d'apprentissage de type probabiliste, en particulier bayésien.

Force centrifuge

La force centrifuge, nom courant de l'effet centrifuge, est une force parfois qualifiée de fictive qui apparaît en physique dans le contexte de l'étude du mouvement des objets dans des référentiels non inertiels. L'effet ressenti, modélisé par cette force, est dû à l'inertie des corps face aux mouvements de rotation de ces référentiels et se traduit par une tendance à éloigner les corps de leur centre de rotation. Un exemple en est la sensation d'éjection que ressent un voyageur dans un véhicule qui effectue un virage.

Energy–momentum relation

In physics, the energy–momentum relation, or relativistic dispersion relation, is the relativistic equation relating total energy (which is also called relativistic energy) to invariant mass (which is also called rest mass) and momentum. It is the extension of mass–energy equivalence for bodies or systems with non-zero momentum. It can be written as the following equation: This equation holds for a body or system, such as one or more particles, with total energy E, invariant mass m0, and momentum of magnitude p; the constant c is the speed of light.

Référentiel barycentrique

En physique, le référentiel barycentrique, appelé aussi référentiel du centre de masse, est un référentiel en translation (par rapport à un référentiel galiléen de référence) dans lequel le centre d'inertie du système étudié est immobile. La translation du référentiel barycentrique ne signifie pas que c'est une translation rectiligne. Par exemple, une cabine de grande roue de fête foraine, quand elle tourne, est en mouvement de translation circulaire et elle se comporte comme le référentiel barycentrique de la Lune qui, elle, est en mouvement de rotation dans le référentiel géocentrique.

Mécanique hamiltonienne

La mécanique hamiltonienne est une reformulation de la mécanique newtonienne. Son formalisme a facilité l'élaboration théorique de la mécanique quantique. Elle a été formulée par William Rowan Hamilton en 1833 à partir des équations de Lagrange, qui reformulaient déjà la mécanique classique en 1788. En mécanique lagrangienne, les équations du mouvement d'un système à N degrés de liberté dépendent des coordonnées généralisées et des vitesses correspondantes , où .