Publication

UNDERGRAD: A Universal Black-Box Optimization Method with Almost Dimension-Free Convergence Rate Guarantees

Concepts associés (21)

In machine learning and statistics, the learning rate is a tuning parameter in an optimization algorithm that determines the step size at each iteration while moving toward a minimum of a loss function. Since it influences to what extent newly acquired information overrides old information, it metaphorically represents the speed at which a machine learning model "learns". In the adaptive control literature, the learning rate is commonly referred to as gain. In setting a learning rate, there is a trade-off between the rate of convergence and overshooting.

Vitesse de convergence des suites

En analyse numérique — une branche des mathématiques — on peut classer les suites convergentes en fonction de leur vitesse de convergence vers leur point limite. C'est une manière d'apprécier l'efficacité des algorithmes qui les génèrent. Les suites considérées ici sont convergentes sans être stationnaires (tous leurs termes sont même supposés différents du point limite). Si une suite est stationnaire, tous ses éléments sont égaux à partir d'un certain rang et il est alors normal de s'intéresser au nombre d'éléments différents du point limite.

Optimisation linéaire

thumb|upright=0.5|Optimisation linéaire dans un espace à deux dimensions (x1, x2). La fonction-coût fc est représentée par les lignes de niveau bleues à gauche et par le plan bleu à droite. L'ensemble admissible E est le pentagone vert. En optimisation mathématique, un problème d'optimisation linéaire demande de minimiser une fonction linéaire sur un polyèdre convexe. La fonction que l'on minimise ainsi que les contraintes sont décrites par des fonctions linéaires, d'où le nom donné à ces problèmes.

Application lipschitzienne

En analyse mathématique, une application lipschitzienne (du nom de Rudolf Lipschitz) est une application possédant une certaine propriété de régularité qui est plus forte que la continuité. Intuitivement, c'est une fonction qui est limitée dans sa manière d'évoluer. Tout segment reliant deux points du graphe d'une telle fonction aura une pente inférieure, en valeur absolue, à une constante appelée constante de Lipschitz. Les fonctions lipschitziennes sont un cas particulier de fonctions höldériennes.

Propriété universelle

En mathématiques, et plus précisément en théorie des catégories, une propriété universelle est la propriété des objets qui sont la solution d'un problème universel posé par un foncteur. De très nombreux objets classiques des mathématiques, comme la notion de produit cartésien, de groupe quotient, ou de compactifié, peuvent être définis comme des solutions de problèmes universels.

Optimisation convexe

vignette|320x320px|Optimisation convexe dans un espace en deux dimensions dans un espace contraint L'optimisation convexe est une sous-discipline de l'optimisation mathématique, dans laquelle le critère à minimiser est convexe et l'ensemble admissible est convexe. Ces problèmes sont plus simples à analyser et à résoudre que les problèmes d'optimisation non convexes, bien qu'ils puissent être NP-difficile (c'est le cas de l'optimisation copositive). La théorie permettant d'analyser ces problèmes ne requiert pas la différentiabilité des fonctions.

Smoothness

In mathematical analysis, the smoothness of a function is a property measured by the number of continuous derivatives it has over some domain, called differentiability class. At the very minimum, a function could be considered smooth if it is differentiable everywhere (hence continuous). At the other end, it might also possess derivatives of all orders in its domain, in which case it is said to be infinitely differentiable and referred to as a C-infinity function (or function).

Méthodes de points intérieurs

vignette|Visualisation de la méthode des points intérieur : le chemin reste à l’intérieur du polyèdre. vignette|Visualisation de la méthode du simplexe : le chemin suit les arêtes du polyèdre vignette|Visualisation de la méthode par ellipsoïde : l’ellipse se rétrécit Les méthodes de points intérieurs forment une classe d’algorithmes qui permettent de résoudre des problèmes d’optimisation mathématique.

Dimension

Le terme dimension, du latin dimensio « action de mesurer », désigne d’abord chacune des grandeurs d’un objet : longueur, largeur et profondeur, épaisseur ou hauteur, ou encore son diamètre si c'est une pièce de révolution. L’acception a dérivé de deux façons différentes en physique et en mathématiques. En physique, la dimension qualifie une grandeur indépendamment de son unité de mesure, tandis qu’en mathématiques, la notion de dimension correspond au nombre de grandeurs nécessaires pour identifier un objet, avec des définitions spécifiques selon le type d’objet (algébrique, topologique ou combinatoire notamment).

Accélération de suite

En mathématiques, laccélération de suite est une méthode de transformation de suites ou de série numérique visant à améliorer la vitesse de convergence d'une série. Des techniques d'accélération sont souvent utilisées en analyse numérique, afin d'améliorer la rapidité de méthodes d'intégration numérique ou obtenir des identités sur des fonctions spéciales. Par exemple, la transformation d'Euler appliquée à la série hypergéométrique permet de retrouver plusieurs identités connues.

Fonction d'activation

Dans le domaine des réseaux de neurones artificiels, la fonction d'activation est une fonction mathématique appliquée à un signal en sortie d'un neurone artificiel. Le terme de "fonction d'activation" vient de l'équivalent biologique "potentiel d'activation", seuil de stimulation qui, une fois atteint entraîne une réponse du neurone. La fonction d'activation est souvent une fonction non linéaire. Un exemple de fonction d'activation est la fonction de Heaviside, qui renvoie tout le temps 1 si le signal en entrée est positif, ou 0 s'il est négatif.

Champ de vecteurs

thumb|Un exemple de champ de vecteurs, de la forme (-y,x). thumb|Autre exemple. thumb|Le flux d'air autour d'un avion est un champ tridimensionnel (champ des vitesses des particules d'air), ici visualisé par les bulles qui matérialisent les lignes de courant. En mathématiques, un champ de vecteurs ou champ vectoriel est une fonction qui associe un vecteur à chaque point d'un espace euclidien ou plus généralement d'une variété différentielle.

Théorème d'approximation universelle

Dans la théorie mathématique des réseaux de neurones artificiels, le théorème d'approximation universelle indique qu'un réseau à propagation avant d'une seule couche cachée contenant un nombre fini de neurones (c'est-à-dire, un perceptron multicouche) peut approximer des fonctions continues sur des sous-ensembles compacts de Rn. Une des premières versions du cas avec largeur arbitraire a été prouvé par George Cybenko en 1989 pour des fonctions d'activation sigmoïdes.

Algorithme du gradient stochastique

L'algorithme du gradient stochastique est une méthode de descente de gradient (itérative) utilisée pour la minimisation d'une fonction objectif qui est écrite comme une somme de fonctions différentiables. À la fois l'estimation statistique et l'apprentissage automatique s'intéressent au problème de la minimisation d'une fonction objectif qui a la forme d'une somme : où le paramètre qui minimise doit être estimé. Chacune des fonctions est généralement associée avec la -ème observation de l'ensemble des données (utilisées pour l'apprentissage).

Segmentation d'image

La segmentation d'image est une opération de s consistant à détecter et rassembler les pixels suivant des critères, notamment d'intensité ou spatiaux, l'image apparaissant ainsi formée de régions uniformes. La segmentation peut par exemple montrer les objets en les distinguant du fond avec netteté. Dans les cas où les critères divisent les pixels en deux ensembles, le traitement est une binarisation. Des algorithmes sont écrits comme substitut aux connaissances de haut niveau que l'homme mobilise dans son identification des objets et structures.

Algorithme évolutionniste

vignette|redresse=1.2|Un algorithme évolutionnaire utilise itérativement des opérateurs de sélections (en bleu) et de variation (en jaune). i : initialisation, f(X) : évaluation, ? : critère d'arrêt, Se : sélection, Cr : croisement, Mu : mutation, Re : remplacement, X* : optimum. Les algorithmes évolutionnistes ou algorithmes évolutionnaires (evolutionary algorithms en anglais), sont une famille d'algorithmes dont le principe s'inspire de la théorie de l'évolution pour résoudre des problèmes divers.

Fixed exchange rate system

A fixed exchange rate, often called a pegged exchange rate, is a type of exchange rate regime in which a currency's value is fixed or pegged by a monetary authority against the value of another currency, a basket of other currencies, or another measure of value, such as gold. There are benefits and risks to using a fixed exchange rate system. A fixed exchange rate is typically used to stabilize the exchange rate of a currency by directly fixing its value in a predetermined ratio to a different, more stable, or more internationally prevalent currency (or currencies) to which the currency is pegged.

Recherche opérationnelle

La recherche opérationnelle peut être définie comme l'ensemble des méthodes et techniques rationnelles orientées vers la recherche du meilleur choix dans la façon d'opérer en vue d'aboutir au résultat visé ou au meilleur résultat possible ou encore au résultat optimal. Elle fait partie des « aides à la décision » dans la mesure où elle propose des modèles conceptuels en vue d'analyser et de maitriser des situations complexes pour permettre aux décideurs de comprendre, d'évaluer les enjeux et d'arbitrer ou de faire les choix les plus efficaces.

Réseau de neurones artificiels

Un réseau de neurones artificiels, ou réseau neuronal artificiel, est un système dont la conception est à l'origine schématiquement inspirée du fonctionnement des neurones biologiques, et qui par la suite s'est rapproché des méthodes statistiques. Les réseaux de neurones sont généralement optimisés par des méthodes d'apprentissage de type probabiliste, en particulier bayésien.

Matrice hessienne

En mathématiques, la matrice hessienne (ou simplement le hessien ou la hessienne) d'une fonction numérique est la matrice carrée, notée , de ses dérivées partielles secondes. Etant donnée une fonction à valeurs réelles dont toutes les dérivées partielles secondes existent, le coefficient d'indice de la matrice hessienne vaut . Autrement dit, On appelle discriminant hessien (ou simplement hessien) le déterminant de cette matrice. Le terme « hessien » a été introduit par James Joseph Sylvester, en hommage au mathématicien allemand Ludwig Otto Hesse.