Publication

Dimensionality Reduction with Adaptive Approximation

Concepts associés (32)

vignette|320x320px|Animation présentant la projection de points en deux dimensions sur les axes obtenus par analyse en composantes principales, une méthode populaire de réduction de la dimensionnalité La réduction de la dimensionnalité (ou réduction de (la) dimension) est un processus étudié en mathématiques et en informatique, qui consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension.

Nonlinear dimensionality reduction

Nonlinear dimensionality reduction, also known as manifold learning, refers to various related techniques that aim to project high-dimensional data onto lower-dimensional latent manifolds, with the goal of either visualizing the data in the low-dimensional space, or learning the mapping (either from the high-dimensional space to the low-dimensional embedding or vice versa) itself. The techniques described below can be understood as generalizations of linear decomposition methods used for dimensionality reduction, such as singular value decomposition and principal component analysis.

Fléau de la dimension

Le fléau de la dimension ou malédiction de la dimension (curse of dimensionality) est un terme inventé par Richard Bellman en 1961 pour désigner divers phénomènes qui ont lieu lorsque l'on cherche à analyser ou organiser des données dans des espaces de grande dimension alors qu'ils n'ont pas lieu dans des espaces de dimension moindre. Plusieurs domaines sont concernés et notamment l'apprentissage automatique, la fouille de données, les bases de données, l'analyse numérique ou encore l'échantillonnage.

Base (algèbre linéaire)

vignette|Le même vecteur peut être représenté dans deux bases différentes (flèches violettes et rouges). En mathématiques, une base d'un espace vectoriel V est une famille de vecteurs de V linéairement indépendants et dont tout vecteur de V est combinaison linéaire. En d'autres termes, une base de V est une famille libre de vecteurs de V qui engendre V. alt=|vignette|upright=2|. La géométrie plane, celle d'Euclide, peut comporter une approche algébrique, celle de Descartes.

Analyse en composantes principales

L'analyse en composantes principales (ACP ou PCA en anglais pour principal component analysis), ou, selon le domaine d'application, transformation de Karhunen–Loève (KLT) ou transformation de Hotelling, est une méthode de la famille de l'analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites « corrélées » en statistique) en nouvelles variables décorrélées les unes des autres. Ces nouvelles variables sont nommées « composantes principales » ou axes principaux.

Sparse dictionary learning

Sparse dictionary learning (also known as sparse coding or SDL) is a representation learning method which aims at finding a sparse representation of the input data in the form of a linear combination of basic elements as well as those basic elements themselves. These elements are called atoms and they compose a dictionary. Atoms in the dictionary are not required to be orthogonal, and they may be an over-complete spanning set. This problem setup also allows the dimensionality of the signals being represented to be higher than the one of the signals being observed.

Matrix decomposition

In the mathematical discipline of linear algebra, a matrix decomposition or matrix factorization is a factorization of a matrix into a product of matrices. There are many different matrix decompositions; each finds use among a particular class of problems. In numerical analysis, different decompositions are used to implement efficient matrix algorithms. For instance, when solving a system of linear equations , the matrix A can be decomposed via the LU decomposition.

Base orthonormée

En géométrie vectorielle, une base orthonormale ou base orthonormée (BON) d'un espace euclidien ou hermitien est une base de cet espace vectoriel constituée de vecteurs de norme 1 et orthogonaux deux à deux. Dans une telle base, les coordonnées d'un vecteur quelconque de l'espace sont égales aux produits scalaires respectifs de ce vecteur par chacun des vecteurs de base, et le produit scalaire de deux vecteurs quelconques a une expression canonique en fonction de leurs coordonnées.

Kernel principal component analysis

In the field of multivariate statistics, kernel principal component analysis (kernel PCA) is an extension of principal component analysis (PCA) using techniques of kernel methods. Using a kernel, the originally linear operations of PCA are performed in a reproducing kernel Hilbert space. Recall that conventional PCA operates on zero-centered data; that is, where is one of the multivariate observations.

Standard basis

In mathematics, the standard basis (also called natural basis or canonical basis) of a coordinate vector space (such as or ) is the set of vectors, each of whose components are all zero, except one that equals 1. For example, in the case of the Euclidean plane formed by the pairs (x, y) of real numbers, the standard basis is formed by the vectors Similarly, the standard basis for the three-dimensional space is formed by vectors Here the vector ex points in the x direction, the vector ey points in the y direction, and the vector ez points in the z direction.

Méthode des k plus proches voisins

En intelligence artificielle, plus précisément en apprentissage automatique, la méthode des k plus proches voisins est une méthode d’apprentissage supervisé. En abrégé KPPV ou k-PPV en français, ou plus fréquemment k-NN ou KNN, de l'anglais k-nearest neighbors. Dans ce cadre, on dispose d’une base de données d'apprentissage constituée de N couples « entrée-sortie ». Pour estimer la sortie associée à une nouvelle entrée x, la méthode des k plus proches voisins consiste à prendre en compte (de façon identique) les k échantillons d'apprentissage dont l’entrée est la plus proche de la nouvelle entrée x, selon une distance à définir.

Matching pursuit

Matching pursuit (MP) is a sparse approximation algorithm which finds the "best matching" projections of multidimensional data onto the span of an over-complete (i.e., redundant) dictionary . The basic idea is to approximately represent a signal from Hilbert space as a weighted sum of finitely many functions (called atoms) taken from . An approximation with atoms has the form where is the th column of the matrix and is the scalar weighting factor (amplitude) for the atom . Normally, not every atom in will be used in this sum.

Composantes d'un vecteur

vignette|Composantes d'un vecteur dans un espace géométrique à trois dimensions, x, y et z. Dans le cas du concept géométrique classique de vecteur, il existe une identification complète entre ses « composantes » et les « coordonnées » qui le représentent. Cependant, il existe d'autres types d'espaces vectoriels (comme, par exemple, l'ensemble des polynômes d'ordre n), dans lesquels le concept de coordonnée n'a pas la généralité de l'idée de composante.

Dictionnaire

thumb|upright=1.2|Dictionnaire en latin constitué de plusieurs volumes, œuvre d'Egidio Forcellini (1771). Un dictionnaire est un ouvrage de référence contenant un ensemble de mots d’une langue ou d’un domaine d’activité généralement présentés par ordre alphabétique et fournissant pour chacun une définition, une explication ou une correspondance (synonyme, antonyme, cooccurrence, traduction, étymologie). Le présent article concerne les dictionnaires unilingues qui décrivent ou normalisent une langue.

Analyse en composantes indépendantes

L'analyse en composantes indépendantes (en anglais, independent component analysis ou ICA) est une méthode d'analyse des données (voir aussi Exploration de données) qui relève des statistiques, des réseaux de neurones et du traitement du signal. Elle est notoirement et historiquement connue en tant que méthode de séparation aveugle de source mais a par suite été appliquée à divers problèmes. Les contributions principales ont été rassemblées dans un ouvrage édité en 2010 par P.Comon et C.Jutten.

Matrice symétrique

vignette|Matrice 5x5 symétrique. Les coefficients égaux sont représentés par la même couleur. En algèbre linéaire et multilinéaire, une matrice symétrique est une matrice carrée qui est égale à sa propre transposée, c'est-à-dire telle que a = a pour tous i et j compris entre 1 et n, où les a sont les coefficients de la matrice et n est son ordre. Les coefficients d'une matrice symétrique sont symétriques par rapport à la diagonale principale (du coin en haut à gauche jusqu'à celui en bas à droite).

Racine carrée d'une matrice

En mathématiques, la notion de racine carrée d'une matrice particularise aux anneaux de matrices carrées la notion générale de racine carrée dans un anneau. Soient un entier naturel n non nul et M une matrice carrée d'ordre n à coefficients dans un anneau A. Un élément R de M(A) est une racine carrée de M si R = M. Une matrice donnée peut n'admettre aucune racine carrée, comme un nombre fini voire infini de racine carrées. Dans M(R) : est une racine carrée de les (pour tout réel x) sont des racines carrées de n'a pas de racine carrée R, car cela imposerait (mais elle en a dans M(C)).

Factorisation de Cholesky

La factorisation de Cholesky, nommée d'après André-Louis Cholesky, consiste, pour une matrice symétrique définie positive , à déterminer une matrice triangulaire inférieure telle que : . La matrice est en quelque sorte une « racine carrée » de . Cette décomposition permet notamment de calculer la matrice inverse , de calculer le déterminant de A (égal au carré du produit des éléments diagonaux de ) ou encore de simuler une loi multinormale. Elle est aussi utilisée en chimie quantique pour accélérer les calculs (voir Décomposition de Cholesky (chimie quantique)).

Analyse discriminante linéaire

En statistique, l’analyse discriminante linéaire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide de variables prédictives. Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de déterminer l’appartenance de puces à telle ou telle espèce à partir de la largeur et de l’angle de son édéage (partie des organes génitaux mâles de l'insecte.

Système de reconnaissance faciale

Un système de reconnaissance faciale est une application logicielle visant à reconnaître automatiquement une personne grâce à son visage. Il s'agit d'un sujet particulièrement étudié en vision par ordinateur, avec de très nombreuses publications et brevets, et des conférences spécialisées. La reconnaissance de visage a de nombreuses applications en vidéosurveillance, biométrie, robotique, indexation d'images et de vidéos, , etc. Ces systèmes sont généralement utilisés à des fins de sécurité pour déverrouiller ordinateur/mobile/console, mais aussi en domotique.