Publication

Promoting diversity in Gaussian mixture ensembles: an application to signature verification

Concepts associés (25)

In statistics and machine learning, ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone. Unlike a statistical ensemble in statistical mechanics, which is usually infinite, a machine learning ensemble consists of only a concrete finite set of alternative models, but typically allows for much more flexible structure to exist among those alternatives.

Classification naïve bayésienne

vignette|Exemple de classification naïve bayésienne pour un ensemble de données dont le nombre augmente avec le temps. La classification naïve bayésienne est un type de classification bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf, ou classifieur naïf de Bayes, appartenant à la famille des classifieurs linéaires. Un terme plus approprié pour le modèle probabiliste sous-jacent pourrait être « modèle à caractéristiques statistiquement indépendantes ».

Échantillonnage (statistiques)

thumb|Exemple d'échantillonnage aléatoire En statistique, l'échantillonnage désigne les méthodes de sélection d'un sous-ensemble d'individus (un échantillon) à l'intérieur d'une population pour estimer les caractéristiques de l'ensemble de la population. Cette méthode présente plusieurs avantages : une étude restreinte sur une partie de la population, un moindre coût, une collecte des données plus rapide que si l'étude avait été réalisé sur l'ensemble de la population, la réalisation de contrôles destructifs Les résultats obtenus constituent un échantillon.

Reconnaissance de formes

thumb|Reconnaissance de forme à partir de modélisation en 3D La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de techniques et méthodes visant à identifier des régularités informatiques à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce motif. On considère que c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques d'apprentissage automatique et aux statistiques.

Ensemble statistique

En physique statistique, un ensemble statistique est une abstraction qui consiste à considérer une collection de copies virtuelles (ou répliques) d'un système physique dans l'ensemble des états accessibles où il est susceptible de se trouver, compte tenu des contraintes extérieures qui lui sont imposées, telles le volume, le nombre de particules, l'énergie et la température. Cette notion, introduite par le physicien américain Josiah Willard Gibbs en 1902, est un concept central de la physique statistique.

Échantillonnage stratifié

vignette|Vous prenez un échantillon aléatoire stratifié en divisant d'abord la population en groupes homogènes (semblables en eux-mêmes) (strates) qui sont distincts les uns des autres, c'est-à-dire. Le groupe 1 est différent du groupe 2. Ensuite, choisissez un EAS (échantillon aléatoire simple) distinct dans chaque strate et combinez ces EAS pour former l'échantillon complet. L'échantillonnage aléatoire stratifié est utilisé pour produire des échantillons non biaisés.

Ensemble canonique

En physique statistique, l’ensemble (ou situation) canonique est un ensemble statistique introduit par le physicien américain Josiah Willard Gibbs. Il correspond au cas d'un système physique de volume donné et contenant un nombre fixe de particules, en interaction avec un autre système, appelé réservoir ou thermostat, beaucoup plus grand que le système considéré et avec lequel il peut échanger de l'énergie mais pas de matière. Le thermostat se comporte comme un réservoir supposé infini d'énergie, la réunion des deux systèmes étant considérée comme isolée.

Boosting

Le boosting est un domaine de l'apprentissage automatique (branche de l'intelligence artificielle). C'est un principe qui regroupe de nombreux algorithmes qui s'appuient sur des ensembles de classifieurs binaires : le boosting optimise leurs performances. Le principe est issu de la combinaison de classifieurs (appelés également hypothèses). Par itérations successives, la connaissance d'un classifieur faible - weak classifier - est ajoutée au classifieur final - strong classifier.

Jeux d'entrainement, de validation et de test

En apprentissage automatique, une tâche courante est l'étude et la construction d'algorithmes qui peuvent apprendre et faire des prédictions sur les données. De tels algorithmes fonctionnent en faisant des prédictions ou des décisions basées sur les données, en construisant un modèle mathématique à partir des données d'entrée. Ces données d'entrée utilisées pour construire le modèle sont généralement divisées en plusieurs jeux de données .

Classifieur linéaire

En apprentissage automatique, les classifieurs linéaires sont une famille d'algorithmes de classement statistique. Le rôle d'un classifieur est de classer dans des groupes (des classes) les échantillons qui ont des propriétés similaires, mesurées sur des observations. Un classifieur linéaire est un type particulier de classifieur, qui calcule la décision par combinaison linéaire des échantillons. « Classifieur linéaire » est une traduction de l'anglais linear classifier.

Convenience sampling

Convenience sampling (also known as grab sampling, accidental sampling, or opportunity sampling) is a type of non-probability sampling that involves the sample being drawn from that part of the population that is close to hand. This type of sampling is most useful for pilot testing. Convenience sampling is not often recommended for research due to the possibility of sampling error and lack of representation of the population. But it can be handy depending on the situation. In some situations, convenience sampling is the only possible option.

Sampling error

In statistics, sampling errors are incurred when the statistical characteristics of a population are estimated from a subset, or sample, of that population. It can produced biased results. Since the sample does not include all members of the population, statistics of the sample (often known as estimators), such as means and quartiles, generally differ from the statistics of the entire population (known as parameters). The difference between the sample statistic and population parameter is considered the sampling error.

Nonprobability sampling

Sampling is the use of a subset of the population to represent the whole population or to inform about (social) processes that are meaningful beyond the particular cases, individuals or sites studied. Probability sampling, or random sampling, is a sampling technique in which the probability of getting any particular sample may be calculated. In cases where external validity is not of critical importance to the study's goals or purpose, researchers might prefer to use nonprobability sampling.

Cluster sampling

In statistics, cluster sampling is a sampling plan used when mutually homogeneous yet internally heterogeneous groupings are evident in a statistical population. It is often used in marketing research. In this sampling plan, the total population is divided into these groups (known as clusters) and a simple random sample of the groups is selected. The elements in each cluster are then sampled. If all elements in each sampled cluster are sampled, then this is referred to as a "one-stage" cluster sampling plan.

Survey sampling

In statistics, survey sampling describes the process of selecting a sample of elements from a target population to conduct a survey. The term "survey" may refer to many different types or techniques of observation. In survey sampling it most often involves a questionnaire used to measure the characteristics and/or attitudes of people. Different ways of contacting members of a sample once they have been selected is the subject of survey data collection.

Probabilistic classification

In machine learning, a probabilistic classifier is a classifier that is able to predict, given an observation of an input, a probability distribution over a set of classes, rather than only outputting the most likely class that the observation should belong to. Probabilistic classifiers provide classification that can be useful in its own right or when combining classifiers into ensembles. Formally, an "ordinary" classifier is some rule, or function, that assigns to a sample x a class label ŷ: The samples come from some set X (e.

Admittance parameters

Admittance parameters or Y-parameters (the elements of an admittance matrix or Y-matrix) are properties used in many areas of electrical engineering, such as power, electronics, and telecommunications. These parameters are used to describe the electrical behavior of linear electrical networks. They are also used to describe the small-signal (linearized) response of non-linear networks. Y parameters are also known as short circuited admittance parameters.

Ensemble grand-canonique

En physique statistique, l’ensemble grand-canonique est un ensemble statistique qui correspond au cas d'un système qui peut échanger de l'énergie avec un réservoir externe d'énergie (ou thermostat), ainsi que des particules. Il est donc en équilibre thermodynamique thermique et chimique avec le réservoir d'énergie et de particules. Plus précisément, il s'agit de l'ensemble des « copies virtuelles » (ou répliques fictives) du même système en équilibre avec le réservoir d'énergie et de particules.

Decision boundary

NOTOC In a statistical-classification problem with two classes, a decision boundary or decision surface is a hypersurface that partitions the underlying vector space into two sets, one for each class. The classifier will classify all the points on one side of the decision boundary as belonging to one class and all those on the other side as belonging to the other class. A decision boundary is the region of a problem space in which the output label of a classifier is ambiguous.

Ensemble microcanonique

En physique statistique, l'ensemble microcanonique est un ensemble statistique constitué des répliques fictives d'un système réel pouvant être considéré comme isolé, par suite dont l'énergie (E), le volume (V) et le nombre de particules (N) sont fixés. Cet ensemble statistique a une importance particulière, car c'est à partir de celui-ci que le postulat de la physique statistique est défini. Cet ensemble permet aussi de déterminer les ensembles canonique et grand-canonique, à l'aide d'échanges d'énergie et/ou de particules avec un réservoir.