Variable latenteIn statistics, latent variables (from Latin: present participle of lateo, “lie hidden”) are variables that can only be inferred indirectly through a mathematical model from other observable variables that can be directly observed or measured. Such latent variable models are used in many disciplines, including political science, demography, engineering, medicine, ecology, physics, machine learning/artificial intelligence, bioinformatics, chemometrics, natural language processing, management, psychology and the social sciences.
Latent variable modelA latent variable model is a statistical model that relates a set of observable variables (also called manifest variables or indicators) to a set of latent variables. It is assumed that the responses on the indicators or manifest variables are the result of an individual's position on the latent variable(s), and that the manifest variables have nothing in common after controlling for the latent variable (local independence).
Loi de probabilité à plusieurs variablesvignette|Représentation d'une loi normale multivariée. Les courbes rouge et bleue représentent les lois marginales. Les points noirs sont des réalisations de cette distribution à plusieurs variables. Dans certains problèmes interviennent simultanément plusieurs variables aléatoires. Mis à part les cas particuliers de variables indépendantes (notion définie ci-dessous) et de variables liées fonctionnellement, cela introduit la notion de loi de probabilité à plusieurs variables autrement appelée loi jointe.
Modèle statistiqueUn modèle statistique est une description mathématique approximative du mécanisme qui a généré les observations, que l'on suppose être un processus stochastique et non un processus déterministe. Il s’exprime généralement à l’aide d’une famille de distributions (ensemble de distributions) et d’hypothèses sur les variables aléatoires X1, . . ., Xn. Chaque membre de la famille est une approximation possible de F : l’inférence consiste donc à déterminer le membre qui s’accorde le mieux avec les données.
Loi de probabilité marginaleEn théorie des probabilités et en statistique, la loi marginale d'un vecteur aléatoire, c'est-à-dire d'une variable aléatoire à plusieurs dimensions, est la loi de probabilité d'une de ses composantes. Autrement dit, la loi marginale est une variable aléatoire obtenue par « projection » d'un vecteur contenant cette variable. Par exemple, pour un vecteur aléatoire , la loi de la variable aléatoire est la deuxième loi marginale du vecteur. Pour obtenir la loi marginale d'un vecteur, on projette la loi sur l'espace unidimensionnel de la coordonnée recherchée.
Inférence statistiquevignette|Illustration des 4 principales étapes de l'inférence statistique L'inférence statistique est l'ensemble des techniques permettant d'induire les caractéristiques d'un groupe général (la population) à partir de celles d'un groupe particulier (l'échantillon), en fournissant une mesure de la certitude de la prédiction : la probabilité d'erreur. Strictement, l'inférence s'applique à l'ensemble des membres (pris comme un tout) de la population représentée par l'échantillon, et non pas à tel ou tel membre particulier de cette population.
Loi normale multidimensionnelleEn théorie des probabilités, on appelle loi normale multidimensionnelle, ou normale multivariée ou loi multinormale ou loi de Gauss à plusieurs variables, la loi de probabilité qui est la généralisation multidimensionnelle de la loi normale. gauche|vignette|Différentes densités de lois normales en un dimension. gauche|vignette|Densité d'une loi gaussienne en 2D. Une loi normale classique est une loi dite « en cloche » en une dimension.
Modèle d'équations structurellesLa modélisation d'équations structurelles ou la modélisation par équations structurelles ou encore la modélisation par équations structurales (en anglais structural equation modeling ou SEM) désignent un ensemble diversifié de modèles mathématiques, algorithmes informatiques et méthodes statistiques qui font correspondre un réseau de concepts à des données. On parle alors de modèles par équations structurales, ou de modèles en équations structurales ou encore de modèles d’équations structurelles.
Statistical assumptionStatistics, like all mathematical disciplines, does not infer valid conclusions from nothing. Inferring interesting conclusions about real statistical populations almost always requires some background assumptions. Those assumptions must be made carefully, because incorrect assumptions can generate wildly inaccurate conclusions. Here are some examples of statistical assumptions: Independence of observations from each other (this assumption is an especially common error). Independence of observational error from potential confounding effects.
Ratio distributionA ratio distribution (also known as a quotient distribution) is a probability distribution constructed as the distribution of the ratio of random variables having two other known distributions. Given two (usually independent) random variables X and Y, the distribution of the random variable Z that is formed as the ratio Z = X/Y is a ratio distribution. An example is the Cauchy distribution (also called the normal ratio distribution), which comes about as the ratio of two normally distributed variables with zero mean.
Fonction de répartitionEn théorie des probabilités, la fonction de répartition, ou fonction de distribution cumulative, d'une variable aléatoire réelle X est la fonction F_X qui, à tout réel x, associe la probabilité d’obtenir une valeur inférieure ou égale : Cette fonction est caractéristique de la loi de probabilité de la variable aléatoire.
Naine jauneEn astronomie, une étoile jaune de la séquence principale, appelée communément naine jaune, est une étoile de type (lire « G cinq »), c'est-à-dire une étoile appartenant à la séquence principale (classe de luminosité ) de type spectral G (étoile jaune). Sa masse est comprise entre 0,7 et la masse solaire. Une naine jaune est une étoile de taille moyenne dans un état stable. Les naines jaunes transforment dans leur cœur de l'hydrogène en hélium, par un processus de fusion nucléaire (ou fusion thermonucléaire).
Allocation de Dirichlet latenteDans le domaine du traitement automatique des langues, l’allocation de Dirichlet latente (de l’anglais Latent Dirichlet Allocation) ou LDA est un modèle génératif probabiliste permettant d’expliquer des ensembles d’observations, par le moyen de groupes non observés, eux-mêmes définis par des similarités de données. Par exemple, si les observations () sont les mots collectés dans un ensemble de documents textuels (), le modèle LDA suppose que chaque document () est un mélange () d’un petit nombre de sujets ou thèmes ( topics), et que la génération de chaque occurrence d’un mot () est attribuable (probabilité) à l’un des thèmes () du document.
Loi de probabilitéthumb|400px 3 répartitions.png En théorie des probabilités et en statistique, une loi de probabilité décrit le comportement aléatoire d'un phénomène dépendant du hasard. L'étude des phénomènes aléatoires a commencé avec l'étude des jeux de hasard. Jeux de dés, tirage de boules dans des urnes et jeu de pile ou face ont été des motivations pour comprendre et prévoir les expériences aléatoires. Ces premières approches sont des phénomènes discrets, c'est-à-dire dont le nombre de résultats possibles est fini ou infini dénombrable.
Modèle de langageEn traitement automatique des langues, un modèle de langage ou modèle linguistique est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant dans une séquence de mots. Un modèle de langage n-gramme est un modèle de langage qui modélise des séquences de mots comme un processus de Markov. Il utilise l'hypothèse simplificatrice selon laquelle la probabilité du mot suivant dans une séquence ne dépend que d'une fenêtre de taille fixe de mots précédents.
Loi de ParetoEn théorie des probabilités, la loi de Pareto, d'après Vilfredo Pareto, est un type particulier de loi de puissance qui a des applications en sciences physiques et sociales. Elle permet notamment de donner une base théorique au « principe des 80-20 », aussi appelé principe de Pareto. Soit la variable aléatoire X qui suit une loi de Pareto de paramètres (x,k), avec k un réel positif, alors la loi est caractérisée par : Les lois de Pareto sont des lois continues.
Analyse sémantique latente probabilisteL’analyse sémantique latente probabiliste (de l'anglais, Probabilistic latent semantic analysis : PLSA), aussi appelée indexation sémantique latente probabiliste (PLSI), est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente. Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés.
Modèle linéairevignette|Données aléatoires sous forme de points, et leur régression linéaire. Un modèle linéaire multivarié est un modèle statistique dans lequel on cherche à exprimer une variable aléatoire à expliquer en fonction de variables explicatives X sous forme d'un opérateur linéaire. Le modèle linéaire est donné selon la formule : où Y est une matrice d'observations multivariées, X est une matrice de variables explicatives, B est une matrice de paramètres inconnus à estimer et U est une matrice contenant des erreurs ou du bruit.
Étoile blanche de la séquence principaleEn astronomie, une étoile blanche de la séquence principale est une étoile de type spectral A et de classe de luminosité V. Ce type d'étoiles ne doit pas être confondu avec les naines blanches, qui sont des résidus d'étoiles de faible masse. Les étoiles blanches de la séquence principale, comme leur nom l'indique, sont des étoiles de la séquence principale (classe de luminosité V dans la classification MKK), dont l'énergie provient de la fusion de leur hydrogène en hélium.
Model selectionModel selection is the task of selecting a model from among various candidates on the basis of performance criterion to choose the best one. In the context of learning, this may be the selection of a statistical model from a set of candidate models, given data. In the simplest cases, a pre-existing set of data is considered. However, the task can also involve the design of experiments such that the data collected is well-suited to the problem of model selection.