Corrélation (statistiques)En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance. Cette corrélation est très souvent réduite à la corrélation linéaire entre variables quantitatives, c’est-à-dire l’ajustement d’une variable par rapport à l’autre par une relation affine obtenue par régression linéaire. Pour cela, on calcule un coefficient de corrélation linéaire, quotient de leur covariance par le produit de leurs écarts types.
Corrélation partielleLe coefficient de corrélation partielle, noté ici , permet de connaître la valeur de la corrélation entre deux variables A et B, si la variable C était demeurée constante pour la série d’observations considérées. Dit autrement, le coefficient de corrélation partielle est le coefficient de corrélation totale entre les variables A et B quand on leur a retiré leur meilleure explication linéaire en termes de C. Il est donné par la formule : La démonstration la plus rapide de la formule consiste à s’appuyer sur l’interprétation géométrique de la corrélation (cosinus).
Régression linéaireEn statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
Régression polynomialePolyreg scheffe.svg thumb|Régression sur un nuage de points par un polynôme de degré croissant. La régression polynomiale est une analyse statistique qui décrit la variation d'une variable aléatoire expliquée à partir d'une fonction polynomiale d'une variable aléatoire explicative. C'est un cas particulier de régression linéaire multiple, où les observations sont construites à partir des puissances d'une seule variable.
Variables indépendantes et identiquement distribuéesvignette|upright=1.5|alt=nuage de points|Ce nuage de points représente 500 valeurs aléatoires iid simulées informatiquement. L'ordonnée d'un point est la valeur simulée suivante, dans la liste des 500 valeurs, de la valeur simulée pour l'abscisse du point. En théorie des probabilités et en statistique, des variables indépendantes et identiquement distribuées sont des variables aléatoires qui suivent toutes la même loi de probabilité et sont indépendantes. On dit que ce sont des variables aléatoires iid ou plus simplement des variables iid.
Régression logistiqueEn statistiques, la régression logistique ou modèle logit est un modèle de régression binomiale. Comme pour tous les modèles de régression binomiale, il s'agit d'expliquer au mieux une variable binaire (la présence ou l'absence d'une caractéristique donnée) par des observations réelles nombreuses, grâce à un modèle mathématique. En d'autres termes d'associer une variable aléatoire de Bernoulli (génériquement notée ) à un vecteur de variables aléatoires . La régression logistique constitue un cas particulier de modèle linéaire généralisé.
Conditional independenceIn probability theory, conditional independence describes situations wherein an observation is irrelevant or redundant when evaluating the certainty of a hypothesis. Conditional independence is usually formulated in terms of conditional probability, as a special case where the probability of the hypothesis given the uninformative observation is equal to the probability without. If is the hypothesis, and and are observations, conditional independence can be stated as an equality: where is the probability of given both and .
Pearson correlation coefficientIn statistics, the Pearson correlation coefficient (PCC) is a correlation coefficient that measures linear correlation between two sets of data. It is the ratio between the covariance of two variables and the product of their standard deviations; thus, it is essentially a normalized measurement of the covariance, such that the result always has a value between −1 and 1. As with covariance itself, the measure can only reflect a linear correlation of variables, and ignores many other types of relationships or correlations.
Indépendance (probabilités)vignette|Paire de dés L'indépendance est une notion probabiliste qualifiant de manière intuitive des événements aléatoires n'ayant aucune influence l'un sur l'autre. Il s'agit d'une notion très importante en statistique et en théorie des probabilités. Par exemple, la valeur d'un premier lancer de dés n'a aucune influence sur la valeur du second lancer. De même, pour un lancer, le fait dobtenir une valeur inférieure ou égale à quatre n'influe en rien sur la probabilité que le résultat soit pair ou impair : les deux événements sont dits indépendants.
Exchangeable random variablesIn statistics, an exchangeable sequence of random variables (also sometimes interchangeable) is a sequence X1, X2, X3, ... (which may be finitely or infinitely long) whose joint probability distribution does not change when the positions in the sequence in which finitely many of them appear are altered. Thus, for example the sequences both have the same joint probability distribution. It is closely related to the use of independent and identically distributed random variables in statistical models.
Intraclass correlationIn statistics, the intraclass correlation, or the intraclass correlation coefficient (ICC), is a descriptive statistic that can be used when quantitative measurements are made on units that are organized into groups. It describes how strongly units in the same group resemble each other. While it is viewed as a type of correlation, unlike most other correlation measures, it operates on data structured as groups rather than data structured as paired observations.
Nombre de sujets nécessairesEn statistique, la détermination du nombre de sujets nécessaires est l'acte de choisir le nombre d'observations ou de répétitions à inclure dans un échantillon statistique. Ce choix est très important pour pouvoir faire de l'inférence sur une population. En pratique, la taille de l'échantillon utilisé dans une étude est déterminée en fonction du coût de la collecte des données et de la nécessité d'avoir une puissance statistique suffisante.
Méthode des moindres carrésLa méthode des moindres carrés, indépendamment élaborée par Legendre et Gauss au début du , permet de comparer des données expérimentales, généralement entachées d’erreurs de mesure, à un modèle mathématique censé décrire ces données. Ce modèle peut prendre diverses formes. Il peut s’agir de lois de conservation que les quantités mesurées doivent respecter. La méthode des moindres carrés permet alors de minimiser l’impact des erreurs expérimentales en « ajoutant de l’information » dans le processus de mesure.
Loi normaleEn théorie des probabilités et en statistique, les lois normales sont parmi les lois de probabilité les plus utilisées pour modéliser des phénomènes naturels issus de plusieurs événements aléatoires. Elles sont en lien avec de nombreux objets mathématiques dont le mouvement brownien, le bruit blanc gaussien ou d'autres lois de probabilité. Elles sont également appelées lois gaussiennes, lois de Gauss ou lois de Laplace-Gauss des noms de Laplace (1749-1827) et Gauss (1777-1855), deux mathématiciens, astronomes et physiciens qui l'ont étudiée.
Série temporellethumb|Exemple de visualisation de données montrant une tendances à moyen et long terme au réchauffement, à partir des séries temporelles de températures par pays (ici regroupés par continents, du nord au sud) pour les années 1901 à 2018. Une série temporelle, ou série chronologique, est une suite de valeurs numériques représentant l'évolution d'une quantité spécifique au cours du temps. De telles suites de variables aléatoires peuvent être exprimées mathématiquement afin d'en analyser le comportement, généralement pour comprendre son évolution passée et pour en prévoir le comportement futur.
Variance (mathématiques)vignette|Exemple d'échantillons pour deux populations ayant la même moyenne mais des variances différentes. La population en rouge a une moyenne de 100 et une variance de 100 (écart-type = SD = standard deviation = 10). La population en bleu a une moyenne de 100 et une variance de (écart-type = SD = 50). En statistique et en théorie des probabilités, la variance est une mesure de la dispersion des valeurs d'un échantillon ou d'une variable aléatoire.
Conditional probability distributionIn probability theory and statistics, given two jointly distributed random variables and , the conditional probability distribution of given is the probability distribution of when is known to be a particular value; in some cases the conditional probabilities may be expressed as functions containing the unspecified value of as a parameter. When both and are categorical variables, a conditional probability table is typically used to represent the conditional probability.
Probabilité conditionnellevignette|Illustration des probabilités conditionnelles avec un diagramme d'Euler. On a la probabilité a priori et les probabilités conditionnelles , et .|320x320px En théorie des probabilités, une probabilité conditionnelle est la probabilité d'un événement sachant qu'un autre événement a eu lieu. Par exemple, si une carte d'un jeu est tirée au hasard, on estime qu'il y a une chance sur quatre d'obtenir un cœur ; mais si on aperçoit un reflet rouge sur la table, il y a maintenant une chance sur deux d'obtenir un cœur.
Espérance conditionnelleEn théorie des probabilités, l'espérance conditionnelle d'une variable aléatoire réelle donne la valeur moyenne de cette variable quand un certain événement est réalisé. Selon les cas, c'est un nombre ou alors une nouvelle variable aléatoire. On parle alors d'espérance d'une variable aléatoire conditionnée par un événement B est, intuitivement, la moyenne que l'on obtient si on renouvelle un grand nombre de fois l'expérience liée à la variable aléatoire et que l'on ne retient que les cas où l'événement B est réalisé.
Système d'unités gaussiennesLe système d'unités gaussiennes constitue un système métrique d'unités physiques. Ce système est le plus couramment utilisé de toute une famille de systèmes d'unités électromagnétiques basés sur des unités cgs (centimètre-gramme-seconde). Il est aussi appelé unités gaussiennes, unités gaussiennes-cgs, ou souvent simplement unités cgs. Ce dernier terme "unités cgs" est cependant ambigu, et doit donc être évité si possible : il existe plusieurs variantes d'unités cgs, avec des définitions contradictoires des quantités et unités électromagnétiques.