Boîte à moustachesDans les représentations graphiques de données statistiques, la boîte à moustaches, aussi appelée diagramme en boîte, boîtes à pattes, boîte de Tukey (en anglais, box-and-whisker plot, plus simplement box plot) est un moyen rapide de figurer le profil essentiel d'une série statistique quantitative. Elle a été inventée en 1977 par John Tukey, mais peut faire l'objet de certains aménagements selon les utilisateurs. La boîte à moustaches résume seulement quelques indicateurs de position du caractère étudié (médiane, quartiles, minimum, maximum ou déciles).
Summary statisticsIn descriptive statistics, summary statistics are used to summarize a set of observations, in order to communicate the largest amount of information as simply as possible. Statisticians commonly try to describe the observations in a measure of location, or central tendency, such as the arithmetic mean a measure of statistical dispersion like the standard mean absolute deviation a measure of the shape of the distribution like skewness or kurtosis if more than one variable is measured, a measure of statistical dependence such as a correlation coefficient A common collection of order statistics used as summary statistics are the five-number summary, sometimes extended to a seven-number summary, and the associated box plot.
Statistique d'ordreEn statistiques, la statistique d'ordre de rang k d'un échantillon statistique est égal à la k-ième plus petite valeur. Associée aux statistiques de rang, la statistique d'ordre fait partie des outils fondamentaux de la statistique non paramétrique et de l'inférence statistique. Deux cas importants de la statistique d'ordre sont les statistiques du minimum et du maximum, et dans une moindre mesure la médiane de l'échantillon ainsi que les différents quantiles.
Quantilevignette|Densité de probabilité d'une loi normale de moyenne μ et d'écart-type σ. On montre ici les trois quartiles Q1, Q2, Q3. L'aire sous la courbe rouge est la même dans les intervalles (−∞,Q1), (Q1,Q2), (Q2,Q3), et (Q3,+∞). La probabilité d'être dans chacun de ces intervalles est de 25%. En statistiques et en théorie des probabilités, les quantiles sont les valeurs qui divisent un jeu de données en intervalles de même probabilité égale. Il y a donc un quantile de moins que le nombre de groupes créés.
Fonction quantileEn probabilités, la fonction quantile est une fonction qui définit les quantiles. Soit X une variable aléatoire et F sa fonction de répartition, la fonction quantile est définie par pour toute valeur de , la notation désignant l’inverse généralisé à gauche de . Si F est une fonction strictement croissante et continue, alors est l'unique valeur de telle que . correspond alors à la fonction réciproque de , notée . En revanche, pour les lois discrètes, les fonctions de répartition sont toutes en escalier, d'où l'intérêt de la définition précédente.
Sample maximum and minimumIn statistics, the sample maximum and sample minimum, also called the largest observation and smallest observation, are the values of the greatest and least elements of a sample. They are basic summary statistics, used in descriptive statistics such as the five-number summary and Bowley's seven-figure summary and the associated box plot. The minimum and the maximum value are the first and last order statistics (often denoted X(1) and X(n) respectively, for a sample size of n).
Centilethumb|Définition du 95e centile d'une loi de Fisher-Snedecor En statistique descriptive, un centile (ou percentile) est une des 99 valeurs qui divisent une distribution de données en 100 parts égales de sorte que le p-ième centile soit la valeur supérieure à p % des autres valeurs. Les centiles sont un cas particulier des quantiles. Voir l'article "quantile" pour les méthodes. Un centile est calculé en tant que 100-quantile.
Loi exponentielleUne loi exponentielle modélise la durée de vie d'un phénomène sans mémoire, ou sans vieillissement, ou sans usure : la probabilité que le phénomène dure au moins s + t heures (ou n'importe quelle autre unité de temps) sachant qu'il a déjà duré t heures sera la même que la probabilité de durer s heures à partir de sa mise en fonction initiale. En d'autres termes, le fait que le phénomène ait duré pendant t heures ne change rien à son espérance de vie à partir du temps t.
Five-number summaryThe five-number summary is a set of descriptive statistics that provides information about a dataset. It consists of the five most important sample percentiles: the sample minimum (smallest observation) the lower quartile or first quartile the median (the middle value) the upper quartile or third quartile the sample maximum (largest observation) In addition to the median of a single set of data there are two related statistics called the upper and lower quartiles.
Statistique (indicateur)Une statistique est, au premier abord, le résultat d'une suite d'opérations appliquées à un ensemble de nombres appelé échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique à un ensemble de données. Dans le calcul de la moyenne arithmétique, par exemple, l'algorithme consiste à calculer la somme de toutes les valeurs des données et à diviser par le nombre de données. La moyenne est ainsi une statistique.
Écart interquartilevignette|Diagramme en boîte avec l'écart quartile apparent (noté IQR) En statistiques, l’écart interquartile (aussi appelé étendue interquartile ou EI ; en anglais, interquartile range ou IQR'') est une mesure de dispersion qui s'obtient en faisant la différence entre le troisième et le premier quartile : EI = Q3 - Q1. L'EI est un estimateur statistique robuste.
MidhingeIn statistics, the midhinge is the average of the first and third quartiles and is thus a measure of location. Equivalently, it is the 25% trimmed mid-range or 25% midsummary; it is an L-estimator. The midhinge is related to the interquartile range (IQR), the difference of the third and first quartiles (i.e. ), which is a measure of statistical dispersion. The two are complementary in sense that if one knows the midhinge and the IQR, one can find the first and third quartiles.
Donnée aberrantevignette|Ce graphique permet de visualiser la répartition de doyens selon leur âge de décès et l'âge de décès moyen des doyens de leur époque. Le record de longévité de Jeanne Calment constitue une anomalie statistique qui continue d'intriguer les gérontologues. En statistique, une donnée aberrante (anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées.
Valeur absolue des écartsEn statistique, la déviation absolue moyenne (ou simplement déviation moyenne) d'un ensemble est la moyenne (ou valeur prévue) des déviations absolues par rapport à un point central d'une série statistique. C'est une statistique sommaire de dispersion ou de variabilité statistique, et elle peut être associée à toute mesure à une tendance centrale (moyenne, médiane, mode...). La déviation absolue d'un élément a d'un ensemble de données x par rapport à un réel est a – x.
Asymétrie (statistiques)En théorie des probabilités et statistique, le coefficient d'asymétrie (skewness en anglais) correspond à une mesure de l’asymétrie de la distribution d’une variable aléatoire réelle. C’est le premier des paramètres de forme, avec le kurtosis (les paramètres basés sur les moments d’ordre 5 et plus n’ont pas de nom attribué). En termes généraux, l’asymétrie d’une distribution est positive si la queue de droite (à valeurs hautes) est plus longue ou grosse, et négative si la queue de gauche (à valeurs basses) est plus longue ou grosse.
Seven-number summaryIn descriptive statistics, the seven-number summary is a collection of seven summary statistics, and is an extension of the five-number summary. There are three similar, common forms. As with the five-number summary, it can be represented by a modified box plot, adding hatch-marks on the "whiskers" for two of the additional numbers. The following percentiles are (approximately) evenly spaced under a normally distributed variable: the 2nd percentile (better: 2.15%) the 9th percentile (better: 8.
Robustesse (statistiques)En statistiques, la robustesse d'un estimateur est sa capacité à ne pas être perturbé par une modification dans une petite partie des données ou dans les paramètres du modèle choisi pour l'estimation. Ricardo A. Maronna, R. Douglas Martin et Victor J. Yohai; Robust Statistics - Theory and Methods, Wiley Series in Probability and Statistics (2006). Dagnelie P.; Statistique théorique et appliquée. Tome 2 : Inférence statistique à une et à deux dimensions, Paris et Bruxelles (2006), De Boeck et Larcier.
TrimeanIn statistics the trimean (TM), or Tukey's trimean, is a measure of a probability distribution's location defined as a weighted average of the distribution's median and its two quartiles: This is equivalent to the average of the median and the midhinge: The foundations of the trimean were part of Arthur Bowley's teachings, and later popularized by statistician John Tukey in his 1977 book which has given its name to a set of techniques called exploratory data analysis.