Multiple comparisons problemIn statistics, the multiple comparisons, multiplicity or multiple testing problem occurs when one considers a set of statistical inferences simultaneously or infers a subset of parameters selected based on the observed values. The more inferences are made, the more likely erroneous inferences become. Several statistical techniques have been developed to address that problem, typically by requiring a stricter significance threshold for individual comparisons, so as to compensate for the number of inferences being made.
False discovery rateIn statistics, the false discovery rate (FDR) is a method of conceptualizing the rate of type I errors in null hypothesis testing when conducting multiple comparisons. FDR-controlling procedures are designed to control the FDR, which is the expected proportion of "discoveries" (rejected null hypotheses) that are false (incorrect rejections of the null). Equivalently, the FDR is the expected ratio of the number of false positive classifications (false discoveries) to the total number of positive classifications (rejections of the null).
Family-wise error rateIn statistics, family-wise error rate (FWER) is the probability of making one or more false discoveries, or type I errors when performing multiple hypotheses tests. John Tukey developed in 1953 the concept of a familywise error rate as the probability of making a Type I error among a specified group, or "family," of tests. Ryan (1959) proposed the related concept of an experimentwise error rate, which is the probability of making a Type I error in a given experiment.
Test de StudentEn statistique, un test de Student, ou test t, désigne n'importe quel test statistique paramétrique où la statistique de test calculée suit une loi de Student lorsque l’hypothèse nulle est vraie. gauche|vignette|Façade de la brasserie historique Guinness de St. James. vignette|William Sealy Gosset, qui inventa le test t, sous le pseudonyme Student. Le test de Student et la loi de probabilités qui lui correspond ont été publiés en 1908 dans la revue Biometrika par William Gosset.
Summary statisticsIn descriptive statistics, summary statistics are used to summarize a set of observations, in order to communicate the largest amount of information as simply as possible. Statisticians commonly try to describe the observations in a measure of location, or central tendency, such as the arithmetic mean a measure of statistical dispersion like the standard mean absolute deviation a measure of the shape of the distribution like skewness or kurtosis if more than one variable is measured, a measure of statistical dependence such as a correlation coefficient A common collection of order statistics used as summary statistics are the five-number summary, sometimes extended to a seven-number summary, and the associated box plot.
Harmonic mean p-valueThe harmonic mean p-value (HMP) is a statistical technique for addressing the multiple comparisons problem that controls the strong-sense family-wise error rate (this claim has been disputed). It improves on the power of Bonferroni correction by performing combined tests, i.e. by testing whether groups of p-values are statistically significant, like Fisher's method. However, it avoids the restrictive assumption that the p-values are independent, unlike Fisher's method.
One- and two-tailed testsIn statistical significance testing, a one-tailed test and a two-tailed test are alternative ways of computing the statistical significance of a parameter inferred from a data set, in terms of a test statistic. A two-tailed test is appropriate if the estimated value is greater or less than a certain range of values, for example, whether a test taker may score above or below a specific range of scores. This method is used for null hypothesis testing and if the estimated value exists in the critical areas, the alternative hypothesis is accepted over the null hypothesis.
Statistique (indicateur)Une statistique est, au premier abord, le résultat d'une suite d'opérations appliquées à un ensemble de nombres appelé échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique à un ensemble de données. Dans le calcul de la moyenne arithmétique, par exemple, l'algorithme consiste à calculer la somme de toutes les valeurs des données et à diviser par le nombre de données. La moyenne est ainsi une statistique.
Statistique de testEn statistique, une statistique de test - aussi appelée variable de décision - est une variable aléatoire construite à partir d'un échantillon statistique permettant de formuler une règle de décision pour un test statistique. Cette statistique n'est pas unique, ce qui permet de construire différentes règles de décision et de les comparer à l'aide de la notion de puissance statistique. Il est impératif de connaitre sa loi de probabilité lorsque l'hypothèse nulle est vraie. Sa loi sous l'hypothèse alternative est souvent inconnue.
Probabilité a prioriDans le théorème de Bayes, la probabilité a priori (ou prior) désigne une probabilité se fondant sur des données ou connaissances antérieures à une observation. Elle s'oppose à la probabilité a posteriori (ou posterior) correspondante qui s'appuie sur les connaissances postérieures à cette observation. Le théorème de Bayes s'énonce de la manière suivante : si . désigne ici la probabilité a priori de , tandis que désigne la probabilité a posteriori, c'est-à-dire la probabilité conditionnelle de sachant .
Five-number summaryThe five-number summary is a set of descriptive statistics that provides information about a dataset. It consists of the five most important sample percentiles: the sample minimum (smallest observation) the lower quartile or first quartile the median (the middle value) the upper quartile or third quartile the sample maximum (largest observation) In addition to the median of a single set of data there are two related statistics called the upper and lower quartiles.
Test statistiqueEn statistiques, un test, ou test d'hypothèse, est une procédure de décision entre deux hypothèses. Il s'agit d'une démarche consistant à rejeter ou à ne pas rejeter une hypothèse statistique, appelée hypothèse nulle, en fonction d'un échantillon de données. Il s'agit de statistique inférentielle : à partir de calculs réalisés sur des données observées, on émet des conclusions sur la population, en leur rattachant des risques d'être erronées. Hypothèse nulle L'hypothèse nulle notée H est celle que l'on considère vraie a priori.
Statistique descriptiveLa statistique descriptive est la branche des statistiques qui regroupe les nombreuses techniques utilisées pour décrire un ensemble relativement important de données. L'objectif de la statistique descriptive est de décrire, c'est-à-dire de résumer ou représenter, par des statistiques, les données disponibles quand elles sont nombreuses. Toute description d'un phénomène nécessite d'observer ou de connaître certaines choses sur ce phénomène. Les observations disponibles sont toujours constituées d'ensemble d'observations synchrones.
Test exact de FisherEn statistique, le test exact de Fisher est un test statistique exact utilisé pour l'analyse des tables de contingence. Ce test est utilisé en général avec de faibles effectifs mais il est valide pour toutes les tailles d'échantillons. Il doit son nom à son inventeur, Ronald Fisher. C'est un test qualifié d'exact car les probabilités peuvent être calculées exactement plutôt qu'en s'appuyant sur une approximation qui ne devient correcte qu'asymptotiquement comme pour le test du utilisé dans les tables de contingence.
Information de FisherEn statistique, l'information de Fisher quantifie l'information relative à un paramètre contenue dans une distribution. Elle est définie comme l'espérance de l'information observée, ou encore comme la variance de la fonction de score. Dans le cas multi-paramétrique, on parle de matrice d'information de Fisher. Elle a été introduite par R.A. Fisher. Soit f(x ; θ) la distribution de vraisemblance d'une variable aléatoire X (qui peut être multidimensionnelle), paramétrée par θ.
Statistical theoryThe theory of statistics provides a basis for the whole range of techniques, in both study design and data analysis, that are used within applications of statistics. The theory covers approaches to statistical-decision problems and to statistical inference, and the actions and deductions that satisfy the basic principles stated for these different approaches. Within a given approach, statistical theory gives ways of comparing statistical procedures; it can find a best possible procedure within a given context for given statistical problems, or can provide guidance on the choice between alternative procedures.
Jeffreys priorIn Bayesian probability, the Jeffreys prior, named after Sir Harold Jeffreys, is a non-informative prior distribution for a parameter space; its density function is proportional to the square root of the determinant of the Fisher information matrix: It has the key feature that it is invariant under a change of coordinates for the parameter vector . That is, the relative probability assigned to a volume of a probability space using a Jeffreys prior will be the same regardless of the parameterization used to define the Jeffreys prior.
Seven-number summaryIn descriptive statistics, the seven-number summary is a collection of seven summary statistics, and is an extension of the five-number summary. There are three similar, common forms. As with the five-number summary, it can be represented by a modified box plot, adding hatch-marks on the "whiskers" for two of the additional numbers. The following percentiles are (approximately) evenly spaced under a normally distributed variable: the 2nd percentile (better: 2.15%) the 9th percentile (better: 8.
Problème de la somme de sous-ensemblesLe problème de la somme de sous-ensembles (en anglais : subset sum problem) est un problème de décision important en complexité algorithmique et en cryptologie. Le problème peut être décrit de la manière suivante : étant donné un ensemble de entiers, existe-t-il un sous-ensemble de dont la somme des éléments est nulle ? Par exemple, pour l'ensemble {-8, -3, -2, 4, 5}, la réponse est oui car la somme des éléments du sous-ensemble {-3, -2, 5} est nulle, par contre pour {-6, -1, 2, 3, 8} la réponse est non.
Théorie de l'informationLa théorie de l'information, sans précision, est le nom usuel désignant la théorie de l'information de Shannon, qui est une théorie utilisant les probabilités pour quantifier le contenu moyen en information d'un ensemble de messages, dont le codage informatique satisfait une distribution statistique que l'on pense connaître. Ce domaine trouve son origine scientifique avec Claude Shannon qui en est le père fondateur avec son article A Mathematical Theory of Communication publié en 1948.