Validité interneLa validité interne et la validité externe sont des concepts proposés par Donald Campbell dans les années 1950 pour estimer le degré de confiance que l'on peut avoir dans le résultat d'une expérience scientifique. Assurer une bonne validité interne, c'est concevoir, mettre en œuvre et exploiter une expérience de façon à « [limiter] autant que faire se peut les biais imputables aux instruments de collecte ou de traitement des données ».
Validité externeLa validité externe d'une expérience scientifique désigne la capacité de ses conclusions à être généralisées à des contextes non-expérimentaux. Une expérience a une grande validité externe dès lors que ses résultats permettent de comprendre des phénomènes hors du laboratoire. À l'inverse, elle manque de validité externe si les conclusions que l'on peut en tirer ne sont valables que pour des conditions expérimentales restrictives.
Variable latenteIn statistics, latent variables (from Latin: present participle of lateo, “lie hidden”) are variables that can only be inferred indirectly through a mathematical model from other observable variables that can be directly observed or measured. Such latent variable models are used in many disciplines, including political science, demography, engineering, medicine, ecology, physics, machine learning/artificial intelligence, bioinformatics, chemometrics, natural language processing, management, psychology and the social sciences.
Random assignmentRandom assignment or random placement is an experimental technique for assigning human participants or animal subjects to different groups in an experiment (e.g., a treatment group versus a control group) using randomization, such as by a chance procedure (e.g., flipping a coin) or a random number generator. This ensures that each participant or subject has an equal chance of being placed in any group. Random assignment of participants helps to ensure that any differences between and within the groups are not systematic at the outset of the experiment.
Inférence causaleL'inférence causale est le processus par lequel on peut établir une relation de causalité entre un élément et ses effets. C'est un champ de recherche à la croisée des statistiques, de l'économétrie, de l'épidémiologie, de la méthodologie politique et de l'intelligence artificielle. En 1920, Sewall Wright développe la première path analysis. Cette analyse graphique des relations de causalité entre les variables constitue selon Judea Pearl un travail pionnier dans l'inférence causale.
Cum hoc ergo propter hocCum hoc ergo propter hoc (latin signifiant avec ceci, donc à cause de ceci) est un sophisme qui consiste à prétendre que si deux événements sont corrélés, alors, il y a un lien de cause à effet entre les deux. La confusion entre corrélation et causalité est appelée effet cigogne en zététique (en référence à la corrélation trompeuse entre le nombre de nids de cigognes et celui des naissances humaines) ; en science et particulièrement en statistique cette erreur est rappelée par la phrase « la corrélation n'implique pas la causalité », en latin : cum hoc sed non propter hoc (avec ceci, cependant pas à cause de ceci).
Paradoxe de SimpsonLe paradoxe de Simpson ou effet de Yule-Simpson est un paradoxe statistique décrit par Edward Simpson en 1951 et George Udny Yule en 1903, dans lequel un phénomène observé dans plusieurs groupes s'inverse lorsque les groupes sont combinés. Ce résultat, qui semble impossible au premier abord, est lié à des éléments qui ne sont pas pris en compte, comme la présence de variables non indépendantes ou de différences d'effectifs entre les groupes ; il est souvent rencontré dans la réalité, en particulier dans les sciences sociales et les statistiques médicales.
Spurious relationshipIn statistics, a spurious relationship or spurious correlation is a mathematical relationship in which two or more events or variables are associated but not causally related, due to either coincidence or the presence of a certain third, unseen factor (referred to as a "common response variable", "confounding factor", or "lurking variable"). An example of a spurious relationship can be found in the time-series literature, where a spurious regression is a one that provides misleading statistical evidence of a linear relationship between independent non-stationary variables.
Observational studyIn fields such as epidemiology, social sciences, psychology and statistics, an observational study draws inferences from a sample to a population where the independent variable is not under the control of the researcher because of ethical concerns or logistical constraints. One common observational study is about the possible effect of a treatment on subjects, where the assignment of subjects into a treated group versus a control group is outside the control of the investigator.
Étude cas-témoinsUne étude cas-témoins est une étude statistique observationnelle rétrospective utilisée en épidémiologie. Les études cas-témoins sont utilisées pour mettre en évidence des facteurs qui peuvent contribuer à l'apparition d'une maladie en comparant des sujets qui ont cette maladie (les cas) avec des sujets qui n'ont pas la maladie mais qui sont similaires par ailleurs (les témoins).
Facteur de risqueUn facteur de risque est une source de risque qui indique un certain degré de causalité, supérieur à une simple corrélation, avec un risque. Un facteur de risque doit en principe être contrôlable, c'est-à-dire que l'on peut avoir une influence sur ce facteur. Il est important de distinguer un « facteur de risque » d'un « marqueur de risque » : dans le premier cas, le « facteur », mis en évidence d'une manière ou d'une autre, est partiellement responsable du risque. Maîtriser ce facteur revient donc à diminuer significativement ce dernier.
Étude de cohorteUne étude de cohorte est une étude statistique de type longitudinal. Elle peut être ou interventionnelle, ou . Ce type d'étude scientifique est notamment utilisé en médecine et en épidémiologie (pour ces deux domaines, les bases de données collectées sont dédiées aux études de cohortes épidémiologiques), en sciences humaines et sociales, en science actuarielle et en écologie. L'une des premières études de cohorte connues fut menée par Janet Lane-Claypon en 1912 dans son étude intitulée Report to the Local Government Board upon the Available Data in Regard to the Value of Boiled Milk as a Food for Infants and Young Animals.
Témoin (science)vignette|Deux échantillons de vin avec, à gauche, un échantillon ayant subit une oxydation contrôlée sur moût et, à droite, le témoin. On observe une plus forte oxydation (couleur orange) dans le témoin. Dans une expérience scientifique, un témoin est un dispositif permettant d'isoler un facteur et de conclure sur l'action de ce facteur sur un phénomène physique ou biologique. Le témoin est nécessaire pour vérifier la probité de toute expérience scientifique. Dans une expérience, deux dispositifs sont mis en route.
Méthode expérimentaleLes méthodes expérimentales scientifiques consistent à tester la validité d'une hypothèse, en reproduisant un phénomène (souvent en laboratoire) et en faisant varier un paramètre. Le paramètre que l'on fait varier est impliqué dans l'hypothèse. Le résultat de l'expérience valide ou non l'hypothèse. La démarche expérimentale est appliquée dans les recherches dans des sciences telles que, par exemple, la biologie, la physique, la chimie, l'informatique, la psychologie, ou encore l'archéologie.
Régression linéaireEn statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
Omitted-variable biasIn statistics, omitted-variable bias (OVB) occurs when a statistical model leaves out one or more relevant variables. The bias results in the model attributing the effect of the missing variables to those that were included. More specifically, OVB is the bias that appears in the estimates of parameters in a regression analysis, when the assumed specification is incorrect in that it omits an independent variable that is a determinant of the dependent variable and correlated with one or more of the included independent variables.
Validity (statistics)Validity is the main extent to which a concept, conclusion or measurement is well-founded and likely corresponds accurately to the real world. The word "valid" is derived from the Latin validus, meaning strong. The validity of a measurement tool (for example, a test in education) is the degree to which the tool measures what it claims to measure. Validity is based on the strength of a collection of different types of evidence (e.g. face validity, construct validity, etc.) described in greater detail below.
Dependent and independent variablesDependent and independent variables are variables in mathematical modeling, statistical modeling and experimental sciences. Dependent variables are studied under the supposition or demand that they depend, by some law or rule (e.g., by a mathematical function), on the values of other variables. Independent variables, in turn, are not seen as depending on any other variable in the scope of the experiment in question. In this sense, some common independent variables are time, space, density, mass, fluid flow rate, and previous values of some observed value of interest (e.
Étude d'association pangénomiqueUne étude d'association pangénomique (en anglais genome-wide association study, GWAS) est une analyse de nombreuses variations génétiques chez de nombreux individus, afin d'étudier leurs corrélations avec des traits phénotypiques. Ces études se concentrent généralement sur les associations entre les polymorphismes nucléotidiques (SNP) et des phénotypes tels que les maladies humaines majeures. En effet, quand elle est appliquée sur des données humaines, une comparaison de séquences d’ADN se fait entre individus ayant plusieurs phénotypes différents pour un même caractère, la taille par exemple.
Échantillon biaiséEn statistiques, le mot biais a un sens précis qui n'est pas tout à fait le sens habituel du mot. Un échantillon biaisé est un ensemble d'individus d'une population, censé la représenter, mais dont la sélection des individus a introduit un biais qui ne permet alors plus de conclure directement pour l'ensemble de la population. Un échantillon biaisé n'est donc pas un échantillon de personnes biaisées (bien que ça puisse être le cas) mais avant tout un échantillon sélectionné de façon biaisée.