Inférence causaleL'inférence causale est le processus par lequel on peut établir une relation de causalité entre un élément et ses effets. C'est un champ de recherche à la croisée des statistiques, de l'économétrie, de l'épidémiologie, de la méthodologie politique et de l'intelligence artificielle. En 1920, Sewall Wright développe la première path analysis. Cette analyse graphique des relations de causalité entre les variables constitue selon Judea Pearl un travail pionnier dans l'inférence causale.
Causal modelIn the philosophy of science, a causal model (or structural causal model) is a conceptual model that describes the causal mechanisms of a system. Several types of causal notation may be used in the development of a causal model. Causal models can improve study designs by providing clear rules for deciding which independent variables need to be included/controlled for. They can allow some questions to be answered from existing observational data without the need for an interventional study such as a randomized controlled trial.
Causalitévignette|Exemple classique de la chute d'un domino causé par la chute d'un autre. En science, en philosophie et dans le langage courant, la causalité désigne la relation de cause à effet. la cause, corrélat de l'effet, c'est . C'est ce qui produit l'effet ; la causalité est le . Autrement dit, la causalité est l'influence par laquelle un événement, un processus, un état ou un objet (une cause) contribue à la production d'un autre événement, processus, état ou objet (un effet) considéré comme sa conséquence.
Causal reasoningCausal reasoning is the process of identifying causality: the relationship between a cause and its effect. The study of causality extends from ancient philosophy to contemporary neuropsychology; assumptions about the nature of causality may be shown to be functions of a previous event preceding a later one. The first known protoscientific study of cause and effect occurred in Aristotle's Physics. Causal inference is an example of causal reasoning. Causal relationships may be understood as a transfer of force.
Modèle causal de Neyman-RubinLe modèle causal de Neyman-Rubin (ou modèle à résultats potentiels, en anglais potential outcome model) est un cadre de pensée permettant d'identifier statistiquement l'effet causal d'une variable sur une autre. La première version du modèle a été proposée par Jerzy Neyman en 1923 dans son mémoire de maîtrise. Le modèle a ensuite été généralisé par Donald Rubin dans un article intitulé « ». Le nom du modèle a été donné par Paul Holland dans un article de 1986 intitulé « ». Expérience naturelle Méthode des
Diagramme de boucle causalevignette|308x308px|Exemple de boucle de rétroaction de renforcement : solde bancaire (bank balance) et intérêts perçus (earned interest) Un diagramme de boucle causale (DBC) est un diagramme qui permet de visualiser comment les différentes variables dans un système sont interdépendantes. Le diagramme se compose d'un ensemble de nœuds et d'arcs. Les nœuds représentent les variables et les arcs les connexions, ou liens de causalités, entre les variables.
Causal graphIn statistics, econometrics, epidemiology, genetics and related disciplines, causal graphs (also known as path diagrams, causal Bayesian networks or DAGs) are probabilistic graphical models used to encode assumptions about the data-generating process. Causal graphs can be used for communication and for inference. They are complementary to other forms of causal reasoning, for instance using causal equality notation. As communication devices, the graphs provide formal and transparent representation of the causal assumptions that researchers may wish to convey and defend.
Unique identifierA unique identifier (UID) is an identifier that is guaranteed to be unique among all identifiers used for those objects and for a specific purpose. The concept was formalized early in the development of computer science and information systems. In general, it was associated with an atomic data type. In relational databases, certain attributes of an entity that serve as unique identifiers are called primary keys. In mathematics, set theory uses the concept of element indices as unique identifiers.
Variable latenteIn statistics, latent variables (from Latin: present participle of lateo, “lie hidden”) are variables that can only be inferred indirectly through a mathematical model from other observable variables that can be directly observed or measured. Such latent variable models are used in many disciplines, including political science, demography, engineering, medicine, ecology, physics, machine learning/artificial intelligence, bioinformatics, chemometrics, natural language processing, management, psychology and the social sciences.
Path analysisIn statistics, path analysis is used to describe the directed dependencies among a set of variables. This includes models equivalent to any form of multiple regression analysis, factor analysis, canonical correlation analysis, discriminant analysis, as well as more general families of models in the multivariate analysis of variance and covariance analyses (MANOVA, ANOVA, ANCOVA).
DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.
Errors-in-variables modelsIn statistics, errors-in-variables models or measurement error models are regression models that account for measurement errors in the independent variables. In contrast, standard regression models assume that those regressors have been measured exactly, or observed without error; as such, those models account only for errors in the dependent variables, or responses. In the case when some regressors have been measured with errors, estimation based on the standard assumption leads to inconsistent estimates, meaning that the parameter estimates do not tend to the true values even in very large samples.
Latent variable modelA latent variable model is a statistical model that relates a set of observable variables (also called manifest variables or indicators) to a set of latent variables. It is assumed that the responses on the indicators or manifest variables are the result of an individual's position on the latent variable(s), and that the manifest variables have nothing in common after controlling for the latent variable (local independence).
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
IdentifiantUn identifiant est une sorte de nom qui sert à identifier un objet précis dans un ensemble d'objets ; ou plus largement toute suite de caractères qui joue ce rôle-là. En principe, un identifiant devrait être unique pour chaque objet. En pratique (comme pour les noms de personnes ou de lieux) ce n'est pas toujours le cas, sauf s'il s'agit d'un ensemble d'identifiants défini par une norme technique. Un identifiant de métadonnée est un signe, une étiquette ou un jeton indépendant du langage, qui identifie de manière unique un objet au sein d'un schéma d'identification.
Spurious relationshipIn statistics, a spurious relationship or spurious correlation is a mathematical relationship in which two or more events or variables are associated but not causally related, due to either coincidence or the presence of a certain third, unseen factor (referred to as a "common response variable", "confounding factor", or "lurking variable"). An example of a spurious relationship can be found in the time-series literature, where a spurious regression is a one that provides misleading statistical evidence of a linear relationship between independent non-stationary variables.
Propagation des convictionsLa propagation des convictions (Belief Propagation ou BP en anglais), aussi connu comme la transmission de message somme-produit, est un algorithme à passage de message pour effectuer des inférences sur des modèles graphiques, tels que les réseaux Bayésiens et les champs de Markov. Il calcule la distribution marginale de chaque nœud « non-observé » conditionnée sur les nœuds observés.
Modèle d'équations structurellesLa modélisation d'équations structurelles ou la modélisation par équations structurelles ou encore la modélisation par équations structurales (en anglais structural equation modeling ou SEM) désignent un ensemble diversifié de modèles mathématiques, algorithmes informatiques et méthodes statistiques qui font correspondre un réseau de concepts à des données. On parle alors de modèles par équations structurales, ou de modèles en équations structurales ou encore de modèles d’équations structurelles.
Réseau bayésienEn informatique et en statistique, un réseau bayésien est un modèle graphique probabiliste représentant un ensemble de variables aléatoires sous la forme d'un graphe orienté acyclique. Intuitivement, un réseau bayésien est à la fois : un modèle de représentation des connaissances ; une « machine à calculer » des probabilités conditionnelles une base pour des systèmes d'aide à la décision Pour un domaine donné (par exemple médical), on décrit les relations causales entre variables d'intérêt par un graphe.
Fonction gaussiennevignette|Fonction gaussienne pour μ = 0, σ = 1 ; courbe centrée en zéro. Une fonction gaussienne est une fonction en exponentielle de l'opposé du carré de l'abscisse (une fonction en exp(-x)). Elle a une forme caractéristique de courbe en cloche. L'exemple le plus connu est la densité de probabilité de la loi normale où μ est l'espérance mathématique et σ est l'écart type. Les fonctions gaussiennes sont analytiques, de limite nulle en l'infini. La largeur à mi-hauteur H vaut la demi-largeur à mi-hauteur vaut donc environ 1,177·σ.