DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.
Analyse des donnéesL’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Méta-analyseUne méta-analyse est une méthode scientifique systématique combinant les résultats d'une série d'études indépendantes sur un problème donné, selon un protocole reproductible. Plus spécifiquement, il s'agit d'une synthèse statistique des études incluses dans une revue systématique. La méta-analyse permet une analyse plus précise des données par l'augmentation du nombre de cas étudiés et de tirer une conclusion globale. La méta-analyse fait partie des méthodes d'analyse dites secondaires en ce sens qu'elles s'appuient sur la ré-exploitation de données existantes.
Gestion des donnéesLa gestion des données est une discipline de gestion qui tend à valoriser les données en tant que ressources numériques. La gestion des données permet d'envisager le développement d'architectures, de réglementations, de pratiques et de procédures qui gèrent correctement les besoins des organismes sur le plan de tout le cycle de vie des données. Les données sont, avec les traitements, l'un des deux aspects des systèmes d'information traditionnellement identifiés, et l'un ne peut aller sans l'autre pour un management du système d'information cohérent.
Entrepôt de donnéesvignette|redresse=1.5|Vue d'ensemble d'une architecture entrepôt de données. Le terme entrepôt de données ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l'aide à la décision en entreprise. Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.
Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
Sensibilité et spécificitéEn statistique, la sensibilité (ou sélectivité) d'un test mesure sa capacité à donner un résultat positif lorsqu'une hypothèse est vérifiée. Elle s'oppose à la spécificité, qui mesure la capacité d'un test à donner un résultat négatif lorsque l'hypothèse n'est pas vérifiée. Ces notions sont d'une importance majeure en épidémiologie et en , notamment au travers des courbes ROC. Cet article présente ces notions dans le cadre de l'application en épidémiologie.
Biais de sélectionDans une étude statistique, le terme biais de sélection désigne une erreur systématique faite lors de la sélection des sujets à étudier. Ce terme regroupe tous les biais pouvant conduire à ce que les sujets effectivement observés lors d'une enquête ne constituent pas un groupe représentatif des populations censées être étudiées et ne permettent donc pas de répondre aux questions posées dans le protocole. Les biais de sélection se produisent lors de l'échantillonnage, c'est-à-dire lors de la sélection d'un échantillon représentatif de la population étudiée.
Biais de publicationUn biais de publication désigne en science le fait que les chercheurs et les revues scientifiques ont bien plus tendance à publier des expériences ayant obtenu un résultat positif (statistiquement significatif) que des expériences ayant obtenu un résultat négatif (soutenant l'hypothèse nulle). Ce biais de publication donne aux lecteurs une perception biaisée (vers le positif) de l'état de la recherche. Plusieurs causes au biais de publication ont été avancées. En 1977, Michael J.
Modèle de donnéesEn informatique, un modèle de données est un modèle qui décrit la manière dont sont représentées les données dans une organisation métier, un système d'information ou une base de données. Le terme modèle de données peut avoir deux significations : Un modèle de données théorique, c'est-à-dire une description formelle ou un modèle mathématique. Voir aussi modèle de base de données Un modèle de données instance, c'est-à-dire qui applique un modèle de données théorique (modélisation des données) pour créer un modèle de données instance.
Courbe ROCLa fonction d’efficacité du récepteur, plus fréquemment désignée sous le terme « courbe ROC » (de l’anglais receiver operating characteristic, pour « caractéristique de fonctionnement du récepteur ») dite aussi caractéristique de performance (d'un test) ou courbe sensibilité/spécificité, est une mesure de la performance d'un classificateur binaire, c'est-à-dire d'un système qui a pour objectif de catégoriser des éléments en deux groupes distincts sur la base d'une ou plusieurs des caractéristiques de chacun
AnalysisAnalysis (: analyses) is the process of breaking a complex topic or substance into smaller parts in order to gain a better understanding of it. The technique has been applied in the study of mathematics and logic since before Aristotle (384–322 B.C.), though analysis as a formal concept is a relatively recent development. The word comes from the Ancient Greek ἀνάλυσις (analysis, "a breaking-up" or "an untying;" from ana- "up, throughout" and lysis "a loosening"). From it also comes the word's plural, analyses.
Data sharingData sharing is the practice of making data used for scholarly research available to other investigators. Many funding agencies, institutions, and publication venues have policies regarding data sharing because transparency and openness are considered by many to be part of the scientific method. A number of funding agencies and science journals require authors of peer-reviewed papers to share any supplemental information (raw data, statistical methods or source code) necessary to understand, develop or reproduce published research.
Biais de notificationUn biais de notification (reporting bias en anglais) est, dans le domaine de la recherche scientifique, un biais statistique qui survient quand la diffusion des résultats d'une étude est influencée par la nature et l'orientation des résultats obtenus ou souhaités. L'exemple le plus identifié et connu est le biais de publication. D'autres biais de notification sont moins pris en considération et pourtant ils peuvent être d'égale importance du fait de leur influence sur les méta-analyses et revues systématiques.
Revue systématiquethumb|Ce diagramme illustre ce que font les auteurs d'une revue systématique. Une revue systématique est un travail de collecte, d'évaluation critique et de synthèse des connaissances existantes sur une question donnée. Cette question bien définie est issue de l'étude d'une problématique posée par un commanditaire, un gestionnaire, un praticien, un chercheur... Il s'agit, contrairement à une revue narrative et non systématique de la littérature, de minimiser les biais pouvant être inhérents soit à la matière première (données, connaissances) soit à la conduite de la revue elle-même, afin d'atteindre la plus grande objectivité possible.
Recherche scientifiquevignette|Une laborantine du Laboratoire fédéral d'essai des matériaux et de recherche (EMPA) à Saint-Gall, en 1964. La recherche scientifique est, en premier lieu, l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, on utilise également ce terme dans le cadre social, économique, institutionnel et juridique de ces actions. thumb|Allégorie de la Recherche, bronze par , 1896, Thomas Jefferson Building.
Biais des survivantsLe biais des survivants est une forme de biais de sélection consistant à surévaluer les chances de succès d'une initiative en concentrant l'attention sur les sujets ayant réussi mais qui sont des exceptions statistiques (des « survivants ») plutôt que des cas représentatifs. En architecture également, les bâtiments de plus de cent ans encore debout donnent une fausse impression de « qualité de la construction d'antan » alors qu'ils ne représentent qu'une infime part de ce qui a été construit depuis l'invention de la construction, le reste s'étant écroulé ou ayant été démoli.
Processus stochastiqueUn processus ou processus aléatoire (voir Calcul stochastique) ou fonction aléatoire (voir Probabilité) représente une évolution, discrète ou à temps continu, d'une variable aléatoire. Celle-ci intervient dans le calcul classique des probabilités, où elle mesure chaque résultat possible (ou réalisation) d'une épreuve. Cette notion se généralise à plusieurs dimensions. Un cas particulier important, le champ aléatoire de Markov, est utilisé en analyse spatiale.