Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
Analyse des donnéesL’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Topologievignette|Déformation continue d'une tasse avec une anse, en un tore (bouée). thumb|Un ruban de Möbius est une surface fermée dont le bord se réduit à un cercle. De tels objets sont des sujets étudiés par la topologie. La topologie est la branche des mathématiques qui étudie les propriétés d'objets géométriques préservées par déformation continue sans arrachage ni recollement, comme un élastique que l’on peut tendre sans le rompre.
DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.
Gene expression profilingIn the field of molecular biology, gene expression profiling is the measurement of the activity (the expression) of thousands of genes at once, to create a global picture of cellular function. These profiles can, for example, distinguish between cells that are actively dividing, or show how the cells react to a particular treatment. Many experiments of this sort measure an entire genome simultaneously, that is, every gene present in a particular cell. Several transcriptomics technologies can be used to generate the necessary data to analyse.
Topological data analysisIn applied mathematics, topological data analysis (TDA) is an approach to the analysis of datasets using techniques from topology. Extraction of information from datasets that are high-dimensional, incomplete and noisy is generally challenging. TDA provides a general framework to analyze such data in a manner that is insensitive to the particular metric chosen and provides dimensionality reduction and robustness to noise. Beyond this, it inherits functoriality, a fundamental concept of modern mathematics, from its topological nature, which allows it to adapt to new mathematical tools.
Nombre de sujets nécessairesEn statistique, la détermination du nombre de sujets nécessaires est l'acte de choisir le nombre d'observations ou de répétitions à inclure dans un échantillon statistique. Ce choix est très important pour pouvoir faire de l'inférence sur une population. En pratique, la taille de l'échantillon utilisé dans une étude est déterminée en fonction du coût de la collecte des données et de la nécessité d'avoir une puissance statistique suffisante.
Expression génétiqueL'expression des gènes, encore appelée expression génique ou expression génétique, désigne l'ensemble des processus biochimiques par lesquels l'information héréditaire stockée dans un gène est lue pour aboutir à la fabrication de molécules qui auront un rôle actif dans le fonctionnement cellulaire, comme les protéines ou les ARN. Même si toutes les cellules d'un organisme partagent le même génome, certains gènes ne sont exprimés que dans certaines cellules, à certaines périodes de la vie de l'organisme ou sous certaines conditions.
Topologie de l'ordreEn mathématiques, la topologie de l'ordre est une topologie naturelle définie sur tout ensemble ordonné (E, ≤), et qui dépend de la relation d'ordre ≤. Lorsque l'on définit la topologie usuelle de la droite numérique R, deux approches équivalentes sont possibles. On peut se fonder sur la relation d'ordre dans R, ou sur la valeur absolue de la distance entre deux nombres. Les égalités ci-dessous permettent de passer de l'une à l'autre : La valeur absolue se généralise en la notion de distance, qui induit le concept de topologie d'un espace métrique.
Test de StudentEn statistique, un test de Student, ou test t, désigne n'importe quel test statistique paramétrique où la statistique de test calculée suit une loi de Student lorsque l’hypothèse nulle est vraie. gauche|vignette|Façade de la brasserie historique Guinness de St. James. vignette|William Sealy Gosset, qui inventa le test t, sous le pseudonyme Student. Le test de Student et la loi de probabilités qui lui correspond ont été publiés en 1908 dans la revue Biometrika par William Gosset.
Analyse en série de l'expression des gènesL'analyse en série de l'expression des gènes (en anglais, Serial Analysis of Gene Expression ou SAGE) est une technique de biologie moléculaire permettant l'analyse de la population en ARNm d'un échantillon donné (organisme, cellules, tissus, etc.). La méthode originelle a été mise au point, et publiée en 1995, par le du centre d'oncologie de l'université Johns-Hopkins. La méthode SAGE est basée sur l'isolation de séquences spécifiques (étiquettes) de chaque ARN, la production des ADN complémentaires (ADNc) correspondant, la production d'une molécule d'ADN synthétique comportant tous ces ADNc, puis le séquençage de cette molécule.
General topologyIn mathematics, general topology (or point set topology) is the branch of topology that deals with the basic set-theoretic definitions and constructions used in topology. It is the foundation of most other branches of topology, including differential topology, geometric topology, and algebraic topology. The fundamental concepts in point-set topology are continuity, compactness, and connectedness: Continuous functions, intuitively, take nearby points to nearby points.
Simple random sampleIn statistics, a simple random sample (or SRS) is a subset of individuals (a sample) chosen from a larger set (a population) in which a subset of individuals are chosen randomly, all with the same probability. It is a process of selecting a sample in a random way. In SRS, each subset of k individuals has the same probability of being chosen for the sample as any other subset of k individuals. A simple random sample is an unbiased sampling technique. Simple random sampling is a basic type of sampling and can be a component of other more complex sampling methods.
Data PreprocessingData preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.
Topologie finaleEn mathématiques et plus précisément en topologie, la topologie finale, sur un ensemble d'arrivée commun à une famille d'applications définies chacune sur un espace topologique, est la topologie la plus fine pour laquelle toutes ces applications sont continues. La notion duale est celle de topologie initiale. Soient X un ensemble, (Y) une famille d'espaces topologiques et pour chaque indice i ∈ I, une application f : Y → X. La topologie finale sur X associée à la famille (f) est la plus fine des topologies sur X pour lesquelles chaque f est continue.
Échantillonnage (statistiques)thumb|Exemple d'échantillonnage aléatoire En statistique, l'échantillonnage désigne les méthodes de sélection d'un sous-ensemble d'individus (un échantillon) à l'intérieur d'une population pour estimer les caractéristiques de l'ensemble de la population. Cette méthode présente plusieurs avantages : une étude restreinte sur une partie de la population, un moindre coût, une collecte des données plus rapide que si l'étude avait été réalisé sur l'ensemble de la population, la réalisation de contrôles destructifs Les résultats obtenus constituent un échantillon.
Donnée aberrantevignette|Ce graphique permet de visualiser la répartition de doyens selon leur âge de décès et l'âge de décès moyen des doyens de leur époque. Le record de longévité de Jeanne Calment constitue une anomalie statistique qui continue d'intriguer les gérontologues. En statistique, une donnée aberrante (anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées.
Échantillonnage stratifiévignette|Vous prenez un échantillon aléatoire stratifié en divisant d'abord la population en groupes homogènes (semblables en eux-mêmes) (strates) qui sont distincts les uns des autres, c'est-à-dire. Le groupe 1 est différent du groupe 2. Ensuite, choisissez un EAS (échantillon aléatoire simple) distinct dans chaque strate et combinez ces EAS pour former l'échantillon complet. L'échantillonnage aléatoire stratifié est utilisé pour produire des échantillons non biaisés.
Médecine personnaliséeLa médecine personnalisée est une médecine cherchant à améliorer la stratification et la prise en charge des patients en utilisant des informations biologiques et des biomarqueurs au niveau des voies moléculaires des maladies, de la génétique, de la protéomique ainsi que de la métabolomique. La définition de la médecine personnalisée n’a pas été véritablement établie et est parfois floue.