Data PreprocessingData preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.
Analyse des donnéesL’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Spectrométrie de massethumb|right|Spectromètre de masse La spectrométrie de masse est une technique physique d'analyse permettant de détecter et d'identifier des molécules d’intérêt par mesure de leur masse, et de caractériser leur structure chimique. Son principe réside dans la séparation en phase gazeuse de molécules chargées (ions) en fonction de leur rapport masse/charge (m/z). Elle est utilisée dans pratiquement tous les domaines scientifiques : physique, astrophysique, chimie en phase gazeuse, chimie organique, dosages, biologie, médecine, archéologie.
Ionisation par électronébuliseurthumb|Électronébuliseur L'ionisation par électronébuliseur ou ESI (de l'anglais en) est la dispersion d’un liquide sous forme de gouttelettes chargées électriquement. L'ionisation par électronébuliseur combine deux processus : formation des gouttelettes chargement des gouttelettes. La nébulisation des solutions par ESI est obtenue par une méthode électrostatique, i.e. en appliquant une différence de potentiel élevée (entre ±3 et ±5 kV) entre l’extrémité de l’émetteur (tube capillaire en acier inoxydable, jonction liquide) et un orifice situé à proximité.
DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.
Entrepôt de donnéesvignette|redresse=1.5|Vue d'ensemble d'une architecture entrepôt de données. Le terme entrepôt de données ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l'aide à la décision en entreprise. Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.
Spectroscopie infrarougethumb|Un spectromètre infrarouge. La spectroscopie infrarouge (parfois désignée comme spectroscopie IR) est une classe de spectroscopie qui traite de la région infrarouge du spectre électromagnétique. Elle recouvre une large gamme de techniques, la plus commune étant un type de spectroscopie d'absorption. Comme pour toutes les techniques de spectroscopie, elle peut être employée pour l'identification de composés ou pour déterminer la composition d'un échantillon.
Traitement de donnéesEn informatique, le terme traitement de données ou traitement électronique des données renvoie à une série de processus qui permettent d'extraire de l'information ou de produire du savoir à partir de données brutes. Ces processus, une fois programmés, sont le plus souvent automatisés à l'aide d'ordinateurs. Si les résultats finaux produits par ces processus sont destinés à des humains, leur présentation est souvent essentielle pour en apprécier la valeur. Cette appréciation est cependant variable selon les personnes.
Modèle de donnéesEn informatique, un modèle de données est un modèle qui décrit la manière dont sont représentées les données dans une organisation métier, un système d'information ou une base de données. Le terme modèle de données peut avoir deux significations : Un modèle de données théorique, c'est-à-dire une description formelle ou un modèle mathématique. Voir aussi modèle de base de données Un modèle de données instance, c'est-à-dire qui applique un modèle de données théorique (modélisation des données) pour créer un modèle de données instance.
Désorption-ionisation par électronébulisationLa désorption-ionisation par électronébulisation (en, DESI) est une méthode d’ionisation communément utilisée en spectrométrie de masse. Cette méthode permet l’ionisation d’une grande variété de composés, incluant les peptides et les protéines présents dans les métaux, les polymères et la surface des minéraux. La DESI a même permis l’imagerie de tissus intacts de cerveau de rat sous des conditions ambiantes. Tout d’abord, la DESI est une méthode instrumentale regroupant les aspects de l’ESI (Electrospray Ionization) et de la famille des méthodes DI (Desorption Ionization).
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Mass spectral interpretationMass spectral interpretation is the method employed to identify the chemical formula, characteristic fragment patterns and possible fragment ions from the mass spectra. Mass spectra is a plot of relative abundance against mass-to-charge ratio. It is commonly used for the identification of organic compounds from electron ionization mass spectrometry. Organic chemists obtain mass spectra of chemical compounds as part of structure elucidation and the analysis is part of many organic chemistry curricula.
ElectrosprayThe name electrospray is used for an apparatus that employs electricity to disperse a liquid or for the fine aerosol resulting from this process. High voltage is applied to a liquid supplied through an emitter (usually a glass or metallic capillary). Ideally the liquid reaching the emitter tip forms a Taylor cone, which emits a liquid jet through its apex. Varicose waves on the surface of the jet lead to the formation of small and highly charged liquid droplets, which are radially dispersed due to Coulomb repulsion.
Tandem mass spectrometryTandem mass spectrometry, also known as MS/MS or MS2, is a technique in instrumental analysis where two or more mass analyzers are coupled together using an additional reaction step to increase their abilities to analyse chemical samples. A common use of tandem MS is the analysis of biomolecules, such as proteins and peptides. The molecules of a given sample are ionized and the first spectrometer (designated MS1) separates these ions by their mass-to-charge ratio (often given as m/z or m/Q).
Spectrométrie de masse à résonance cyclonique ioniqueLa spectrométrie de masse à résonance cyclotronique ionique (FT-ICR-MS) est un instrument possédant un haut pouvoir de résolution et une bonne exactitude sur la masse très important pour l’analyse des protéines. C’est une technique basée sur le piégeage et l’excitation des ions dans une cellule ICR (résonance cyclotronique des ions) sous l’action d’un champ électromagnétique. Le spectre de masse est obtenu via la transformée de Fourier qui convertit le signal temporel acquis en spectre de fréquence proportionnel à la masse.
Exploration de donnéesL’exploration de données, connue aussi sous l'expression de fouille de données, forage de données, prospection de données, data mining, ou encore extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
Ion-mobility spectrometry–mass spectrometryIon mobility spectrometry–mass spectrometry (IMS-MS) is an analytical chemistry method that separates gas phase ions based on their interaction with a collision gas and their masses. In the first step, the ions are separated according to their mobility through a buffer gas on a millisecond timescale using an ion mobility spectrometer. The separated ions are then introduced into a mass analyzer in a second step where their mass-to-charge ratios can be determined on a microsecond timescale.
Ion sourceAn ion source is a device that creates atomic and molecular ions. Ion sources are used to form ions for mass spectrometers, optical emission spectrometers, particle accelerators, ion implanters and ion engines. Electron ionization Electron ionization is widely used in mass spectrometry, particularly for organic molecules. The gas phase reaction producing electron ionization is M{} + e^- -> M^{+\bullet}{} + 2e^- where M is the atom or molecule being ionized, e^- is the electron, and M^{+\bullet} is the resulting ion.
Forme quadratiquethumb|L'annulation d'une forme quadratique donne le cône de lumière de la relativité restreinte, son signe fait la différence entre les événements accessibles ou inaccessibles dans l'espace-temps. En mathématiques, une forme quadratique est un polynôme homogène de degré 2 avec un nombre quelconque de variables. Les formes quadratiques d'une, deux et trois variables sont données respectivement par les formules suivantes (a,b,c,d,e,f désignant des coefficients) : L'archétype de forme quadratique est la forme x + y + z sur R, qui définit la structure euclidienne et dont la racine carrée permet de calculer la norme d'un vecteur.