Publication

Progress Toward Interpretable Machine Learning-Based Disruption Predictors Across Tokamaks

Concepts associés (23)

La science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.

Donnée

Une donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.

Analyse des données

L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.

Big data

Le big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Gestion des données

La gestion des données est une discipline de gestion qui tend à valoriser les données en tant que ressources numériques. La gestion des données permet d'envisager le développement d'architectures, de réglementations, de pratiques et de procédures qui gèrent correctement les besoins des organismes sur le plan de tout le cycle de vie des données. Les données sont, avec les traitements, l'un des deux aspects des systèmes d'information traditionnellement identifiés, et l'un ne peut aller sans l'autre pour un management du système d'information cohérent.

Tokamak

thumb|Vue intérieure du tore du Tokamak à configuration variable (TCV), dont les parois sont recouvertes de tuiles de graphite. Un tokamak est un dispositif de confinement magnétique expérimental explorant la physique des plasmas et les possibilités de produire de l'énergie par fusion nucléaire. Il existe deux types de tokamaks aux caractéristiques sensiblement différentes, les tokamaks traditionnels toriques (objet de cet article) et les tokamaks sphériques.

Data Preprocessing

Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.

Labeled data

Labeled data is a group of samples that have been tagged with one or more labels. Labeling typically takes a set of unlabeled data and augments each piece of it with informative tags. For example, a data label might indicate whether a photo contains a horse or a cow, which words were uttered in an audio recording, what type of action is being performed in a video, what the topic of a news article is, what the overall sentiment of a tweet is, or whether a dot in an X-ray is a tumor.

Tokamak sphérique

thumb|Intérieur d'un tokamak sphérique. Un tokamak sphérique est un dispositif de confinement magnétique de plasma de type tokamak permettant d'obtenir des réactions de fusions de nucléons. Un tokamak sphérique a un solénoïde central beaucoup plus fin qu'un tokamak classique. Une telle installation serait susceptible d'être utilisée pour produire de l'électricité.

Périphérique d'entrée

Un périphérique d'entrée est un équipement informatique périphérique permettant de fournir des données à un système de traitement de l'information tel qu'un ordinateur. vignette|Un clavier d'ordinateur, périphérique d'entrée pour transmettre de l'information en pressant des touches En informatique, les logiciels ont souvent besoin d'entrée fournies par l'utilisateur. Afin de permettre à ce dernier d'interagir avec l'ordinateur, différents types de dispositifs électroniques ont été développés au cours du temps, avec plus ou moins de succès.

Joint European Torus

JET est un acronyme de l'anglais Joint European Torus (littéralement Tore commun européen) désignant le plus grand tokamak existant, situé au Culham Science Center, à Abingdon, près d'Oxford au Royaume-Uni, jusqu'à la construction d'ITER. Sa construction a débuté en 1979 et il a produit son premier plasma en 1983. Il résulte d'une collaboration entre les différents laboratoires nationaux européens, dans le cadre de l'Euratom. Il réalise la fusion nucléaire entre le deutérium et le tritium qui semblent les matériaux les plus appropriés pour les futurs réacteurs nucléaires.

Entrepôt de données

vignette|redresse=1.5|Vue d'ensemble d'une architecture entrepôt de données. Le terme entrepôt de données ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l'aide à la décision en entreprise. Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.

Fusion par confinement magnétique

La fusion par confinement magnétique (FCM) est une méthode de confinement utilisée pour porter une quantité de combustible aux conditions de température et de pression désirées pour la fusion nucléaire. De puissants champs électromagnétiques sont employés pour atteindre ces conditions. Le combustible doit au préalable être converti en plasma, celui-ci se laisse ensuite influencer par les champs magnétiques. Il s'agit de la méthode utilisée dans les tokamaks toriques et sphériques, les stellarators et les machines à piège à miroirs magnétiques.

Modèle de données

En informatique, un modèle de données est un modèle qui décrit la manière dont sont représentées les données dans une organisation métier, un système d'information ou une base de données. Le terme modèle de données peut avoir deux significations : Un modèle de données théorique, c'est-à-dire une description formelle ou un modèle mathématique. Voir aussi modèle de base de données Un modèle de données instance, c'est-à-dire qui applique un modèle de données théorique (modélisation des données) pour créer un modèle de données instance.

Data wrangling

Data wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytics. The goal of data wrangling is to assure quality and useful data. Data analysts typically spend the majority of their time in the process of data wrangling compared to the actual analysis of the data.

Données ouvertes

vignette|Autocollants utilisés par les militants des données ouvertes. Les données ouvertes (en anglais : open data) sont des données numériques dont l'accès et l'usage sont laissés libres aux usagers, qui peuvent être d'origine privée mais surtout publique, produites notamment par une collectivité ou un établissement public. Elles sont diffusées de manière structurée selon une méthode et une licence ouverte garantissant leur libre accès et leur réutilisation par tous, sans restriction technique, juridique ou financière.

Algorithme d'apprentissage incrémental

En informatique, un algorithme d'apprentissage incrémental ou incrémentiel est un algorithme d'apprentissage qui a la particularité d'être online, c'est-à-dire qui apprend à partir de données reçues au fur et à mesure du temps. À chaque incrément il reçoit des données d'entrées et un résultat, l'algorithme calcule alors une amélioration du calcul fait pour prédire le résultat à partir des données d'entrées.

Automated machine learning

Automated machine learning (AutoML) is the process of automating the tasks of applying machine learning to real-world problems. AutoML potentially includes every stage from beginning with a raw dataset to building a machine learning model ready for deployment. AutoML was proposed as an artificial intelligence-based solution to the growing challenge of applying machine learning. The high degree of automation in AutoML aims to allow non-experts to make use of machine learning models and techniques without requiring them to become experts in machine learning.

Entrée-sortie

Dans un système à base de processeur, de microprocesseur, de microcontrôleur ou d'automate, on appelle entrée-sortie toute interface permettant d’échanger des données entre le processeur et les périphériques qui lui sont associés. De la sorte, le système peut réagir à des modifications de son environnement, voire le contrôler. Elles sont parfois désignées par l'acronyme I/O, issu de l'anglais Input/Output ou encore E/S pour entrée/sortie. Dans un système d'exploitation : les entrées sont les données envoyées par un périphérique (disque, réseau, clavier, capteur.