Publication

Robustness of Local Predictions in Atomistic Machine Learning Models

Concepts associés (32)

Automated machine learning (AutoML) is the process of automating the tasks of applying machine learning to real-world problems. AutoML potentially includes every stage from beginning with a raw dataset to building a machine learning model ready for deployment. AutoML was proposed as an artificial intelligence-based solution to the growing challenge of applying machine learning. The high degree of automation in AutoML aims to allow non-experts to make use of machine learning models and techniques without requiring them to become experts in machine learning.

Jeux d'entrainement, de validation et de test

En apprentissage automatique, une tâche courante est l'étude et la construction d'algorithmes qui peuvent apprendre et faire des prédictions sur les données. De tels algorithmes fonctionnent en faisant des prédictions ou des décisions basées sur les données, en construisant un modèle mathématique à partir des données d'entrée. Ces données d'entrée utilisées pour construire le modèle sont généralement divisées en plusieurs jeux de données .

Federal enterprise architecture

A federal enterprise architecture framework (FEAF) is the U.S. reference enterprise architecture of a federal government. It provides a common approach for the integration of strategic, business and technology management as part of organization design and performance improvement. The most familiar federal enterprise architecture is the enterprise architecture of the Federal government of the United States, the U.S. "Federal Enterprise Architecture" (FEA) and the corresponding U.S. "Federal Enterprise Architecture Framework" (FEAF).

Business architecture

In the business sector, business architecture is a discipline that "represents holistic, multidimensional business views of: capabilities, end‐to‐end value delivery, information, and organizational structure; and the relationships among these business views and strategies, products, policies, initiatives, and stakeholders." In application, business architecture provides a bridge between an enterprise business model and enterprise strategy on one side, and the business functionality of the enterprise on the other side.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Exploration de données

L’exploration de données, connue aussi sous l'expression de fouille de données, forage de données, prospection de données, data mining, ou encore extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.

View model

A view model or viewpoints framework in systems engineering, software engineering, and enterprise engineering is a framework which defines a coherent set of views to be used in the construction of a system architecture, software architecture, or enterprise architecture. A view is a representation of the whole system from the perspective of a related set of concerns. Since the early 1990s there have been a number of efforts to prescribe approaches for describing and analyzing system architectures.

Cadre d'architecture

Un cadre d'architecture est une spécification sur la façon d'organiser et de présenter une architecture de systèmes ou l'architecture informatique d'un organisme. Étant donné que les disciplines de l'architecture de systèmes et de l'architecture informatique sont très larges, et que la taille de ces systèmes peut être très grande, il peut en résulter des modèles très complexes. Afin de gérer cette complexité, il est avantageux de définir un cadre d'architecture par un ensemble standard de catégories de modèles (appelés “vues”) qui ont chacun un objectif spécifique.

Atome

redresse=1.25|vignette|Représentation d'un atome d' avec, apparaissant rosé au centre, le noyau atomique et, en dégradé de gris tout autour, le nuage électronique. Le noyau d', agrandi à droite, est formé de deux protons et de deux neutrons. redresse=1.25|vignette|Atomes de carbone à la surface de graphite observés par microscope à effet tunnel. Un atome est la plus petite partie d'un corps simple pouvant se combiner chimiquement avec un autre. Les atomes sont les constituants élémentaires de toutes les substances solides, liquides ou gazeuses.

Nonlinear dimensionality reduction

Nonlinear dimensionality reduction, also known as manifold learning, refers to various related techniques that aim to project high-dimensional data onto lower-dimensional latent manifolds, with the goal of either visualizing the data in the low-dimensional space, or learning the mapping (either from the high-dimensional space to the low-dimensional embedding or vice versa) itself. The techniques described below can be understood as generalizations of linear decomposition methods used for dimensionality reduction, such as singular value decomposition and principal component analysis.

Data wrangling

Data wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytics. The goal of data wrangling is to assure quality and useful data. Data analysts typically spend the majority of their time in the process of data wrangling compared to the actual analysis of the data.

Data Preprocessing

Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.

Potentiel chimique

En thermodynamique, le potentiel chimique d'une espèce chimique correspond à la variation d'énergie d'un système thermodynamique due à la variation de la quantité (nombre de moles) de cette espèce dans ce système. Étroitement lié au deuxième principe de la thermodynamique, le potentiel chimique permet d'étudier la stabilité des espèces chimiques et leur tendance à changer d'état, à réagir chimiquement ou à migrer par diffusion. La fugacité et l'activité chimique, définies à partir du potentiel chimique, sont plus faciles à manipuler que celui-ci.

Algorithme d'apprentissage incrémental

En informatique, un algorithme d'apprentissage incrémental ou incrémentiel est un algorithme d'apprentissage qui a la particularité d'être online, c'est-à-dire qui apprend à partir de données reçues au fur et à mesure du temps. À chaque incrément il reçoit des données d'entrées et un résultat, l'algorithme calcule alors une amélioration du calcul fait pour prédire le résultat à partir des données d'entrées.

Modèle atomique de Rutherford

Le modèle atomique de Rutherford est un modèle physique proposé en 1911 par Ernest Rutherford pour décrire la structure d'un atome. Ce modèle fait suite au modèle atomique de Thomson (ou « modèle du plum pudding »), proposé en 1904 par Joseph John Thomson (dont Rutherford était l'élève), et qui fut invalidé à la suite de l'expérience de Rutherford ou « expérience de la feuille d'or » en 1909.

Théorie de la complexité (informatique théorique)

vignette|Quelques classes de complexité étudiées dans le domaine de la théorie de la complexité. Par exemple, P est la classe des problèmes décidés en temps polynomial par une machine de Turing déterministe. La théorie de la complexité est le domaine des mathématiques, et plus précisément de l'informatique théorique, qui étudie formellement le temps de calcul, l'espace mémoire (et plus marginalement la taille d'un circuit, le nombre de processeurs, l'énergie consommée ...) requis par un algorithme pour résoudre un problème algorithmique.

Science des données

La science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.

Modèle atomique de Thomson

Le modèle atomique de Thomson (dit aussi le modèle du plum pudding) fut proposé par Joseph John Thomson, qui découvrit l'électron en 1897. Il fut proposé en 1904 avant la découverte du noyau simplifié. Dans ce modèle, l'atome est composé d'électrons plongés dans une de charge positive pour équilibrer la charge négative des électrons, comme des prunes () dans un pudding. À cette époque, Joseph John Thomson continuait à appeler « corpuscules », bien que George Stoney eut proposé la dénomination d'électrons en 1894.

Prédiction de la structure des protéines

La prédiction de la structure des protéines est l'inférence de la structure tridimensionnelle des protéines à partir de leur séquences d'acides aminés, c'est-à-dire la prédiction de leur pliage et de leur structures secondaire et tertiaire à partir de leur structure primaire. La prédiction de la structure est fondamentalement différente du problème inverse de la conception des protéines. Elle est l'un des objectifs les plus importants poursuivis par la bioinformatique et la chimie théorique.

Protein function prediction

Protein function prediction methods are techniques that bioinformatics researchers use to assign biological or biochemical roles to proteins. These proteins are usually ones that are poorly studied or predicted based on genomic sequence data. These predictions are often driven by data-intensive computational procedures. Information may come from nucleic acid sequence homology, gene expression profiles, protein domain structures, text mining of publications, phylogenetic profiles, phenotypic profiles, and protein-protein interaction.