Publication

Comparing molecules and solids across structural and alchemical space

Concepts associés (32)

Ridge regression is a method of estimating the coefficients of multiple-regression models in scenarios where the independent variables are highly correlated. It has been used in many fields including econometrics, chemistry, and engineering. Also known as Tikhonov regularization, named for Andrey Tikhonov, it is a method of regularization of ill-posed problems. It is particularly useful to mitigate the problem of multicollinearity in linear regression, which commonly occurs in models with large numbers of parameters.

Régression linéaire

En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.

Mean absolute error

In statistics, mean absolute error (MAE) is a measure of errors between paired observations expressing the same phenomenon. Examples of Y versus X include comparisons of predicted versus observed, subsequent time versus initial time, and one technique of measurement versus an alternative technique of measurement. MAE is calculated as the sum of absolute errors divided by the sample size: It is thus an arithmetic average of the absolute errors , where is the prediction and the true value.

Least absolute deviations

Least absolute deviations (LAD), also known as least absolute errors (LAE), least absolute residuals (LAR), or least absolute values (LAV), is a statistical optimality criterion and a statistical optimization technique based on minimizing the sum of absolute deviations (also sum of absolute residuals or sum of absolute errors) or the L1 norm of such values. It is analogous to the least squares technique, except that it is based on absolute values instead of squared values.

Bayesian linear regression

Bayesian linear regression is a type of conditional modeling in which the mean of one variable is described by a linear combination of other variables, with the goal of obtaining the posterior probability of the regression coefficients (as well as other parameters describing the distribution of the regressand) and ultimately allowing the out-of-sample prediction of the regressand (often labelled ) conditional on observed values of the regressors (usually ).

Molécule

thumb|Modèle en 3 dimensions d'une molécule de saccharose.|alt= thumb|Schéma de la liaison covalente de deux atomes d'oxygène. Une molécule est une structure de base de la matière appartenant à la famille des composés covalents. L'Union internationale de chimie pure et appliquée définit la molécule comme . C'est l'assemblage chimique électriquement neutre d'au moins deux atomes, différents ou non, qui peut exister à l'état libre, et qui représente la plus petite quantité de matière possédant les propriétés caractéristiques de la substance considérée.

Lasso (statistiques)

En statistiques, le lasso est une méthode de contraction des coefficients de la régression développée par Robert Tibshirani dans un article publié en 1996 intitulé Regression shrinkage and selection via the lasso. Le nom est un acronyme anglais : Least Absolute Shrinkage and Selection Operator. Bien que cette méthode fut utilisée à l'origine pour des modèles utilisant l'estimateur usuel des moindres carrés, la pénalisation lasso s'étend facilement à de nombreux modèles statistiques tels que les modèles linéaires généralisés, les modèles à risque proportionnel, et les M-estimateurs.

Physique moléculaire

droite|vignette|264x264px| Structure moléculaire du diamant en rotation La physique moléculaire est l'étude des propriétés physiques des molécules, des liaisons chimiques entre atomes ainsi que de la dynamique moléculaire. Les techniques expérimentales les plus importantes en physique moléculaire sont les divers types de spectroscopie ; la diffusion y est également utilisée. Ce domaine de physique moléculaire est étroitement lié à celui de la physique atomique et recoupe largement ceux de la chimie théorique, la chimie physique et la physique chimique .

Elastic net regularization

In statistics and, in particular, in the fitting of linear or logistic regression models, the elastic net is a regularized regression method that linearly combines the L1 and L2 penalties of the lasso and ridge methods. The elastic net method overcomes the limitations of the LASSO (least absolute shrinkage and selection operator) method which uses a penalty function based on Use of this penalty function has several limitations. For example, in the "large p, small n" case (high-dimensional data with few examples), the LASSO selects at most n variables before it saturates.

Régression de Poisson

En statistique, la régression de Poisson est un modèle linéaire généralisé utilisé pour les données de comptage et les tableaux de contingence. Cette régression suppose que la variable réponse Y suit une loi de Poisson et que le logarithme de son espérance peut être modélisé par une combinaison linéaire de paramètre inconnus. Soit un vecteur de variables indépendantes, et la variable que l'on cherche à prédire. Réaliser une régression de Poisson revient à supposer que suit une loi de Poisson de paramètre , avec et les paramètres de la régression à estimer, et le produit scalaire standard de .

Résidu (statistiques)

In statistics and optimization, errors and residuals are two closely related and easily confused measures of the deviation of an observed value of an element of a statistical sample from its "true value" (not necessarily observable). The error of an observation is the deviation of the observed value from the true value of a quantity of interest (for example, a population mean). The residual is the difference between the observed value and the estimated value of the quantity of interest (for example, a sample mean).

Regularized least squares

Regularized least squares (RLS) is a family of methods for solving the least-squares problem while using regularization to further constrain the resulting solution. RLS is used for two main reasons. The first comes up when the number of variables in the linear system exceeds the number of observations. In such settings, the ordinary least-squares problem is ill-posed and is therefore impossible to fit because the associated optimization problem has infinitely many solutions.

Mean percentage error

In statistics, the mean percentage error (MPE) is the computed average of percentage errors by which forecasts of a model differ from actual values of the quantity being forecast. The formula for the mean percentage error is: where at is the actual value of the quantity being forecast, ft is the forecast, and n is the number of different times for which the variable is forecast. Because actual rather than absolute values of the forecast errors are used in the formula, positive and negative forecast errors can offset each other; as a result the formula can be used as a measure of the bias in the forecasts.

Théorie des bandes

redresse=1.5|vignette|Représentation schématique des bandes d'énergie d'un solide. représente le niveau de Fermi. thumb|upright=1.5|Animation sur le point de vue quantique sur les métaux et isolants liée à la théorie des bandes En physique de l'état solide, la théorie des bandes est une modélisation des valeurs d'énergie que peuvent prendre les électrons d'un solide à l'intérieur de celui-ci. De façon générale, ces électrons n'ont la possibilité de prendre que des valeurs d'énergie comprises dans certains intervalles, lesquels sont séparés par des bandes d'énergie interdites (ou bandes interdites).

Sélection de caractéristique

La sélection de caractéristique (ou sélection d'attribut ou de variable) est un processus utilisé en apprentissage automatique et en traitement de données. Il consiste, étant donné des données dans un espace de grande dimension, à trouver un sous-sensemble de variables pertinentes. C'est-à-dire que l'on cherche à minimiser la perte d'information venant de la suppression de toutes les autres variables. C'est une méthode de réduction de la dimensionnalité. Extraction de caractéristique Catégorie:Apprentissage

Tableau périodique des éléments

vignette|400px|Tableau périodique des éléments au . 400px|vignette|Avec davantage de détails par élément. Le tableau périodique des éléments, également appelé tableau ou table de Mendeleïev, classification périodique des éléments ou simplement tableau périodique, représente tous les éléments chimiques, ordonnés par numéro atomique croissant et organisés en fonction de leur configuration électronique, laquelle sous-tend leurs propriétés chimiques.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Modélisation moléculaire

thumb|Animation d'un modèle compact d'ADN en forme B|327x327px|alt=Modèle de l'ADN en forme B La modélisation moléculaire est un ensemble de techniques pour modéliser ou simuler le comportement de molécules. Elle est utilisée pour reconstruire la structure tridimensionnelle de molécules, en particulier en biologie structurale, à partir de données expérimentales comme la cristallographie aux rayons X. Elle permet aussi de simuler le comportement dynamique des molécules et leur mouvements internes.

Composé organique

Les composés organiques sont les composés dont un des éléments chimiques constitutifs est le carbone, à quelques exceptions près. Ces composés peuvent être d’origine naturelle ou produits par synthèse. Il est utile, au préalable, de distinguer les composés organiques des composés inorganiques. Un composé est une espèce chimique constituée d’au moins deux éléments chimiques différents. L'étymologie du terme « organique » est historique.

Chimie organique

La chimie organique est le domaine de la chimie qui étudie les composés organiques, c'est-à-dire les composés du carbone (à l'exception de quelques composés simples qui par tradition relèvent de la chimie minérale). Ces composés peuvent être naturels ou synthétiques. Une caractéristique du carbone consiste en l’aptitude qu’ont ses atomes à s’enchaîner les uns aux autres, par des liaisons covalentes, d'une façon presque indéfinie, pour former des chaînes carbonées d’une grande diversité.