Publication

Structure-Property Relationships in Complex Materials by Combining Supervised and Unsupervised Machine Learning

Concepts associés (32)

La structure des protéines est la composition en acides aminés et la conformation en trois dimensions des protéines. Elle décrit la position relative des différents atomes qui composent une protéine donnée. Les protéines sont des macromolécules de la cellule, dont elles constituent la « boîte à outils », lui permettant de digérer sa nourriture, produire son énergie, de fabriquer ses constituants, de se déplacer, etc. Elles se composent d'un enchaînement linéaire d'acides aminés liés par des liaisons peptidiques.

Apprentissage supervisé

L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.

Apprentissage de représentations

En apprentissage automatique, l'apprentissage des caractéristiques ou apprentissage des représentations est un ensemble de techniques qui permet à un système de découvrir automatiquement les représentations nécessaires à la détection ou à la classification des caractéristiques à partir de données brutes. Cela remplace l'ingénierie manuelle des fonctionnalités et permet à une machine d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.

Apprentissage non supervisé

Dans le domaine informatique et de l'intelligence artificielle, l'apprentissage non supervisé désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées (par exemple étiquetées comme « balle » ou « poisson »). Il s'agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l'algorithme de calculer de façon certaine un score de réussite.

Apprentissage auto-supervisé

L'apprentissage auto-supervisé ("self-supervised learning" en anglais) (SSL) est une méthode d'apprentissage automatique. Il apprend à partir d'échantillons de données non étiquetés. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. Il est basé sur un réseau de neurones artificiels. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau.

Protéine

redresse=1.36|vignette|Représentation d'une protéine, ici deux sous-unités d'une molécule d'hémoglobine. On observe les représentées en couleur, ainsi que deux des quatre molécules d'hème, qui sont les groupes prosthétiques caractéristiques de cette protéine. redresse=1.36|vignette|Liaison peptidique –CO–NH– au sein d'un polypeptide. Le motif constitue le squelette de la protéine, tandis que les groupes liés aux sont les chaînes latérales des résidus d'acides aminés.

Prédiction de la structure des protéines

La prédiction de la structure des protéines est l'inférence de la structure tridimensionnelle des protéines à partir de leur séquences d'acides aminés, c'est-à-dire la prédiction de leur pliage et de leur structures secondaire et tertiaire à partir de leur structure primaire. La prédiction de la structure est fondamentalement différente du problème inverse de la conception des protéines. Elle est l'un des objectifs les plus importants poursuivis par la bioinformatique et la chimie théorique.

Zéolithe

thumb|250px|Zéolithe : gonnardite thumb|250px|Cristaux de zéolithe, vus au microscope électronique thumb|250px|Natrolite ; zéolithe de formule Na_2[Si_3AlO_10] (Val de Fassa à Monzoni (Italie). Le caractère fibreux de certaines zéolithes les rend susceptible de produire des mésothéliomes (comme l'amiante) si elles sont inhalées en fines particules thumb|250px|Natrolite - Auvergne Une zéolithe, ou zéolite, est un minéral faisant partie d'un groupe de même nom de cristaux formés d'un squelette microporeux d'aluminosilicate, dont les espaces vides connectés sont initialement occupés par des cations et des molécules d'eau.

Structural alignment

Structural alignment attempts to establish homology between two or more polymer structures based on their shape and three-dimensional conformation. This process is usually applied to protein tertiary structures but can also be used for large RNA molecules. In contrast to simple structural superposition, where at least some equivalent residues of the two structures are known, structural alignment requires no a priori knowledge of equivalent positions.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Biomolecular structure

Biomolecular structure is the intricate folded, three-dimensional shape that is formed by a molecule of protein, DNA, or RNA, and that is important to its function. The structure of these molecules may be considered at any of several length scales ranging from the level of individual atoms to the relationships among entire protein subunits. This useful distinction among scales is often expressed as a decomposition of molecular structure into four levels: primary, secondary, tertiary, and quaternary.

Structure tertiaire

En biochimie, la structure tertiaire ou tridimensionnelle est le repliement dans l'espace d'une chaîne polypeptidique. Ce repliement donne sa fonctionnalité à la protéine, notamment par la formation du site actif des enzymes. . La structure tertiaire correspond au degré d'organisation supérieur aux hélices α ou aux feuillets β. Ces protéines possèdent des structures secondaires associées le long de la chaîne polypeptidique. Le repliement et la stabilisation de protéines à structure tertiaire dépend de plusieurs types de liaisons faibles qui stabilisent l'édifice moléculaire.

Feuillet bêta

Les feuillets β ou feuillets β plissés est la deuxième forme de structure secondaire régulière observée dans les protéines, avec une fréquence de présence plus faible que les hélices α. Les feuillets β sont constitués de brins bêta (brins β) reliés latéralement par au moins deux ou trois liaisons hydrogène entre des atomes du squelette carboné de la chaine polypeptidique pour former un plan plissé (comme un accordéon), généralement tordu.

Structure secondaire

thumb|200px|Schéma de la structure tridimensionnelle de la protéine myoglobine. Cette structure contient de hélices α mais pas de feuillets β. Cette protéine est la première dont la structure a été résolue par cristallographie en 1958, par Max Perutz et John Kendrew, ce qui leur a valu l'attribution du prix Nobel de chimie en 1962. En biochimie et en biologie structurale, la structure secondaire se rapporte uniquement à la description de la structure tridimensionnelle localement adoptée par certains segments de molécules biologiques (molécules définies comme étant des biopolymères, comme c’est le cas pour les protéines et les acides nucléiques (ADN/ARN)).

Protéines intrinsèquement désordonnées

Les protéines intrinsèquement désordonnées ou intrinsèquement non structurées sont des protéines qui manquent de structure tridimensionnelle stable, ce qui leur confère une forte plasticité qui est à l'origine de leur importance dans les phénomènes biologiques. Une protéine peut être totalement désordonnée, mais le cas le plus courant est celui où seulement une partie de la molécule, plus ou moins longue, est désordonnée (exemple : ).

Hélice alpha

thumb|redresse|Exemple d'hélice alpha. L’hélice alpha (hélice α) est une structure secondaire courante des protéines. Elle est formée par une chaîne polypeptidique de forme hélicoïdale à pas de rotation droit dans laquelle chaque groupe N-H de la chaîne principale d'un acide aminé forme une liaison hydrogène avec le groupe C=O de la chaîne principale du quatrième acide aminé le précédant. Cette structure secondaire est parfois appelée hélice α de Pauling-Corey-Branson.

Biologie structurale

vignette|droite|Structure 3D de la myoglobine du grand cachalot (PDB ID 1MBO), la première protéine dont la structure a été résolue par cristallographie aux rayons X par John Kendrew et al. en 1958. La biologie structurale est la branche de la biologie qui étudie la structure et l'organisation spatiale des macromolécules biologiques, principalement les protéines et les acides nucléiques.

Cristallographie aux rayons X

La cristallographie aux rayons X, radiocristallographie ou diffractométrie de rayons X (DRX, on utilise aussi souvent l'abréviation anglaise XRD pour X-ray diffraction) est une technique d'analyse fondée sur la diffraction des rayons X par la matière, particulièrement quand celle-ci est cristalline. La diffraction des rayons X est une diffusion élastique, c'est-à-dire sans perte d'énergie des photons (longueurs d'onde inchangées), qui donne lieu à des interférences d'autant plus marquées que la matière est ordonnée.

Diagramme de Ramachandran

Le diagramme de Ramachandran est une représentation graphique permettant d'analyser la conformation du squelette polypeptidique des protéines. Pour chaque acide aminé de la protéine, on porte la valeur de l'angle diédral φ en abscisse et celle de l'angle diédral ψ en ordonnée, pour des valeurs de -180 à +180 degrés. En raison de la périodicité aux limites du diagramme, la représentation de Ramachandran est formellement équivalente à un tore déplié.

Repliement des protéines

thumb|right|300px|Repliement des protéines Le repliement des protéines est le processus physique par lequel un polypeptide se replie dans sa structure tridimensionnelle caractéristique dans laquelle il est fonctionnel. Chaque protéine commence sous forme de polypeptide, transcodée depuis une séquence d'ARNm en une chaîne linéaire d'acides aminés. Ce polypeptide ne possède pas à ce moment de structure tridimensionnelle développée (voir côté gauche de la figure).