Publication

Atomic Motif Recognition in (Bio)Polymers: Benchmarks From the Protein Data Bank

Concepts associés (32)

La structure des protéines est la composition en acides aminés et la conformation en trois dimensions des protéines. Elle décrit la position relative des différents atomes qui composent une protéine donnée. Les protéines sont des macromolécules de la cellule, dont elles constituent la « boîte à outils », lui permettant de digérer sa nourriture, produire son énergie, de fabriquer ses constituants, de se déplacer, etc. Elles se composent d'un enchaînement linéaire d'acides aminés liés par des liaisons peptidiques.

Structure tertiaire

En biochimie, la structure tertiaire ou tridimensionnelle est le repliement dans l'espace d'une chaîne polypeptidique. Ce repliement donne sa fonctionnalité à la protéine, notamment par la formation du site actif des enzymes. . La structure tertiaire correspond au degré d'organisation supérieur aux hélices α ou aux feuillets β. Ces protéines possèdent des structures secondaires associées le long de la chaîne polypeptidique. Le repliement et la stabilisation de protéines à structure tertiaire dépend de plusieurs types de liaisons faibles qui stabilisent l'édifice moléculaire.

Structure secondaire

thumb|200px|Schéma de la structure tridimensionnelle de la protéine myoglobine. Cette structure contient de hélices α mais pas de feuillets β. Cette protéine est la première dont la structure a été résolue par cristallographie en 1958, par Max Perutz et John Kendrew, ce qui leur a valu l'attribution du prix Nobel de chimie en 1962. En biochimie et en biologie structurale, la structure secondaire se rapporte uniquement à la description de la structure tridimensionnelle localement adoptée par certains segments de molécules biologiques (molécules définies comme étant des biopolymères, comme c’est le cas pour les protéines et les acides nucléiques (ADN/ARN)).

Biomolecular structure

Biomolecular structure is the intricate folded, three-dimensional shape that is formed by a molecule of protein, DNA, or RNA, and that is important to its function. The structure of these molecules may be considered at any of several length scales ranging from the level of individual atoms to the relationships among entire protein subunits. This useful distinction among scales is often expressed as a decomposition of molecular structure into four levels: primary, secondary, tertiary, and quaternary.

Structure quaternaire

vignette|Structure quaternaire de l'hémoglobine humaine. Deux sous-unités α et deux sous-unités β forment le tétramère fonctionnel de l'hémoglobine. Elles sont arrangées avec un enchaînement de type αβαβ. La structure quaternaire d'une protéine multimérique est la manière dont sont agencées les différentes chaînes protéiques, ou sous-unités, à l'état natif les unes par rapport aux autres. Ce qualificatif ne s'applique qu'aux protéines multimériques, c'est-à-dire ne contenant pas qu'une seule sous unité.

Structure secondaire d'un acide nucléique

vignette|Représentation des structures des acides nucléiques (primaire, secondaire, tertiaire et quaternaire) schématisant des doubles hélices d'ADN et des exemples tels que le ribozyme VS, la télomérase et le nucléosome (PDB : ADNA, 1BNA, 4OCB, 4R4V, 1YMO, 1EQZ). La structure secondaire d'un acide nucléique correspond à la conformation obtenue par les interactions entre les paires de bases au sein d'un seul polymère d'acide nucléique ou bien entre deux de ces polymères.

Prédiction de la structure des protéines

La prédiction de la structure des protéines est l'inférence de la structure tridimensionnelle des protéines à partir de leur séquences d'acides aminés, c'est-à-dire la prédiction de leur pliage et de leur structures secondaire et tertiaire à partir de leur structure primaire. La prédiction de la structure est fondamentalement différente du problème inverse de la conception des protéines. Elle est l'un des objectifs les plus importants poursuivis par la bioinformatique et la chimie théorique.

Structure primaire

vignette|Structure des protéines, en particulier la structure primaire En biochimie, la structure primaire d'une biomolécule non-ramifiée comme une protéine ou un brin d'ADN ou d'ARN, est la séquence de nucléotides ou d'acides aminés du début à la fin de la molécule. Autrement dit, la structure primaire représente l'exacte composition chimique et la séquence de ses sous-unités monomériques. La structure primaire d'un polymère biologique détermine largement sa forme tridimensionnelle, connue sous le nom de structure tertiaire.

Protéine

redresse=1.36|vignette|Représentation d'une protéine, ici deux sous-unités d'une molécule d'hémoglobine. On observe les représentées en couleur, ainsi que deux des quatre molécules d'hème, qui sont les groupes prosthétiques caractéristiques de cette protéine. redresse=1.36|vignette|Liaison peptidique –CO–NH– au sein d'un polypeptide. Le motif constitue le squelette de la protéine, tandis que les groupes liés aux sont les chaînes latérales des résidus d'acides aminés.

Nucleic acid structure prediction

Nucleic acid structure prediction is a computational method to determine secondary and tertiary nucleic acid structure from its sequence. Secondary structure can be predicted from one or several nucleic acid sequences. Tertiary structure can be predicted from the sequence, or by comparative modeling (when the structure of a homologous sequence is known).

Motif structurel

En biochimie, un motif structurel, également écrit motif structural, est un arrangement tridimensionnel d'au moins deux structures secondaires de biopolymères, tels que des protéines ou des acides nucléiques, ayant une signification fonctionnelle ou faisant partie d'un domaine protéique. Les motifs structurels des protéines sont souvent conservés au cours de l'évolution et peuvent être le signe de similitudes fonctionnelles entre protéines partageant un même motif structurel ; il n'est cependant pas possible de déduire la fonction biologique d'une protéine sur la base de ses seuls motifs structurels, qui ne sont de surcroît pas toujours directement déductibles de leurs motifs séquentiels.

Structural alignment

Structural alignment attempts to establish homology between two or more polymer structures based on their shape and three-dimensional conformation. This process is usually applied to protein tertiary structures but can also be used for large RNA molecules. In contrast to simple structural superposition, where at least some equivalent residues of the two structures are known, structural alignment requires no a priori knowledge of equivalent positions.

Apprentissage supervisé

L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.

Angle dièdre

En géométrie, l'angle entre deux plans est appelé angle dièdre, ou angle diédral (anglicisme). L'angle dièdre d'un tétraèdre régulier, correspond à l'angle observé au sol, dans un plan perpendiculaire à l'une des arêtes au sol, que font la base du tétraèdre et une face. Face dont la base est, au sol, « vue de bout » (soit un point pour une arête). L'angle dièdre de deux plans peut être mesuré sur les « bords » des plans, c'est-à-dire suivant leur ligne d'intersection.

Repliement des protéines

thumb|right|300px|Repliement des protéines Le repliement des protéines est le processus physique par lequel un polypeptide se replie dans sa structure tridimensionnelle caractéristique dans laquelle il est fonctionnel. Chaque protéine commence sous forme de polypeptide, transcodée depuis une séquence d'ARNm en une chaîne linéaire d'acides aminés. Ce polypeptide ne possède pas à ce moment de structure tridimensionnelle développée (voir côté gauche de la figure).

Diagramme de Ramachandran

Le diagramme de Ramachandran est une représentation graphique permettant d'analyser la conformation du squelette polypeptidique des protéines. Pour chaque acide aminé de la protéine, on porte la valeur de l'angle diédral φ en abscisse et celle de l'angle diédral ψ en ordonnée, pour des valeurs de -180 à +180 degrés. En raison de la périodicité aux limites du diagramme, la représentation de Ramachandran est formellement équivalente à un tore déplié.

Protein Data Bank

La banque de données sur les protéines ou BDP du Research Collaboratory for Structural Bioinformatics, plus communément appelée Protein Data Bank ou PDB est une collection mondiale de données sur la structure tridimensionnelle (ou structure 3D) de macromolécules biologiques : protéines, essentiellement, et acides nucléiques. Ces structures sont essentiellement déterminées par cristallographie aux rayons X ou par spectroscopie RMN. Ces données expérimentales sont déposées dans la PDB par des biologistes et des biochimistes du monde entier et appartiennent au domaine public.

Protéines intrinsèquement désordonnées

Les protéines intrinsèquement désordonnées ou intrinsèquement non structurées sont des protéines qui manquent de structure tridimensionnelle stable, ce qui leur confère une forte plasticité qui est à l'origine de leur importance dans les phénomènes biologiques. Une protéine peut être totalement désordonnée, mais le cas le plus courant est celui où seulement une partie de la molécule, plus ou moins longue, est désordonnée (exemple : ).

Sequence motif

In biology, a sequence motif is a nucleotide or amino-acid sequence pattern that is widespread and usually assumed to be related to biological function of the macromolecule. For example, an N-glycosylation site motif can be defined as Asn, followed by anything but Pro, followed by either Ser or Thr, followed by anything but Pro residue. When a sequence motif appears in the exon of a gene, it may encode the "structural motif" of a protein; that is a stereotypical element of the overall structure of the protein.

Weak supervision

Weak supervision, also called semi-supervised learning, is a paradigm in machine learning, the relevance and notability of which increased with the advent of large language models due to large amount of data required to train them. It is characterized by using a combination of a small amount of human-labeled data (exclusively used in more expensive and time-consuming supervised learning paradigm), followed by a large amount of unlabeled data (used exclusively in unsupervised learning paradigm).