Whole genome sequencingWhole genome sequencing (WGS), also known as full genome sequencing, complete genome sequencing, or entire genome sequencing, is the process of determining the entirety, or nearly the entirety, of the DNA sequence of an organism's genome at a single time. This entails sequencing all of an organism's chromosomal DNA as well as DNA contained in the mitochondria and, for plants, in the chloroplast. Whole genome sequencing has largely been used as a research tool, but was being introduced to clinics in 2014.
Séquençage de l'ADNcadre|Résultat du séquençage par la méthode de Sanger. L'ordre de chaque bande indique la position d'un nucléotide A,T,C ou G Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné. La séquence d’ADN contient l’information nécessaire aux êtres vivants pour survivre et se reproduire. Déterminer cette séquence est donc utile aussi bien pour les recherches visant à savoir comment vivent les organismes que pour des sujets appliqués.
Exome sequencingExome sequencing, also known as whole exome sequencing (WES), is a genomic technique for sequencing all of the protein-coding regions of genes in a genome (known as the exome). It consists of two steps: the first step is to select only the subset of DNA that encodes proteins. These regions are known as exons—humans have about 180,000 exons, constituting about 1% of the human genome, or approximately 30 million base pairs. The second step is to sequence the exonic DNA using any high-throughput DNA sequencing technology.
Human genomeThe human genome is a complete set of nucleic acid sequences for humans, encoded as DNA within the 23 chromosome pairs in cell nuclei and in a small DNA molecule found within individual mitochondria. These are usually treated separately as the nuclear genome and the mitochondrial genome. Human genomes include both protein-coding DNA sequences and various types of DNA that does not encode proteins. The latter is a diverse category that includes DNA coding for non-translated RNA, such as that for ribosomal RNA, transfer RNA, ribozymes, small nuclear RNAs, and several types of regulatory RNAs.
Séquençage shotgunEn génétique, le séquençage shotgun (littéralement séquençage "fusil de chasse") est une méthode utilisée pour séquencer des brins d'ADN aléatoires. On l'appelle ainsi par analogie avec le modèle de tir quasi-aléatoire en pleine expansion d'un fusil de chasse : cette métaphore illustre le caractère aléatoire de la fragmentation initiale de l'ADN génomique où l'on "arrose" tout le génome, un peu comme se dispersent les plombs de ce type d'arme à feu.
Cis-regulatory elementCis-regulatory elements (CREs) or Cis''-regulatory modules (CRMs) are regions of non-coding DNA which regulate the transcription of neighboring genes. CREs are vital components of genetic regulatory networks, which in turn control morphogenesis, the development of anatomy, and other aspects of embryonic development, studied in evolutionary developmental biology. CREs are found in the vicinity of the genes that they regulate. CREs typically regulate gene transcription by binding to transcription factors.
Expression génétiqueL'expression des gènes, encore appelée expression génique ou expression génétique, désigne l'ensemble des processus biochimiques par lesquels l'information héréditaire stockée dans un gène est lue pour aboutir à la fabrication de molécules qui auront un rôle actif dans le fonctionnement cellulaire, comme les protéines ou les ARN. Même si toutes les cellules d'un organisme partagent le même génome, certains gènes ne sont exprimés que dans certaines cellules, à certaines périodes de la vie de l'organisme ou sous certaines conditions.
Immunoprécipitation de chromatineL'immunoprécipitation de la chromatine est une méthode qui permet de déterminer les sites de liaison de l'ADN sur le génome pour une protéine particulière et donne accès à une représentation des interactions protéine–ADN qui ont lieu dans le noyau de la cellule vivante ou dans les tissus. La mise en œuvre in vivo de cette méthode est bien différente de celles qui sont généralement utilisées. Le principe à la base de ce procédé est que les protéines qui se lient à l'ADN (y compris les facteurs de transcription et les histones) peuvent être réticulées avec l'ADN auquel elles sont liées.
Bisulfite sequencingBisulfite sequencing (also known as bisulphite sequencing) is the use of bisulfite treatment of DNA before routine sequencing to determine the pattern of methylation. DNA methylation was the first discovered epigenetic mark, and remains the most studied. In animals it predominantly involves the addition of a methyl group to the carbon-5 position of cytosine residues of the dinucleotide CpG, and is implicated in repression of transcriptional activity.
Séquence codantevignette|Schéma simplifié du dogme central de la biologie moléculaire. Certaines séquences d'ADN subissent une transcription afin de générer un ARN messager primaire. Cet ARNm subit différentes transformations, notamment l'épissage, par lequel les introns sont enlevés, pour générer un transcrit mature. Finalement, les ribosomes traduisent la séquence codante en protéine. La séquence codante est indiquée en vert.
Sanger sequencingSanger sequencing is a method of DNA sequencing that involves electrophoresis and is based on the random incorporation of chain-terminating dideoxynucleotides by DNA polymerase during in vitro DNA replication. After first being developed by Frederick Sanger and colleagues in 1977, it became the most widely used sequencing method for approximately 40 years. It was first commercialized by Applied Biosystems in 1986. More recently, higher volume Sanger sequencing has been replaced by next generation sequencing methods, especially for large-scale, automated genome analyses.
GénomeLe génome (//), ou plus rarement génôme, est l'ensemble du matériel génétique d'une espèce codé dans son acide désoxyribonucléique (ADN), à l'exception de certains virus dont le génome est constitué d'acide ribonucléique (ARN). Il contient en particulier tous les gènes codant des protéines ou correspondant à des ARN structurés. Il se décompose donc en séquences codantes (transcrites en ARN messagers et traduites en protéines) et non codantes (non transcrites, ou transcrites en ARN, mais non traduites).
Projet de séquençage de génomeLes projets de séquençage de génome sont des projets scientifiques qui ont pour but d'obtenir les séquences complètes des génomes de différents organismes: bactéries, plantes, champignons, animaux, et humain. Ce travail nécessite la séquence de l'ADN de chacun des chromosomes de l'espèce. Pour une bactérie, il n'y a qu'un chromosome à séquencer. Pour l'espèce humaine, qui possède 22 paires de chromosomes et 2 chromosomes sexuels (X et Y), il y a 24 chromosomes à séquencer. Le projet génome humain est abouti depuis 2003.
Prédiction de gènesEn bio-informatique, la prédiction de gènes consiste à identifier les zones de l'ADN qui correspondent à des gènes (le reste étant non codant). Les méthodes par similitudes, aussi appelées méthodes par homologie ou méthodes extrinsèques, consistent à utiliser des informations extérieures au génome pour trouver les gènes. Plus précisément, ces méthodes consistent à comparer la séquence étudiée avec des séquences connues, rassemblées dans les bases de données.
Régulation de la transcriptionLa régulation de la transcription est la phase du contrôle de l'expression des gènes agissant au niveau de la transcription de l'ADN. Cette régulation modifiera la quantité d'ARN produit. Cette régulation est principalement effectuée par la modulation du taux de transcription par l'intervention de facteurs de transcription qui se classent en deux catégories : les éléments cis-regulateurs géniques, en coopération avec les facteurs transprotéiques. Il existe également des mécanismes de régulation de la terminaison de la transcription.
Séquence régulatriceLes séquences régulatrices, appelées aussi séquence-cis, sont une partie de l’ADN non codant (séquences du génome qui ne sont pas traduites en protéines) et qui influent sur le niveau de transcription des gènes. Elles sont reconnues par des facteurs de transcription, appelés facteur-trans, qui agissent de différentes façons, en augmentant ou en diminuant l’expression du gène. Les séquences régulatrices interviennent ainsi au niveau de l’initiation de la transcription dans la régulation de l'expression des gènes.
Projet Génome humainvignette|Le génome humain est constitué de l'ensemble de l'information portée par nos 23 paires de chromosomes. Le (PGH, ou HGP pour l'anglais Human Genome Project) est un programme lancé fin 1988 dont la mission était d'établir le séquençage complet de l'ADN du génome humain. Son achèvement a été annoncé le . Le nouveau projet lancé dans la foulée en , ENCODE (Encyclopedia of DNA Elements), donne des résultats importants sur l'ADN non codant humain.
GénomiqueLa génomique est une discipline de la biologie moderne. Elle étudie le fonctionnement d'un organisme, d'un organe, d'un cancer, etc. à l'échelle du génome, au lieu de se limiter à l'échelle d'un seul gène. La génomique se divise en deux branches : La génomique structurale, qui se charge du séquençage du génome entier ; La génomique fonctionnelle, qui vise à déterminer la fonction et l'expression des gènes séquencés en caractérisant le transcriptome et le protéome. La génomique est l'équivalent de la métabolomique pour les métabolites.
Reference genomeA reference genome (also known as a reference assembly) is a digital nucleic acid sequence database, assembled by scientists as a representative example of the set of genes in one idealized individual organism of a species. As they are assembled from the sequencing of DNA from a number of individual donors, reference genomes do not accurately represent the set of genes of any single individual organism. Instead a reference provides a haploid mosaic of different DNA sequences from each donor.
Massive parallel sequencingMassive parallel sequencing or massively parallel sequencing is any of several high-throughput approaches to DNA sequencing using the concept of massively parallel processing; it is also called next-generation sequencing (NGS) or second-generation sequencing. Some of these technologies emerged between 1993 and 1998 and have been commercially available since 2005. These technologies use miniaturized and parallelized platforms for sequencing of 1 million to 43 billion short reads (50 to 400 bases each) per instrument run.