Régression linéaireEn statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
Régression non linéaireUne régression non linéaire consiste à ajuster un modèle, en général non linéaire, y = ƒa1, ..., am(x) pour un ensemble de valeurs (xi, yi)1 ≤ i ≤ n. Les variables xi et yi peuvent être des scalaires ou des vecteurs. Par « ajuster », il faut comprendre : déterminer les paramètres de la loi, (a1, ..., am), afin de minimiser S = ||ri||, avec : ri = yi - ƒa1, ..., am(xi). ||...|| est une norme. On utilise en général la norme euclidienne, ou norme l2 ; on parle alors de méthode des moindres carrés.
Bayesian linear regressionBayesian linear regression is a type of conditional modeling in which the mean of one variable is described by a linear combination of other variables, with the goal of obtaining the posterior probability of the regression coefficients (as well as other parameters describing the distribution of the regressand) and ultimately allowing the out-of-sample prediction of the regressand (often labelled ) conditional on observed values of the regressors (usually ).
Segmented regressionSegmented regression, also known as piecewise regression or broken-stick regression, is a method in regression analysis in which the independent variable is partitioned into intervals and a separate line segment is fit to each interval. Segmented regression analysis can also be performed on multivariate data by partitioning the various independent variables. Segmented regression is useful when the independent variables, clustered into different groups, exhibit different relationships between the variables in these regions.
Régression (statistiques)En mathématiques, la régression recouvre plusieurs méthodes d’analyse statistique permettant d’approcher une variable à partir d’autres qui lui sont corrélées. Par extension, le terme est aussi utilisé pour certaines méthodes d’ajustement de courbe. En apprentissage automatique, on distingue les problèmes de régression des problèmes de classification. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.
Corrélation (statistiques)En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance. Cette corrélation est très souvent réduite à la corrélation linéaire entre variables quantitatives, c’est-à-dire l’ajustement d’une variable par rapport à l’autre par une relation affine obtenue par régression linéaire. Pour cela, on calcule un coefficient de corrélation linéaire, quotient de leur covariance par le produit de leurs écarts types.
Third-generation sequencingThird-generation sequencing (also known as long-read sequencing) is a class of DNA sequencing methods currently under active development. Third generation sequencing technologies have the capability to produce substantially longer reads than second generation sequencing, also known as next-generation sequencing. Such an advantage has critical implications for both genome science and the study of biology in general. However, third generation sequencing data have much higher error rates than previous technologies, which can complicate downstream genome assembly and analysis of the resulting data.
Simple linear regressionIn statistics, simple linear regression is a linear regression model with a single explanatory variable. That is, it concerns two-dimensional sample points with one independent variable and one dependent variable (conventionally, the x and y coordinates in a Cartesian coordinate system) and finds a linear function (a non-vertical straight line) that, as accurately as possible, predicts the dependent variable values as a function of the independent variable. The adjective simple refers to the fact that the outcome variable is related to a single predictor.
Bayesian multivariate linear regressionIn statistics, Bayesian multivariate linear regression is a Bayesian approach to multivariate linear regression, i.e. linear regression where the predicted outcome is a vector of correlated random variables rather than a single scalar random variable. A more general treatment of this approach can be found in the article MMSE estimator. Consider a regression problem where the dependent variable to be predicted is not a single real-valued scalar but an m-length vector of correlated real numbers.
Clinical metagenomic sequencingClinical metagenomic next-generation sequencing (mNGS) is the comprehensive analysis of microbial and host genetic material (DNA or RNA) in clinical samples from patients by next-generation sequencing. It uses the techniques of metagenomics to identify and characterize the genome of bacteria, fungi, parasites, and viruses without the need for a prior knowledge of a specific pathogen directly from clinical specimens.
Linear least squaresLinear least squares (LLS) is the least squares approximation of linear functions to data. It is a set of formulations for solving statistical problems involved in linear regression, including variants for ordinary (unweighted), weighted, and generalized (correlated) residuals. Numerical methods for linear least squares include inverting the matrix of the normal equations and orthogonal decomposition methods. The three main linear least squares formulations are: Ordinary least squares (OLS) is the most common estimator.
InfectionAn infection is the invasion of tissues by pathogens, their multiplication, and the reaction of host tissues to the infectious agent and the toxins they produce. An infectious disease, also known as a transmissible disease or communicable disease, is an illness resulting from an infection. Infections can be caused by a wide range of pathogens, most prominently bacteria and viruses. Hosts can fight infections using their immune systems. Mammalian hosts react to infections with an innate response, often involving inflammation, followed by an adaptive response.
Génotypevignette|Une molécule d'ADN : les deux brins sont composés de nucléotides, dont la séquence constitue l'information génétique. Le génotype est une partie donnée de l'information génétique (composition génétique) d'un individu. Le génotype d'un individu est donc la composition allélique de tous les gènes de ce dernier. La définition de génotype sert également lorsque l'on considère la composition allélique d'un individu pour un nombre restreint de gènes d'intérêt.
Séquençage de l'ADNcadre|Résultat du séquençage par la méthode de Sanger. L'ordre de chaque bande indique la position d'un nucléotide A,T,C ou G Le séquençage de l'ADN consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné. La séquence d’ADN contient l’information nécessaire aux êtres vivants pour survivre et se reproduire. Déterminer cette séquence est donc utile aussi bien pour les recherches visant à savoir comment vivent les organismes que pour des sujets appliqués.
Massive parallel sequencingMassive parallel sequencing or massively parallel sequencing is any of several high-throughput approaches to DNA sequencing using the concept of massively parallel processing; it is also called next-generation sequencing (NGS) or second-generation sequencing. Some of these technologies emerged between 1993 and 1998 and have been commercially available since 2005. These technologies use miniaturized and parallelized platforms for sequencing of 1 million to 43 billion short reads (50 to 400 bases each) per instrument run.
Modèle linéairevignette|Données aléatoires sous forme de points, et leur régression linéaire. Un modèle linéaire multivarié est un modèle statistique dans lequel on cherche à exprimer une variable aléatoire à expliquer en fonction de variables explicatives X sous forme d'un opérateur linéaire. Le modèle linéaire est donné selon la formule : où Y est une matrice d'observations multivariées, X est une matrice de variables explicatives, B est une matrice de paramètres inconnus à estimer et U est une matrice contenant des erreurs ou du bruit.
Méthodes de détection des exoplanètesEn astronomie, la recherche des exoplanètes fait appel à plusieurs méthodes de détection. La majorité de ces méthodes sont à l'heure actuelle indirectes, puisque la proximité de ces planètes avec leur étoile est si grande que leur lumière est complètement noyée dans celle de l'étoile. Méthode des vitesses radiales La méthode des vitesses radiales est la méthode qui a permis aux astronomes suisses Michel Mayor et Didier Queloz de détecter la première exoplanète autour de l'étoile 51 Peg.
Prospective cohort studyA prospective cohort study is a longitudinal cohort study that follows over time a group of similar individuals (cohorts) who differ with respect to certain factors under study, to determine how these factors affect rates of a certain outcome. For example, one might follow a cohort of middle-aged truck drivers who vary in terms of smoking habits, to test the hypothesis that the 20-year incidence rate of lung cancer will be highest among heavy smokers, followed by moderate smokers, and then nonsmokers.
Séquençage shotgunEn génétique, le séquençage shotgun (littéralement séquençage "fusil de chasse") est une méthode utilisée pour séquencer des brins d'ADN aléatoires. On l'appelle ainsi par analogie avec le modèle de tir quasi-aléatoire en pleine expansion d'un fusil de chasse : cette métaphore illustre le caractère aléatoire de la fragmentation initiale de l'ADN génomique où l'on "arrose" tout le génome, un peu comme se dispersent les plombs de ce type d'arme à feu.
GénomiqueLa génomique est une discipline de la biologie moderne. Elle étudie le fonctionnement d'un organisme, d'un organe, d'un cancer, etc. à l'échelle du génome, au lieu de se limiter à l'échelle d'un seul gène. La génomique se divise en deux branches : La génomique structurale, qui se charge du séquençage du génome entier ; La génomique fonctionnelle, qui vise à déterminer la fonction et l'expression des gènes séquencés en caractérisant le transcriptome et le protéome. La génomique est l'équivalent de la métabolomique pour les métabolites.