Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Amas globulaireEn astronomie, un amas globulaire est un amas stellaire très dense, contenant typiquement une centaine de milliers d'étoiles distribuées dans une sphère dont la taille varie d'une vingtaine à quelques centaines d'années-lumière. Leur densité est ainsi nettement plus élevée que celle des amas ouverts. Les étoiles de ces amas sont généralement des géantes rouges. On compte globulaires dans notre galaxie, la Voie lactée. Mais il en existe sans doute d'autres, qui restent indétectables parce que masqués par le disque galactique.
Amas stellaireUn amas stellaire est une concentration locale d'étoiles d'origine commune et liées entre elles par la gravitation, dans un espace dont les dimensions peuvent atteindre 200 pc. Ces objets sont classés en plusieurs familles selon leur aspect ; ce sont, par compacité croissante : les associations stellaires, les amas ouverts et les amas globulaires. Les amas stellaires se maintiennent par l'attraction gravitationnelle mutuelle de leurs membres.
Grappe de serveursOn parle de grappe de serveurs, de cluster, de groupement de serveurs ou de ferme de calcul (computer cluster en anglais) pour désigner des techniques consistant à regrouper plusieurs ordinateurs indépendants appelés nœuds (node en anglais), afin de permettre une gestion globale et de dépasser les limitations d'un ordinateur pour : augmenter la disponibilité ; faciliter la montée en charge ; permettre une répartition de la charge ; faciliter la gestion des ressources (processeur, mémoire vive, disques durs,
Amas de galaxiesUn amas de galaxies, ou amas galactique, est l'association de plus d'une centaine de galaxies liées entre elles par la gravitation. En dessous de 100, on parle plutôt de groupe de galaxies, même si la frontière entre groupe et amas n'est pas clairement définie. Ces amas se caractérisent par leur forme spécifique (sphérique, symétrique ou quelconque), ainsi que par la répartition et leurs nombres de galaxies (jusqu'à plusieurs milliers). Ils se sont formés il y a 10 milliards d'années et plus.
Paramètres SLes paramètres S (de l'anglais Scattering parameters), coefficients de diffraction ou de répartition sont utilisés en hyperfréquences, en électricité ou en électronique pour décrire le comportement électrique de réseaux électriques linéaires en fonction des signaux d'entrée. Ces paramètres font partie d'une famille de formalismes similaires, utilisés en électronique, en physique ou en optique : les paramètres Y, les paramètres Z, les paramètres H, les paramètres T ou les paramètres ABCD.
Amas ouvertEn astronomie, un amas ouvert est un amas stellaire groupant environ de 100 à étoiles de même âge liées entre elles par la gravitation, et dont le diamètre varie de 1,5 à 15 pc, avec une moyenne de 4 à 5 pc. Les amas ouverts sont peu lumineux et s’observent essentiellement dans notre Galaxie, où ils se situent dans le plan galactique, et dans les galaxies proches : les deux Nuages de Magellan et la galaxie d’Andromède. On pense qu'ils se forment au sein des nuages moléculaires, les grands nuages de gaz et de poussières qui constituent les nébuleuses diffuses.
Impedance parametersImpedance parameters or Z-parameters (the elements of an impedance matrix or Z-matrix) are properties used in electrical engineering, electronic engineering, and communication systems engineering to describe the electrical behavior of linear electrical networks. They are also used to describe the small-signal (linearized) response of non-linear networks. They are members of a family of similar parameters used in electronic engineering, other examples being: S-parameters, Y-parameters, H-parameters, T-parameters or ABCD-parameters.
Pearson correlation coefficientIn statistics, the Pearson correlation coefficient (PCC) is a correlation coefficient that measures linear correlation between two sets of data. It is the ratio between the covariance of two variables and the product of their standard deviations; thus, it is essentially a normalized measurement of the covariance, such that the result always has a value between −1 and 1. As with covariance itself, the measure can only reflect a linear correlation of variables, and ignores many other types of relationships or correlations.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Corrélation (statistiques)En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance. Cette corrélation est très souvent réduite à la corrélation linéaire entre variables quantitatives, c’est-à-dire l’ajustement d’une variable par rapport à l’autre par une relation affine obtenue par régression linéaire. Pour cela, on calcule un coefficient de corrélation linéaire, quotient de leur covariance par le produit de leurs écarts types.
Admittance parametersAdmittance parameters or Y-parameters (the elements of an admittance matrix or Y-matrix) are properties used in many areas of electrical engineering, such as power, electronics, and telecommunications. These parameters are used to describe the electrical behavior of linear electrical networks. They are also used to describe the small-signal (linearized) response of non-linear networks. Y parameters are also known as short circuited admittance parameters.
Régression linéaireEn statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
DBSCANDBSCAN (density-based spatial clustering of applications with noise) est un algorithme de partitionnement de données proposé en 1996 par Martin Ester, Hans-Peter Kriegel, Jörg Sander et Xiaowei Xu. Il s'agit d'un algorithme fondé sur la densité dans la mesure qui s’appuie sur la densité estimée des clusters pour effectuer le partitionnement. thumb|400px|Les points A sont les points déjà dans le cluster. Les points B et C sont atteignables depuis A et appartiennent donc au même cluster.
Amas de la ViergeL'amas de la Vierge est un grand amas de galaxies situé à une distance de . Il fut découvert par Charles Messier en 1781, qui cartographia un grand nombre de ses galaxies les plus importantes, notamment la galaxie géante M87. Cet amas est au centre du superamas de la Vierge, dont fait partie le Groupe local et a fortiori la Voie lactée. Il est situé dans la constellation de la Vierge et son diamètre angulaire est d'environ 8 degrés. Il comporte approximativement entre et , dont beaucoup sont visibles avec un petit télescope.
Fonction d'erreurthumb|right|upright=1.4|Construction de la fonction d'erreur réelle. En mathématiques, la fonction d'erreur (aussi appelée fonction d'erreur de Gauss) est une fonction entière utilisée en analyse. Cette fonction se note erf et fait partie des fonctions spéciales. Elle est définie par : La fonction erf intervient régulièrement dans le domaine des probabilités et statistiques, ainsi que dans les problèmes de diffusion (de la chaleur ou de la matière).
Determining the number of clusters in a data setDetermining the number of clusters in a data set, a quantity often labelled k as in the k-means algorithm, is a frequent problem in data clustering, and is a distinct issue from the process of actually solving the clustering problem. For a certain class of clustering algorithms (in particular k-means, k-medoids and expectation–maximization algorithm), there is a parameter commonly referred to as k that specifies the number of clusters to detect.
Fonction gammaEn mathématiques, la fonction gamma (notée par Γ la lettre grecque majuscule gamma de l'alphabet grec) est une fonction utilisée communément, qui prolonge de la fonction factorielle à l'ensemble des nombres complexes. En ce sens, il s'agit une fonction complexe. Elle est considérée également comme une fonction spéciale. La fonction gamma est défini pour tous les nombres complexes, à l'exception des entiers négatifs. On a pour tout entier strictement positif, où est la factorielle de , c'est-à-dire le produit des entiers entre 1 et : .
Linear probability modelIn statistics, a linear probability model (LPM) is a special case of a binary regression model. Here the dependent variable for each observation takes values which are either 0 or 1. The probability of observing a 0 or 1 in any one case is treated as depending on one or more explanatory variables. For the "linear probability model", this relationship is a particularly simple one, and allows the model to be fitted by linear regression.
Modèle linéaire généraliséEn statistiques, le modèle linéaire généralisé (MLG) souvent connu sous les initiales anglaises GLM est une généralisation souple de la régression linéaire. Le GLM généralise la régression linéaire en permettant au modèle linéaire d'être relié à la variable réponse via une fonction lien et en autorisant l'amplitude de la variance de chaque mesure d'être une fonction de sa valeur prévue, en fonction de la loi choisie.