Publication

epsilon-Coresets for Clustering (with Outliers) in Doubling Metrics

Concepts associés (30)

Le partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.

Partitionnement de données

vignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.

Correlation clustering

Clustering is the problem of partitioning data points into groups based on their similarity. Correlation clustering provides a method for clustering a set of objects into the optimum number of clusters without specifying that number in advance. Cluster analysis In machine learning, correlation clustering or cluster editing operates in a scenario where the relationships between the objects are known instead of the actual representations of the objects.

Euclidean distance

In mathematics, the Euclidean distance between two points in Euclidean space is the length of a line segment between the two points. It can be calculated from the Cartesian coordinates of the points using the Pythagorean theorem, therefore occasionally being called the Pythagorean distance. These names come from the ancient Greek mathematicians Euclid and Pythagoras, although Euclid did not represent distances as numbers, and the connection from the Pythagorean theorem to distance calculation was not made until the 18th century.

Regroupement hiérarchique

Dans le domaine de l'analyse et de la classification automatique de données, le regroupement hiérarchique est un partitionnement de données ou clustering, au moyen de diverses méthodes, dites « ascendantes » et « descendantes ». Les méthodes dites « descendantes » partent d’une solution générale vers une autre plus spécifique. Les méthodes de cette catégorie démarrent avec une seule classe contenant la totalité puis se divisent à chaque étape selon un critère jusqu’à l’obtention d’un ensemble de classes différentes.

Single-linkage clustering

In statistics, single-linkage clustering is one of several methods of hierarchical clustering. It is based on grouping clusters in bottom-up fashion (agglomerative clustering), at each step combining two clusters that contain the closest pair of elements not yet belonging to the same cluster as each other. This method tends to produce long thin clusters in which nearby elements of the same cluster have small distances, but elements at opposite ends of a cluster may be much farther from each other than two elements of other clusters.

Distance (mathématiques)

En mathématiques, une distance est une application qui formalise l'idée intuitive de distance, c'est-à-dire la longueur qui sépare deux points. C'est par l'analyse des principales propriétés de la distance usuelle que Fréchet introduit la notion d'espace métrique, développée ensuite par Hausdorff. Elle introduit un langage géométrique dans de nombreuses questions d'analyse et de théorie des nombres.

Espace euclidien

En mathématiques, un espace euclidien est un objet algébrique permettant de généraliser de façon naturelle la géométrie traditionnelle développée par Euclide, dans ses Éléments. Une géométrie de cette nature modélise, en physique classique, le plan ainsi que l'espace qui nous entoure. Un espace euclidien permet également de traiter les dimensions supérieures ; il est défini par la donnée d'un espace vectoriel sur le corps des réels, de dimension finie, muni d'un produit scalaire, qui permet de « mesurer » distances et angles.

Clustering high-dimensional data

Clustering high-dimensional data is the cluster analysis of data with anywhere from a few dozen to many thousands of dimensions. Such high-dimensional spaces of data are often encountered in areas such as medicine, where DNA microarray technology can produce many measurements at once, and the clustering of text documents, where, if a word-frequency vector is used, the number of dimensions equals the size of the vocabulary.

Determining the number of clusters in a data set

Determining the number of clusters in a data set, a quantity often labelled k as in the k-means algorithm, is a frequent problem in data clustering, and is a distinct issue from the process of actually solving the clustering problem. For a certain class of clustering algorithms (in particular k-means, k-medoids and expectation–maximization algorithm), there is a parameter commonly referred to as k that specifies the number of clusters to detect.

Centroïde

En mathématiques, le centre de masse ou centroïde d’un domaine du plan ou de l’espace est un point d’équilibre pour une certaine mesure sur ce domaine. Il correspond au centre pour un cercle ou une sphère, et plus généralement correspond au centre de symétrie lorsque le domaine en possède un. Mais son existence et son unicité sont garanties dès que le domaine est de mesure finie. En géométrie, cette notion est synonyme de barycentre (pour un ensemble fini de points affectés de masses ponctuelles, le centre de masse est le barycentre des points pondérés).

Fonction distance signée

In mathematics and its applications, the signed distance function (or oriented distance function) is the orthogonal distance of a given point x to the boundary of a set Ω in a metric space, with the sign determined by whether or not x is in the interior of Ω. The function has positive values at points x inside Ω, it decreases in value as x approaches the boundary of Ω where the signed distance function is zero, and it takes negative values outside of Ω. However, the alternative convention is also sometimes taken instead (i.

Espace de Banach

En mathématiques, plus particulièrement en analyse fonctionnelle, on appelle espace de Banach un espace vectoriel normé sur un sous-corps K de C (en général, K = R ou C), complet pour la distance issue de sa norme. Comme la topologie induite par sa distance est compatible avec sa structure d’espace vectoriel, c’est un espace vectoriel topologique. Les espaces de Banach possèdent de nombreuses propriétés qui font d'eux un outil essentiel pour l'analyse fonctionnelle. Ils doivent leur nom au mathématicien polonais Stefan Banach.

Espace pseudo-euclidien

En mathématiques, et plus particulièrement en géométrie, un espace pseudo-euclidien est une extension du concept d'espace euclidien, c'est-à-dire que c'est un espace vectoriel muni d'une forme bilinéaire (qui définirait la métrique dans le cas d'un espace euclidien), mais cette forme n'est pas définie positive, ni même positive. L'espace de Minkowski est un exemple d'espace pseudo-euclidien. Dans les espaces euclidiens, les notions de métrique et d'orthogonalité sont construites par l'adjonction d'un produit scalaire à un espace vectoriel réel de dimension finie.

Plan (mathématiques)

En géométrie classique, un plan est une surface plate illimitée, munie de notions d’alignement, d’angle et de distance, et dans laquelle peuvent s’inscrire des points, droites, cercles et autres figures planes usuelles. Il sert ainsi de cadre à la géométrie plane, et en particulier à la trigonométrie lorsqu’il est muni d’une orientation, et permet de représenter l’ensemble des nombres complexes. Un plan peut aussi se concevoir comme partie d’un espace tridimensionnel euclidien, dans lequel il permet de définir les sections planes d’un solide ou d’une autre surface.

Metrizable topological vector space

In functional analysis and related areas of mathematics, a metrizable (resp. pseudometrizable) topological vector space (TVS) is a TVS whose topology is induced by a metric (resp. pseudometric). An LM-space is an inductive limit of a sequence of locally convex metrizable TVS.

Espace vectoriel normé

Un espace vectoriel normé (EVN) est un espace vectoriel muni d'une norme. Cette structure mathématique développe des propriétés géométriques de distance compatible avec les opérations de l'algèbre linéaire. Développée notamment par David Hilbert et Stefan Banach, cette notion est fondamentale en analyse et plus particulièrement en analyse fonctionnelle, avec l'utilisation d'espaces de Banach tels que les espaces L. Norme (mathématiques) Soit K un corps commutatif muni d'une valeur absolue, et non discret (par exemple le corps des réels ou des complexes).

Trois dimensions

Trois dimensions, tridimensionnel ou 3D sont des expressions qui caractérisent l'espace qui nous entoure, tel que perçu par notre vision, en ce qui concerne la largeur, la hauteur et la profondeur. Le terme « 3D » est également (et improprement) utilisé (surtout en anglais) pour désigner la représentation en (numérique), le relief des images stéréoscopiques ou autres , et même parfois le simple effet stéréophonique, qui ne peut par construction rendre que de la 2D (il ne s'agit donc que du calcul des projections perspectives, des ombrages, des rendus de matières).

Fonction d'erreur

thumb|right|upright=1.4|Construction de la fonction d'erreur réelle. En mathématiques, la fonction d'erreur (aussi appelée fonction d'erreur de Gauss) est une fonction entière utilisée en analyse. Cette fonction se note erf et fait partie des fonctions spéciales. Elle est définie par : La fonction erf intervient régulièrement dans le domaine des probabilités et statistiques, ainsi que dans les problèmes de diffusion (de la chaleur ou de la matière).

Géométrie non euclidienne

La géométrie non euclidienne (GNE) est, en mathématiques, une théorie géométrique ayant recours aux axiomes et postulats posés par Euclide dans les Éléments, sauf le postulat des parallèles. Les différentes géométries non euclidiennes sont issues initialement de la volonté de démontrer la proposition du cinquième postulat, qui apparaissait peu satisfaisant en tant que postulat car trop complexe et peut-être redondant avec les autres postulats).