Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Regroupement hiérarchiqueDans le domaine de l'analyse et de la classification automatique de données, le regroupement hiérarchique est un partitionnement de données ou clustering, au moyen de diverses méthodes, dites « ascendantes » et « descendantes ». Les méthodes dites « descendantes » partent d’une solution générale vers une autre plus spécifique. Les méthodes de cette catégorie démarrent avec une seule classe contenant la totalité puis se divisent à chaque étape selon un critère jusqu’à l’obtention d’un ensemble de classes différentes.
GrassmannienneEn mathématiques, les grassmanniennes sont des variétés dont les points correspondent aux sous-espaces vectoriels d'un espace vectoriel fixé. On note G(k, n) ou G(K) la grassmannienne des sous-espaces de dimension k dans un espace de dimension n sur le corps K. Ces espaces portent le nom de Hermann Grassmann qui en donna une paramétrisation et sont encore appelés grassmanniennes des « k-plans ». Pour k = 1, la grassmannienne est l'espace projectif associé à l'espace vectoriel.
Informationvignette|redresse=0.6|Pictogramme représentant une information. L’information est un de la discipline des sciences de l'information et de la communication (SIC). Au sens étymologique, l'« information » est ce qui donne une forme à l'esprit. Elle vient du verbe latin « informare », qui signifie « donner forme à » ou « se former une idée de ». L'information désigne à la fois le message à communiquer et les symboles utilisés pour l'écrire. Elle utilise un code de signes porteurs de sens tels qu'un alphabet de lettres, une base de chiffres, des idéogrammes ou pictogrammes.
K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Single-linkage clusteringIn statistics, single-linkage clustering is one of several methods of hierarchical clustering. It is based on grouping clusters in bottom-up fashion (agglomerative clustering), at each step combining two clusters that contain the closest pair of elements not yet belonging to the same cluster as each other. This method tends to produce long thin clusters in which nearby elements of the same cluster have small distances, but elements at opposite ends of a cluster may be much farther from each other than two elements of other clusters.
Combinaison linéaireEn mathématiques, une combinaison linéaire est une expression construite à partir d'un ensemble de termes en multipliant chaque terme par une constante et en ajoutant le résultat. Par exemple, une combinaison linéaire de x et y serait une expression de la forme ax + by, où a et b sont des constantes. Le concept de combinaison linéaire est central en algèbre linéaire et dans des domaines connexes des mathématiques. La majeure partie de cet article traite des combinaisons linéaires dans le contexte d'espace vectoriel sur un corps commutatif, et indique quelques généralisations à la fin de l'article.
Correlation clusteringClustering is the problem of partitioning data points into groups based on their similarity. Correlation clustering provides a method for clustering a set of objects into the optimum number of clusters without specifying that number in advance. Cluster analysis In machine learning, correlation clustering or cluster editing operates in a scenario where the relationships between the objects are known instead of the actual representations of the objects.
Théorie de l'informationLa théorie de l'information, sans précision, est le nom usuel désignant la théorie de l'information de Shannon, qui est une théorie utilisant les probabilités pour quantifier le contenu moyen en information d'un ensemble de messages, dont le codage informatique satisfait une distribution statistique que l'on pense connaître. Ce domaine trouve son origine scientifique avec Claude Shannon qui en est le père fondateur avec son article A Mathematical Theory of Communication publié en 1948.
Primitive data typeIn computer science, primitive data types are a set of basic data types from which all other data types are constructed. Specifically it often refers to the limited set of data representations in use by a particular processor, which all compiled programs must use. Most processors support a similar set of primitive data types, although the specific representations vary. More generally, "primitive data types" may refer to the standard data types built into a programming language (built-in types).
Determining the number of clusters in a data setDetermining the number of clusters in a data set, a quantity often labelled k as in the k-means algorithm, is a frequent problem in data clustering, and is a distinct issue from the process of actually solving the clustering problem. For a certain class of clustering algorithms (in particular k-means, k-medoids and expectation–maximization algorithm), there is a parameter commonly referred to as k that specifies the number of clusters to detect.
Type systemIn computer programming, a type system is a logical system comprising a set of rules that assigns a property called a type (for example, integer, floating point, string) to every "term" (a word, phrase, or other set of symbols). Usually the terms are various constructs of a computer program, such as variables, expressions, functions, or modules. A type system dictates the operations that can be performed on a term. For variables, the type system determines the allowed values of that term.
Type (informatique)vignette|Présentation des principaux types de données. En programmation informatique, un type de donnée, ou simplement un type, définit la nature des valeurs que peut prendre une donnée, ainsi que les opérateurs qui peuvent lui être appliqués. La plupart des langages de programmation de haut niveau offrent des types de base correspondant aux données qui peuvent être traitées directement — à savoir : sans conversion ou formatage préalable — par le processeur.
Combinaison barycentriqueEn géométrie vectorielle, une combinaison barycentrique ou combinaison affine de vecteurs est une combinaison linéaire dont la somme des coefficients est égale à 1. L’expression s’emploie par défaut pour une somme finie, mais parfois aussi pour la limite d’une série sous réserve de convergence. Les combinaisons barycentriques correspondent ainsi aux barycentres des vecteurs vus comme des points de l’espace affine associé, et l’ensemble de ces combinaisons barycentriques constitue le sous-espace affine engendré par ces points.
Mineur (théorie des graphes)La notion de mineur d'un graphe est un concept de théorie des graphes. Il a été défini et étudié par Robertson et Seymour dans une série d'articles intitulée Graph minors (I à XXIII), publiée dans le Journal of Combinatorial Theory entre 1983 et 2011. Soit un graphe non orienté fini. Un graphe est un mineur de s'il peut être obtenu en contractant des arêtes d'un sous-graphe de .
Sous-espace vectorielEn algèbre linéaire, un sous-espace vectoriel d'un espace vectoriel E, est une partie non vide F, de E, stable par combinaisons linéaires. Cette stabilité s'exprime par : la somme de deux vecteurs de F appartient à F ; le produit d'un vecteur de F par un scalaire appartient à F. Muni des lois induites, F est alors un espace vectoriel. L'intersection d'une famille non vide de sous-espaces de E est un sous-espace de E. La réunion d'une famille non vide de sous-espaces n'en est généralement pas un ; le sous-espace engendré par cette réunion est la somme de cette famille.
Type algébrique de donnéesUn type algébrique est une forme de type de données composite, qui combine les fonctionnalités des types produits (n‐uplets ou enregistrements) et des types sommes (union disjointe). Combinée à la récursivité, elle permet d’exprimer les données structurées telles que les listes et les arbres. Le type produit de deux types A et B est l’analogue en théorie des types du produit cartésien ensembliste et est noté A × B. C’est le type des couples dont la première composante est de type A et la seconde de type B.
Théorie des typesEn mathématiques, logique et informatique, une théorie des types est une classe de systèmes formels, dont certains peuvent servir d'alternatives à la théorie des ensembles comme fondation des mathématiques. Ils ont été historiquement introduits pour résoudre le paradoxe d'un axiome de compréhension non restreint. En théorie des types, il existe des types de base et des constructeurs (comme celui des fonctions ou encore celui du produit cartésien) qui permettent de créer de nouveaux types à partir de types préexistant.
Gestion stratégique de l'informationLa gestion stratégique de l'information (GSI ou information management en anglais) est une approche ou une philosophie dans la façon d'acquérir, de colliger, d'organiser, de conserver, de protéger et de communiquer l'information, que ce soit sous forme de documents divers ou d’informations tacites, dans les organisations, notamment les entreprises. Il s'agit essentiellement d'orienter et de penser ses activités d'acquisition, d'organisation et de redistribution de l'information de sorte qu'elles permettent à une organisation d’être le plus efficace possible en fonction de ses objectifs stratégiques.
Data transformation (computing)In computing, data transformation is the process of converting data from one format or structure into another format or structure. It is a fundamental aspect of most data integration and data management tasks such as data wrangling, data warehousing, data integration and application integration. Data transformation can be simple or complex based on the required changes to the data between the source (initial) data and the target (final) data. Data transformation is typically performed via a mixture of manual and automated steps.