K-moyennesLe partitionnement en k-moyennes (ou k-means en anglais) est une méthode de partitionnement de données et un problème d'optimisation combinatoire. Étant donnés des points et un entier k, le problème est de diviser les points en k groupes, souvent appelés clusters, de façon à minimiser une certaine fonction. On considère la distance d'un point à la moyenne des points de son cluster ; la fonction à minimiser est la somme des carrés de ces distances.
Analyse d'imageL'analyse d'image est la reconnaissance des éléments et des informations contenus dans une . Elle peut être automatisée lorsque l'image est enregistrée sous forme numérique, au moyen d'outils informatiques. Les tâches relevant de l'analyse d'image sont multiples, depuis la lecture de codes-barres, jusqu'à la reconnaissance faciale. L'analyse d'image intervient également dans le domaine de l'art et du graphisme, pour l'interprétation des compositions et signifiants.
Réseau neuronal convolutifEn apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel.
Détection d'objetthumb|Détection de visage avec la méthode de Viola et Jones. En vision par ordinateur on désigne par détection d'objet (ou classification d'objet) une méthode permettant de détecter la présence d'une instance (reconnaissance d'objet) ou d'une classe d'objets dans une . Une attention particulière est portée à la détection de visage et la détection de personne. Ces méthodes font souvent appel à l'apprentissage supervisé et ont des applications dans de multiples domaines, tels la ou la vidéo surveillance.
Object co-segmentationIn computer vision, object co-segmentation is a special case of , which is defined as jointly segmenting semantically similar objects in multiple images or video frames. It is often challenging to extract segmentation masks of a target/object from a noisy collection of images or video frames, which involves object discovery coupled with . A noisy collection implies that the object/target is present sporadically in a set of images or the object/target disappears intermittently throughout the video of interest.
Vision industrielleLa vision industrielle est l'application de la vision par ordinateur aux domaines industriels de production et de recherche. Les productions de masse à haute cadence, le souci constant d'amélioration de la qualité et la recherche de gain économique poussent de plus en plus les industriels à automatiser les moyens de production. La vision industrielle est une réponse à ces préoccupations pour les opérations de contrôles de la production.
Long short-term memoryLong short-term memory (LSTM) network is a recurrent neural network (RNN), aimed to deal with the vanishing gradient problem present in traditional RNNs. Its relative insensitivity to gap length is its advantage over other RNNs, hidden Markov models and other sequence learning methods. It aims to provide a short-term memory for RNN that can last thousands of timesteps, thus "long short-term memory".
Neural networkA neural network can refer to a neural circuit of biological neurons (sometimes also called a biological neural network), a network of artificial neurons or nodes in the case of an artificial neural network. Artificial neural networks are used for solving artificial intelligence (AI) problems; they model connections of biological neurons as weights between nodes. A positive weight reflects an excitatory connection, while negative values mean inhibitory connections. All inputs are modified by a weight and summed.
Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Rendu volumique directLe rendu volumique direct est une technique utilisée pour afficher une projection 2D d'une série de données 3D. Le rendu volumique direct nécessite que chaque valeur échantillonnée au sein du volume soit associée à une opacité et une couleur. Mathématiquement, cela revient à dire qu'on dispose d'une fonction de transfert : où est la région de l'espace où la fonction est définie, et est l'espace de couleurs utilisé (par exemple ou si les couleurs sont définies par leurs valeurs RGB).
Graph cuts in computer visionAs applied in the field of computer vision, graph cut optimization can be employed to efficiently solve a wide variety of low-level computer vision problems (early vision), such as , the stereo correspondence problem, , object co-segmentation, and many other computer vision problems that can be formulated in terms of energy minimization. Many of these energy minimization problems can be approximated by solving a maximum flow problem in a graph (and thus, by the max-flow min-cut theorem, define a minimal cut of the graph).
Vision par ordinateurLa vision par ordinateur est un domaine scientifique et une branche de l’intelligence artificielle qui traite de la façon dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d's ou de vidéos numériques. Du point de vue de l'ingénierie, il cherche à comprendre et à automatiser les tâches que le système visuel humain peut effectuer. Les tâches de vision par ordinateur comprennent des procédés pour acquérir, traiter, et « comprendre » des images numériques, et extraire des données afin de produire des informations numériques ou symboliques, par ex.
Mean shiftMean shift is a non-parametric feature-space mathematical analysis technique for locating the maxima of a density function, a so-called mode-seeking algorithm. Application domains include cluster analysis in computer vision and . The mean shift procedure is usually credited to work by Fukunaga and Hostetler in 1975. It is, however, reminiscent of earlier work by Schnell in 1964. Mean shift is a procedure for locating the maxima—the modes—of a density function given discrete data sampled from that function.
Modèle de contour actifUn modèle de contour actif, souvent nommé snake (« serpent » en anglais) dans la littérature, est une structure dynamique utilisée en et en vision artificielle. Ils ont été introduits de manière formelle par Kass et Witkin en 1987. Plusieurs approches sont possibles et permettent de résoudre le problème de la et de la détection de contour en utilisant un modèle de courbe déformable qui épouse la forme des objets. Un modèle de contour actif est formé d'une série de points mobiles et répartis sur une courbe en deux dimensions.
Activity recognitionActivity recognition aims to recognize the actions and goals of one or more agents from a series of observations on the agents' actions and the environmental conditions. Since the 1980s, this research field has captured the attention of several computer science communities due to its strength in providing personalized support for many different applications and its connection to many different fields of study such as medicine, human-computer interaction, or sociology.
Espace d'échelleLa théorie de lEspace d'échelle () est un cadre pour la représentation du signal développé par les communautés de la vision artificielle, du , et du traitement du signal. C'est une théorie formelle pour manipuler les structures de l'image à différentes échelles, en représentant une image comme une famille d'images lissées à un paramètre, la représentation d'espace échelle, paramétrée par la taille d'un noyau lissant utilisé pour supprimer les structures dans les petites échelles. Soit un signal.
Méthode d'OtsuEn vision par ordinateur et , la méthode d'Otsu est utilisée pour effectuer un automatique à partir de la forme de l', ou la réduction d'une image à niveaux de gris en une image binaire. L'algorithme suppose alors que l'image à binariser ne contient que deux classes de pixels, (c'est-à-dire le premier plan et l'arrière-plan) puis calcule le seuil optimal qui sépare ces deux classes afin que leur variance intra-classe soit minimale. L'extension de la méthode originale pour faire du seuillage à plusieurs niveaux est appelée Multi Otsu method.
Détection de visagevignette|Détection de visage par la méthode de Viola et Jones. La détection de visage est un domaine de la vision par ordinateur consistant à détecter un visage humain dans une . C'est un cas spécifique de détection d'objet, où l'on cherche à détecter la présence et la localisation précise d'un ou plusieurs visages dans une image. C'est l'un des domaines de la vision par ordinateur parmi les plus étudiés, avec de très nombreuses publications, brevets, et de conférences spécialisées.
Medical image computingMedical image computing (MIC) is an interdisciplinary field at the intersection of computer science, information engineering, electrical engineering, physics, mathematics and medicine. This field develops computational and mathematical methods for solving problems pertaining to medical images and their use for biomedical research and clinical care. The main goal of MIC is to extract clinically relevant information or knowledge from medical images.
General-purpose processing on graphics processing unitsGPGPU est l'abréviation de general-purpose computing on graphics processing units, c'est-à-dire calcul générique sur processeur graphique. L'objectif de tels calculs est de bénéficier de la capacité de traitement parallèle des processeurs graphiques. Avant l'arrivée des GPGPU, le CPU, processeur central de l'ordinateur, traitait la plupart des opérations lourdes en calcul comme les simulations physiques, le rendu hors-ligne pour les films, les calculs de risques pour les institutions financières, la prévision météorologique, l'encodage de fichier vidéo et son Intel avec ses 80 % de parts de marché sur les CPU dominait donc très largement tous les besoins en calcul et pouvait en extraire de substantielles marges.