Publication

Learning the structure of image collections with latent aspect models

Concepts associés (32)

La recherche d'image par le contenu (en anglais : content-based image retrieval ou CBIR) est une technique permettant de rechercher des images à partir de ses caractéristiques visuelles, c'est-à-dire induite de leurs pixels. Les images sont classiquement décrites comme rendant compte de leur texture, couleur, forme. Un cas typique d'utilisation est la recherche par l'exemple où l'on souhaite retrouver des images visuellement similaires à un exemple donné en requête.

Segmentation d'image

La segmentation d'image est une opération de s consistant à détecter et rassembler les pixels suivant des critères, notamment d'intensité ou spatiaux, l'image apparaissant ainsi formée de régions uniformes. La segmentation peut par exemple montrer les objets en les distinguant du fond avec netteté. Dans les cas où les critères divisent les pixels en deux ensembles, le traitement est une binarisation. Des algorithmes sont écrits comme substitut aux connaissances de haut niveau que l'homme mobilise dans son identification des objets et structures.

Image retrieval

An image retrieval system is a computer system used for browsing, searching and retrieving images from a large database of digital images. Most traditional and common methods of image retrieval utilize some method of adding metadata such as captioning, keywords, title or descriptions to the images so that retrieval can be performed over the annotation words. Manual image annotation is time-consuming, laborious and expensive; to address this, there has been a large amount of research done on automatic image annotation.

Medical image computing

Medical image computing (MIC) is an interdisciplinary field at the intersection of computer science, information engineering, electrical engineering, physics, mathematics and medicine. This field develops computational and mathematical methods for solving problems pertaining to medical images and their use for biomedical research and clinical care. The main goal of MIC is to extract clinically relevant information or knowledge from medical images.

Apprentissage de représentations

En apprentissage automatique, l'apprentissage des caractéristiques ou apprentissage des représentations est un ensemble de techniques qui permet à un système de découvrir automatiquement les représentations nécessaires à la détection ou à la classification des caractéristiques à partir de données brutes. Cela remplace l'ingénierie manuelle des fonctionnalités et permet à une machine d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.

Analyse d'image

L'analyse d'image est la reconnaissance des éléments et des informations contenus dans une . Elle peut être automatisée lorsque l'image est enregistrée sous forme numérique, au moyen d'outils informatiques. Les tâches relevant de l'analyse d'image sont multiples, depuis la lecture de codes-barres, jusqu'à la reconnaissance faciale. L'analyse d'image intervient également dans le domaine de l'art et du graphisme, pour l'interprétation des compositions et signifiants.

Annotation automatique d'images

L'annotation automatique d'images est le procédé par lequel un système informatique assigne automatiquement une légende ou des mots clés à une image numérique. Cette application des techniques issues de la vision par ordinateur est utilisée dans les systèmes de pour organiser et retrouver des images d'intérêts dans une base de données. Cette méthode peut être considérée comme un type de classification d'images multi-classe avec un très grand nombre de classes - de la taille du vocabulaire utilisé.

Multimedia information retrieval

Multimedia information retrieval (MMIR or MIR) is a research discipline of computer science that aims at extracting semantic information from multimedia data sources. Data sources include directly perceivable media such as audio, and video, indirectly perceivable sources such as text, semantic descriptions, biosignals as well as not perceivable sources such as bioinformation, stock prices, etc. The methodology of MMIR can be organized in three groups: Methods for the summarization of media content (feature extraction).

Espace d'échelle

La théorie de lEspace d'échelle () est un cadre pour la représentation du signal développé par les communautés de la vision artificielle, du , et du traitement du signal. C'est une théorie formelle pour manipuler les structures de l'image à différentes échelles, en représentant une image comme une famille d'images lissées à un paramètre, la représentation d'espace échelle, paramétrée par la taille d'un noyau lissant utilisé pour supprimer les structures dans les petites échelles. Soit un signal.

Digital imaging

Digital imaging or digital image acquisition is the creation of a digital representation of the visual characteristics of an object, such as a physical scene or the interior structure of an object. The term is often assumed to imply or include the , , , printing and display of such images. A key advantage of a , versus an analog image such as a film photograph, is the ability to digitally propagate copies of the original subject indefinitely without any loss of image quality.

Allocation de Dirichlet latente

Dans le domaine du traitement automatique des langues, l’allocation de Dirichlet latente (de l’anglais Latent Dirichlet Allocation) ou LDA est un modèle génératif probabiliste permettant d’expliquer des ensembles d’observations, par le moyen de groupes non observés, eux-mêmes définis par des similarités de données. Par exemple, si les observations () sont les mots collectés dans un ensemble de documents textuels (), le modèle LDA suppose que chaque document () est un mélange () d’un petit nombre de sujets ou thèmes ( topics), et que la génération de chaque occurrence d’un mot () est attribuable (probabilité) à l’un des thèmes () du document.

Speeded Up Robust Features

Speeded Up Robust Features (SURF), que l'on peut traduire par caractéristiques robustes accélérées, est un algorithme de détection de caractéristique et un descripteur, présenté par des chercheurs de l'ETH Zurich et de la Katholieke Universiteit Leuven pour la première fois en 2006 puis dans une version révisée en 2008. Il est utilisé dans le domaine de vision par ordinateur, pour des tâches de détection d'objet ou de reconstruction 3D.

Image numérique

L'appellation d'image numérique désigne toute (dessin, icône, photographie...) acquise, créée, traitée et stockée sous forme binaire : acquise par des convertisseurs analogique-numérique situés dans des dispositifs comme les scanners, les appareils photo ou les caméscopes numériques, les cartes d’acquisition vidéo (qui numérisent directement une source comme la télévision) créée directement par des programmes informatiques, grâce à une souris, des tablettes graphiques ou par de la modélisation 3D (ce que l’on appelle, par abus de langage, les « images de synthèse ») ; traitée grâce à des outils graphiques, de façon à la transformer, à en modifier la taille, les couleurs, d’y ajouter ou d'en supprimer des éléments, d’y appliquer des filtres variés stockée sur un support informatique (clé USB, SSD, disque dur, CD-ROM.

Ridge detection

In , ridge detection is the attempt, via software, to locate ridges in an , defined as curves whose points are local maxima of the function, akin to geographical ridges. For a function of N variables, its ridges are a set of curves whose points are local maxima in N − 1 dimensions. In this respect, the notion of ridge points extends the concept of a local maximum. Correspondingly, the notion of valleys for a function can be defined by replacing the condition of a local maximum with the condition of a local minimum.

Détection de contours

En et en vision par ordinateur, on appelle détection de contours les procédés permettant de repérer les points d'une qui correspondent à un changement brutal de l'intensité lumineuse. Ces changements de propriétés de l' indiquent en général des éléments importants de structure dans l'objet représenté. Ces éléments incluent des discontinuités dans la profondeur, dans l'orientation d'une surface, dans les propriétés d'un matériau et dans l'éclairage d'une scène.

Indexation automatique de documents

L’indexation automatique de documents est un domaine de l'informatique et des sciences de l'information et des bibliothèques qui utilise des méthodes logicielles pour organiser un ensemble de documents et faciliter ultérieurement la recherche de contenu dans cette collection. La multiplicité des types de documents (textuels, medias, audiovisuels, Web) donne lieu à des approches très différentes, notamment en termes de représentation des données.

Dirichlet-multinomial distribution

In probability theory and statistics, the Dirichlet-multinomial distribution is a family of discrete multivariate probability distributions on a finite support of non-negative integers. It is also called the Dirichlet compound multinomial distribution (DCM) or multivariate Pólya distribution (after George Pólya). It is a compound probability distribution, where a probability vector p is drawn from a Dirichlet distribution with parameter vector , and an observation drawn from a multinomial distribution with probability vector p and number of trials n.

Digital image processing

Digital image processing is the use of a digital computer to process s through an algorithm. As a subcategory or field of digital signal processing, digital image processing has many advantages over . It allows a much wider range of algorithms to be applied to the input data and can avoid problems such as the build-up of noise and distortion during processing. Since images are defined over two dimensions (perhaps more) digital image processing may be modeled in the form of multidimensional systems.

Object co-segmentation

In computer vision, object co-segmentation is a special case of , which is defined as jointly segmenting semantically similar objects in multiple images or video frames. It is often challenging to extract segmentation masks of a target/object from a noisy collection of images or video frames, which involves object discovery coupled with . A noisy collection implies that the object/target is present sporadically in a set of images or the object/target disappears intermittently throughout the video of interest.

Analyse sémantique latente probabiliste

L’analyse sémantique latente probabiliste (de l'anglais, Probabilistic latent semantic analysis : PLSA), aussi appelée indexation sémantique latente probabiliste (PLSI), est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente. Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés.