Publication

MultiMAE: Multi-modal Multi-task Masked Autoencoders

Concepts associés (29)

vignette|Cellules lumineuses rouge, vert, bleu d'un écran vidéo, en gros plan. Rouge-vert-bleu (RVB, ou RGB pour l'anglais red-green-blue) désigne un système de traitement optique, d'affichage électronique ou d'un codage de signal vidéo analogique ou un codage informatique des couleurs. Pour restituer la perception humaine colorée d'une image, différentes méthodes existent, en peinture, en imprimerie, en projection photographique, vidéo ou en affichage électronique et notamment, grâce au principe de la trichromie.

Channel (digital image)

Color digital images are made of pixels, and pixels are made of combinations of primary colors represented by a series of code. A channel in this context is the grayscale image of the same size as a color image, made of just one of these primary colors. For instance, an image from a standard digital camera will have a red, green and blue channel. A grayscale image has just one channel. In geographic information systems, channels are often referred to as raster bands.

Adobe RGB

Adobe RVB est un espace de couleur Rouge Vert Bleu (RVB) créé par Adobe Systems en 1998. Il a été conçu pour les graphistes dont le travail sur écran se destine à l'impression. Le codage de couleurs sRGB antérieur à Adobe RGB, englobe un peu moins de la moitié de la totalité des couleurs visibles, qui ont toutes une représentation dans l'espace CIE 1931. Son rapport avec cet espace se fonde sur les écrans d'ordinateurs à tube cathodique, hérités de ceux de la télévision en couleurs.

Segmentation d'image

La segmentation d'image est une opération de s consistant à détecter et rassembler les pixels suivant des critères, notamment d'intensité ou spatiaux, l'image apparaissant ainsi formée de régions uniformes. La segmentation peut par exemple montrer les objets en les distinguant du fond avec netteté. Dans les cas où les critères divisent les pixels en deux ensembles, le traitement est une binarisation. Des algorithmes sont écrits comme substitut aux connaissances de haut niveau que l'homme mobilise dans son identification des objets et structures.

Perception de la profondeur

La perception de la profondeur est la capacité visuelle à percevoir le monde en trois dimensions. La perception de la profondeur et du relief se base sur différents types d'indices visuels qu'il est possible de classer en trois catégories : en premier lieu ceux qui dépendent du mouvement ; parmi les autres, ceux qui requièrent la vision binoculaire ; enfin, ceux perçus avec un seul œil. Les objets de l'environnement présentent en général plusieurs indices convergents sur leur position dans la profondeur de l'espace.

Apprentissage par transfert

L'apprentissage par transfert (transfer learning en anglais) est l'un des champs de recherche de l'apprentissage automatique qui vise à transférer des connaissances d'une ou plusieurs tâches sources vers une ou plusieurs tâches cibles. Il peut être vu comme la capacité d’un système à reconnaître et appliquer des connaissances et des compétences, apprises à partir de tâches antérieures, sur de nouvelles tâches ou domaines partageant des similitudes. Adaptation de domaine (domain adaptation en anglais) Catég

Object co-segmentation

In computer vision, object co-segmentation is a special case of , which is defined as jointly segmenting semantically similar objects in multiple images or video frames. It is often challenging to extract segmentation masks of a target/object from a noisy collection of images or video frames, which involves object discovery coupled with . A noisy collection implies that the object/target is present sporadically in a set of images or the object/target disappears intermittently throughout the video of interest.

Vision par ordinateur

La vision par ordinateur est un domaine scientifique et une branche de l’intelligence artificielle qui traite de la façon dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d's ou de vidéos numériques. Du point de vue de l'ingénierie, il cherche à comprendre et à automatiser les tâches que le système visuel humain peut effectuer. Les tâches de vision par ordinateur comprennent des procédés pour acquérir, traiter, et « comprendre » des images numériques, et extraire des données afin de produire des informations numériques ou symboliques, par ex.

Analyse d'image

L'analyse d'image est la reconnaissance des éléments et des informations contenus dans une . Elle peut être automatisée lorsque l'image est enregistrée sous forme numérique, au moyen d'outils informatiques. Les tâches relevant de l'analyse d'image sont multiples, depuis la lecture de codes-barres, jusqu'à la reconnaissance faciale. L'analyse d'image intervient également dans le domaine de l'art et du graphisme, pour l'interprétation des compositions et signifiants.

Logique modale

En logique mathématique, une logique modale est un type de logique formelle qui étend la logique propositionnelle, la logique du premier ordre ou la logique d'ordre supérieur avec des modalités. Une modalité spécifie des . Par exemple, une proposition comme « il pleut » peut être précédée d'une modalité : Il est nécessaire qu'''il pleuve ; Demain, il pleut ; Christophe Colomb croit quil pleut ; Il est démontré qu'''il pleut ; Il est obligatoire quil pleuve.

Mesure stéréoscopique

La stéréovision ou mesure stéréoscopique est une méthode de mesure qui consiste à se servir de la prise d'images (photographiques ou numériques) prises de différents points de vue, pour déterminer les dimensions, les formes ou les positions d'objets. Pour cela on utilise : soit des appareils photographiques étalonnés utilisant des films argentiques plans et stables dimensionnellement ou des détecteurs C.C.D à haute résolution pour des mesures statiques ; soit des caméras (film ou CCD) si des mesures dynamiques sont nécessaires (vidéogrammétrie).

YUV

[[Fichier:Yuv.png|thumb|Exemple d'une plage U-V, où Y' = 0,5, représenté à l'intérieur de la gamme de couleurs R'G'B' ; en noir et blanc, seule Y est utilisée, toutes ces couleurs rendent donc le même gris.]] thumb|Décomposition d'une image en Y'UV. Le modèle YUV ou plus précisément Y'UV''' définit un espace colorimétrique en trois composantes. La première, Y', représente la luma'' (à ne pas confondre avec la luminance relative notée Y, le symbole prime de Y' indiquant une correction de gamma) et les deux autres, U et V, représentent la chrominance.

Réseau neuronal convolutif

En apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel.

Types of artificial neural networks

There are many types of artificial neural networks (ANN). Artificial neural networks are computational models inspired by biological neural networks, and are used to approximate functions that are generally unknown. Particularly, they are inspired by the behaviour of neurons and the electrical signals they convey between input (such as from the eyes or nerve endings in the hand), processing, and output from the brain (such as reacting to light, touch, or heat). The way neurons semantically communicate is an area of ongoing research.

Visual odometry

In robotics and computer vision, visual odometry is the process of determining the position and orientation of a robot by analyzing the associated camera images. It has been used in a wide variety of robotic applications, such as on the Mars Exploration Rovers. In navigation, odometry is the use of data from the movement of actuators to estimate change in position over time through devices such as rotary encoders to measure wheel rotations.

Classement automatique

vignette|La fonction 1-x^2-2exp(-100x^2) (rouge) et les valeurs déplacées par un bruit de 0,1*N(0,1). Le classement automatique ou classification supervisée est la catégorisation algorithmique d'objets. Elle consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se fondant sur des données statistiques. Elle fait couramment appel à l'apprentissage automatique et est largement utilisée en reconnaissance de formes. En français, le classement fait référence à l'action de classer donc de « ranger dans une classe ».

Text segmentation

Text segmentation is the process of dividing written text into meaningful units, such as words, sentences, or topics. The term applies both to mental processes used by humans when reading text, and to artificial processes implemented in computers, which are the subject of natural language processing. The problem is non-trivial, because while some written languages have explicit word boundary markers, such as the word spaces of written English and the distinctive initial, medial and final letter shapes of Arabic, such signals are sometimes ambiguous and not present in all written languages.

Medical image computing

Medical image computing (MIC) is an interdisciplinary field at the intersection of computer science, information engineering, electrical engineering, physics, mathematics and medicine. This field develops computational and mathematical methods for solving problems pertaining to medical images and their use for biomedical research and clinical care. The main goal of MIC is to extract clinically relevant information or knowledge from medical images.

Classification et catégorisation de documents

La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information.

Annotation automatique d'images

L'annotation automatique d'images est le procédé par lequel un système informatique assigne automatiquement une légende ou des mots clés à une image numérique. Cette application des techniques issues de la vision par ordinateur est utilisée dans les systèmes de pour organiser et retrouver des images d'intérêts dans une base de données. Cette méthode peut être considérée comme un type de classification d'images multi-classe avec un très grand nombre de classes - de la taille du vocabulaire utilisé.