Publication

SynDeMo: Synergistic Deep Feature Alignment for Joint Learning of Depth and Ego-Motion

Concepts associés (22)

La perception de la profondeur est la capacité visuelle à percevoir le monde en trois dimensions. La perception de la profondeur et du relief se base sur différents types d'indices visuels qu'il est possible de classer en trois catégories : en premier lieu ceux qui dépendent du mouvement ; parmi les autres, ceux qui requièrent la vision binoculaire ; enfin, ceux perçus avec un seul œil. Les objets de l'environnement présentent en général plusieurs indices convergents sur leur position dans la profondeur de l'espace.

Mesure stéréoscopique

La stéréovision ou mesure stéréoscopique est une méthode de mesure qui consiste à se servir de la prise d'images (photographiques ou numériques) prises de différents points de vue, pour déterminer les dimensions, les formes ou les positions d'objets. Pour cela on utilise : soit des appareils photographiques étalonnés utilisant des films argentiques plans et stables dimensionnellement ou des détecteurs C.C.D à haute résolution pour des mesures statiques ; soit des caméras (film ou CCD) si des mesures dynamiques sont nécessaires (vidéogrammétrie).

Apprentissage de représentations

En apprentissage automatique, l'apprentissage des caractéristiques ou apprentissage des représentations est un ensemble de techniques qui permet à un système de découvrir automatiquement les représentations nécessaires à la détection ou à la classification des caractéristiques à partir de données brutes. Cela remplace l'ingénierie manuelle des fonctionnalités et permet à une machine d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.

Stéréopsie

La stéréopsie, composé des mots grecs στερεός, qui signifie « ferme, dur » et ὄψις qui signifie « œil » ou « vision », est le processus permettant à un être humain ou un animal doué de vision binoculaire de percevoir son environnement en trois dimensions. Chez l'être humain, le test de stéréopsie permet à l'ophtalmologiste et à l'optométriste de détecter si le patient est doté d'une bonne perception visuelle du relief et de la profondeur.

Visual odometry

In robotics and computer vision, visual odometry is the process of determining the position and orientation of a robot by analyzing the associated camera images. It has been used in a wide variety of robotic applications, such as on the Mars Exploration Rovers. In navigation, odometry is the use of data from the movement of actuators to estimate change in position over time through devices such as rotary encoders to measure wheel rotations.

Stéréoscopie

La stéréoscopie (du grec stéréo- : solide, -scope : vision) est l'ensemble des techniques mises en œuvre pour reproduire une perception du relief à partir de deux s planes. La stéréoscopie se base sur le fait que la perception humaine du relief se forme dans le cerveau lorsqu'il reconstitue une seule image à partir de la perception des deux images planes et différentes provenant de chaque œil. Il existe, pour réaliser ces images, aussi bien que pour les observer, une grande variété de moyens, à la description desquels plusieurs centaines de livres ont été consacrés.

Radar à synthèse d'ouverture

thumb|upright=1.5|Image prise par un radar à synthèse d'ouverture, monté sur satellite, de l'île de Tenerife aux îles Canaries, montrant les détails géographiques et la végétation en fausses couleurs. Un radar à synthèse d'ouverture (RSO) est un qui permet d'obtenir des images en deux dimensions ou des reconstitutions tridimensionnelles d'objets visés, tels des paysages. Pour cela, il effectue un traitement des données reçues afin d'améliorer la résolution en azimut. Le traitement effectué permet d'affiner l'ouverture de l'antenne.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Vision binoculaire

thumb|Schéma de la vision binoculaire humaine. La vision binoculaire est un mode de vision dans lequel les deux yeux sont utilisés simultanément. Le mot binoculaire vient du latin : bini pour « double » et oculus pour « yeux ». Le fait de voir avec deux yeux confère au moins quatre avantages par rapport au fait d'en avoir un seul : il laisse au sujet la possibilité de conserver la vue même en cas de perte d'un œil ; il donne un champ de vision plus large.

Apprentissage non supervisé

Dans le domaine informatique et de l'intelligence artificielle, l'apprentissage non supervisé désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées (par exemple étiquetées comme « balle » ou « poisson »). Il s'agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l'algorithme de calculer de façon certaine un score de réussite.

Apprentissage supervisé

L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.

Réseau neuronal convolutif

En apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel.

Labeled data

Labeled data is a group of samples that have been tagged with one or more labels. Labeling typically takes a set of unlabeled data and augments each piece of it with informative tags. For example, a data label might indicate whether a photo contains a horse or a cow, which words were uttered in an audio recording, what type of action is being performed in a video, what the topic of a news article is, what the overall sentiment of a tweet is, or whether a dot in an X-ray is a tumor.

Connected-component labeling

Connected-component labeling (CCL), connected-component analysis (CCA), blob extraction, region labeling, blob discovery, or region extraction is an algorithmic application of graph theory, where subsets of connected components are uniquely labeled based on a given heuristic. Connected-component labeling is not to be confused with . Connected-component labeling is used in computer vision to detect connected regions in s, although s and data with higher dimensionality can also be processed.

Image rectification

Image rectification is a transformation process used to project images onto a common image plane. This process has several degrees of freedom and there are many strategies for transforming images to the common plane. Image rectification is used in computer stereo vision to simplify the problem of finding matching points between images (i.e. the correspondence problem), and in geographic information systems to merge images taken from multiple perspectives into a common map coordinate system.

Multistable perception

Multistable perception (or bistable perception) is a perceptual phenomenon in which an observer experiences an unpredictable sequence of spontaneous subjective changes. While usually associated with visual perception (a form of optical illusion), multistable perception can also be experienced with auditory and olfactory percepts. Perceptual multistability can be evoked by visual patterns that are too ambiguous for the human visual system to definitively and uniquely interpret.

Vergence-accommodation conflict

Vergence-accommodation conflict (VAC), also known as accommodation-vergence conflict, is a visual phenomenon that occurs when the brain receives mismatching cues between vergence and accommodation of the eye. This commonly occurs in virtual reality devices, augmented reality devices, 3D movies, and other types of stereoscopic displays and autostereoscopic displays. The effect can be unpleasant and cause eye strain. Two main ocular responses can be distinguished - vergence of eyes and accommodation.

Radar imageur

vignette|Image prise par un radar à synthèse d'ouverture (RSO), monté sur satellite, de l'île de Tenerife aux îles Canaries, montrant les détails géographiques et la végétation en fausses couleurs Un radar imageur est un radar actif qui émet un faisceau d'impulsions dans le domaine des longueurs d'onde centimétriques ou millimétriques pour représenter en deux ou trois dimensions l'environnement exploré. Cette imagerie a des applications tant civiles que militaires.

Visiocasque

thumb|Le casque de réalité virtuelle Oculus Rift. Un visiocasque est un dispositif d'affichage, porté sur la tête ou dans un casque, qui a un petit écran d'affichage en face d'un œil (visiocasque monoculaire) ou de chaque œil (visiocasque binoculaire). Le visiocasque est parfois appelé casque de visualisation, casque immersif, casque-écran ou casque HMD (où HMD signifie head-mounted display), voire simplement .

Algorithme de parcours en profondeur

L'algorithme de parcours en profondeur (ou parcours en profondeur, ou DFS, pour Depth-First Search) est un algorithme de parcours d'arbre, et plus généralement de parcours de graphe. Il se décrit naturellement de manière récursive. Son application la plus simple consiste à déterminer s'il existe un chemin d'un sommet à un autre. Pour les graphes non orientés, le parcours en profondeur correspond à la méthode intuitive qu'on utilise pour trouver la sortie d'un labyrinthe sans tourner en rond.