Publication

Advancing Self-Supervised Deep Learning for 3D Scene Understanding

Concepts associés (32)

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Vision par ordinateur

La vision par ordinateur est un domaine scientifique et une branche de l’intelligence artificielle qui traite de la façon dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d's ou de vidéos numériques. Du point de vue de l'ingénierie, il cherche à comprendre et à automatiser les tâches que le système visuel humain peut effectuer. Les tâches de vision par ordinateur comprennent des procédés pour acquérir, traiter, et « comprendre » des images numériques, et extraire des données afin de produire des informations numériques ou symboliques, par ex.

Rendu photoréaliste

Le rendu photoréaliste qualifie un rendu visuel qui tend à ressembler à une photographie. Il s'applique ainsi au domaine de l'infographie. Il ne faut pas confondre le rendu photoréaliste avec les mouvements artistiques de l'hyperréalisme, du photoréalisme et du réalisme. Jurassic Park est le premier film à utiliser des images de synthèse où elles atteignent pour la première fois un niveau de réalisme faisant illusion. Elles se résument à quelques plans en pied des créatures, les gros plans étant des animatroniques.

Infographie

L'infographie est le domaine de la création d' assistée par ordinateur. Cette activité est liée aux arts graphiques. Les études les plus courantes passent par les écoles publiques ou privées se situant majoritairement en Angleterre, en Belgique, au Canada, en France, et aux États-Unis. Lors de l'introduction du concept dans la langue française vers les années 1970, le terme « infographie » désigne les graphismes produits par ordinateur.

Réseau de neurones artificiels

Un réseau de neurones artificiels, ou réseau neuronal artificiel, est un système dont la conception est à l'origine schématiquement inspirée du fonctionnement des neurones biologiques, et qui par la suite s'est rapproché des méthodes statistiques. Les réseaux de neurones sont généralement optimisés par des méthodes d'apprentissage de type probabiliste, en particulier bayésien.

Perception de la profondeur

La perception de la profondeur est la capacité visuelle à percevoir le monde en trois dimensions. La perception de la profondeur et du relief se base sur différents types d'indices visuels qu'il est possible de classer en trois catégories : en premier lieu ceux qui dépendent du mouvement ; parmi les autres, ceux qui requièrent la vision binoculaire ; enfin, ceux perçus avec un seul œil. Les objets de l'environnement présentent en général plusieurs indices convergents sur leur position dans la profondeur de l'espace.

Apprentissage auto-supervisé

L'apprentissage auto-supervisé ("self-supervised learning" en anglais) (SSL) est une méthode d'apprentissage automatique. Il apprend à partir d'échantillons de données non étiquetés. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. Il est basé sur un réseau de neurones artificiels. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau.

Mesure stéréoscopique

La stéréovision ou mesure stéréoscopique est une méthode de mesure qui consiste à se servir de la prise d'images (photographiques ou numériques) prises de différents points de vue, pour déterminer les dimensions, les formes ou les positions d'objets. Pour cela on utilise : soit des appareils photographiques étalonnés utilisant des films argentiques plans et stables dimensionnellement ou des détecteurs C.C.D à haute résolution pour des mesures statiques ; soit des caméras (film ou CCD) si des mesures dynamiques sont nécessaires (vidéogrammétrie).

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Visual odometry

In robotics and computer vision, visual odometry is the process of determining the position and orientation of a robot by analyzing the associated camera images. It has been used in a wide variety of robotic applications, such as on the Mars Exploration Rovers. In navigation, odometry is the use of data from the movement of actuators to estimate change in position over time through devices such as rotary encoders to measure wheel rotations.

3D rendering

3D rendering is the 3D computer graphics process of converting 3D models into 2D images on a computer. 3D renders may include photorealistic effects or non-photorealistic styles. Rendering is the final process of creating the actual 2D image or animation from the prepared scene. This can be compared to taking a photo or filming the scene after the setup is finished in real life. Several different, and often specialized, rendering methods have been developed.

Apprentissage de représentations

En apprentissage automatique, l'apprentissage des caractéristiques ou apprentissage des représentations est un ensemble de techniques qui permet à un système de découvrir automatiquement les représentations nécessaires à la détection ou à la classification des caractéristiques à partir de données brutes. Cela remplace l'ingénierie manuelle des fonctionnalités et permet à une machine d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.

Graphic art software

Graphic art software is a subclass of application software used for graphic design, multimedia development, stylized , technical illustration, general , or simply to access graphic files. Art software uses either raster or vector graphic reading and editing methods to create, edit, and view art. Many artists and other creative professionals today use personal computers rather than traditional media.

Transformeur

vignette|Schéma représentant l'architecture générale d'un transformeur. Un transformeur (ou modèle auto-attentif) est un modèle d'apprentissage profond introduit en 2017, utilisé principalement dans le domaine du traitement automatique des langues (TAL). Dès 2020, les transformeurs commencent aussi à trouver une application en matière de vision par ordinateur par la création des vision transformers (ViT).

Modélisation tridimensionnelle

La modélisation tridimensionnelle est l'étape en infographie tridimensionnelle qui consiste à créer, dans un logiciel de modélisation 3D, un objet en trois dimensions, par ajout, soustraction et modifications de ses constituants. La révolution consiste à faire tourner un profil 2D autour d'un axe 3D : on obtient ainsi un volume de révolution. C'est la technique majoritairement utilisée dans le jeu vidéo, et le cinéma d'animation. La modélisation polygonale induit une marge d'erreur de proportions et de dimensions le plus souvent invisible à l'œil nu.

Réflectivité bidirectionnelle

Dans de nombreux problèmes de transferts thermiques ou en rendu pour la génération d'images de synthèse il est nécessaire de caractériser la réflexion d'une surface. Le cas le plus simple est la réflexion spéculaire décrite par les lois de Fresnel mais qui ne s'adresse qu'à des surfaces parfaites. De telles surfaces sont réalisées dans divers domaines technologiques et on peut dans ce cas prédire, outre la réflexion, des propriétés telles que absorptivité ou émissivité.

Rendu physique réaliste

vignette|Texture de plaque métallique à losanges, représentée en gros plan via un rendu physique réaliste. Les petites abrasions donnent au métal un aspect rugueux. Une normal map est utilisée pour représenter les reliefs de la texture.Le terme rendu physique réaliste (en anglais, Physically Based Rendering, ou ) regroupe un ensemble de techniques de rendu de scène 3D, qui imitent les modèles physiques décrivant le comportement de la lumière dans le monde réel.

Rendu volumique direct

Le rendu volumique direct est une technique utilisée pour afficher une projection 2D d'une série de données 3D. Le rendu volumique direct nécessite que chaque valeur échantillonnée au sein du volume soit associée à une opacité et une couleur. Mathématiquement, cela revient à dire qu'on dispose d'une fonction de transfert : où est la région de l'espace où la fonction est définie, et est l'espace de couleurs utilisé (par exemple ou si les couleurs sont définies par leurs valeurs RGB).

Recherche automatique d'architecture neuronale

La recherche automatique d'architecture neuronale (Neural Architecture Search, NAS) est un ensemble de techniques visant à découvrir automatiquement de nouveaux modèles de réseaux de neurones artificiels. Les principales méthodes employées dans la littérature sont basées soit sur de l'apprentissage par renforcement, sur de la descente de gradient ou bien sur des algorithmes génétiques. Plusieurs méthodes NAS parviennent à obtenir des architectures qui atteignent ou surpassent les performances des modèles créés à la main.