Publication

SVGC-AVA: 360-Degree Video Saliency Prediction With Spherical Vector-Based Graph Convolution and Audio-Visual Attention

Concepts associés (32)

La saillance (de l'anglais salience, construit sur salient, du français saillant, lui-même du latin saliens, « qui saute ») d'une chose quelconque est le fait qu'elle attire l'attention ; plus précisément, la mesure dans laquelle elle retient l'attention par rapport aux autres choses présentes dans son environnement (y compris des choses similaires). Par exemple, un mot peut être mieux perçu que d'autres dans un message (saillance linguistique).

Multi-scale approaches

The scale space representation of a signal obtained by Gaussian smoothing satisfies a number of special properties, scale-space axioms, which make it into a special form of multi-scale representation. There are, however, also other types of "multi-scale approaches" in the areas of computer vision, and signal processing, in particular the notion of wavelets. The purpose of this article is to describe a few of these approaches: For one-dimensional signals, there exists quite a well-developed theory for continuous and discrete kernels that guarantee that new local extrema or zero-crossings cannot be created by a convolution operation.

Transformation de Fourier rapide

La transformation de Fourier rapide (sigle anglais : FFT ou fast Fourier transform) est un algorithme de calcul de la transformation de Fourier discrète (TFD). Sa complexité varie en O(n log n) avec le nombre n de points, alors que la complexité de l’algorithme « naïf » s'exprime en O(n). Ainsi, pour n = , le temps de calcul de l'algorithme rapide peut être 100 fois plus court que le calcul utilisant la formule de définition de la TFD.

Série de Fourier

vignette|250px|Les quatre premières sommes partielles de la série de Fourier pour un signal carré. vignette|250px|Le premier graphe donne l'allure du graphe d'une fonction périodique ; l'histogramme donne les valeurs des modules des coefficients de Fourier correspondant aux différentes fréquences. En analyse mathématique, les séries de Fourier sont un outil fondamental dans l'étude des fonctions périodiques. C'est à partir de ce concept que s'est développée la branche des mathématiques connue sous le nom d'analyse harmonique.

Espace d'échelle

La théorie de lEspace d'échelle () est un cadre pour la représentation du signal développé par les communautés de la vision artificielle, du , et du traitement du signal. C'est une théorie formelle pour manipuler les structures de l'image à différentes échelles, en représentant une image comme une famille d'images lissées à un paramètre, la représentation d'espace échelle, paramétrée par la taille d'un noyau lissant utilisé pour supprimer les structures dans les petites échelles. Soit un signal.

Vue

thumb|250px|Ommatidies de krill antarctique, composant un œil primitif adapté à une vision sous-marine. thumb|250px|Yeux de triops, primitifs et non mobiles. thumb|250px|Yeux multiples d'une araignée sauteuse (famille des Salticidae, composée d'araignées chassant à l'affut, mode de chasse nécessitant une très bonne vision). thumb|250px|Œil de la libellule Platycnemis pennipes, offrant un champ de vision très large, adapté à un comportement de prédation.

Visual processing

Visual processing is a term that is used to refer to the brain's ability to use and interpret visual information from the world around us. The process of converting light energy into a meaningful image is a complex process that is facilitated by numerous brain structures and higher level cognitive processes. On an anatomical level, light energy first enters the eye through the cornea, where the light is bent. After passing through the cornea, light passes through the pupil and then lens of the eye, where it is bent to a greater degree and focused upon the retina.

Structure tensor

In mathematics, the structure tensor, also referred to as the second-moment matrix, is a matrix derived from the gradient of a function. It describes the distribution of the gradient in a specified neighborhood around a point and makes the information invariant respect the observing coordinates. The structure tensor is often used in and computer vision. For a function of two variables p = (x, y), the structure tensor is the 2×2 matrix where and are the partial derivatives of with respect to x and y; the integrals range over the plane ; and w is some fixed "window function" (such as a Gaussian blur), a distribution on two variables.

Éditeur audio

Un éditeur audio est un logiciel pour l'édition audio, c'est-à-dire dans la manipulation du son numérique. Ces éditeurs sont désignés pour la manipulation de sons et permettent typiquement à l'utilisateur les opérations suivantes : enregistrer les sons provenant de la carte son ; importer des fichiers audio ; couper et organiser ces sons dans le temps ; les mixer ; appliquer des effets (compression, flanger, réverbération, égalisation) pour modifier le son ; conversion entre différents formats audio, ou différentes qualités de son.

Stimulus modality

Stimulus modality, also called sensory modality, is one aspect of a stimulus or what is perceived after a stimulus. For example, the temperature modality is registered after heat or cold stimulate a receptor. Some sensory modalities include: light, sound, temperature, taste, pressure, and smell. The type and location of the sensory receptor activated by the stimulus plays the primary role in coding the sensation. All sensory modalities work together to heighten stimuli sensation when necessary.

Système visuel humain

Le est l'ensemble des organes participant à la perception visuelle humaine, de la rétine au système sensori-moteur. Son rôle est de percevoir et d'interpréter deux images en deux dimensions en une image en trois dimensions. Il est principalement constitué de l'œil (et plus particulièrement la rétine), des nerfs optiques, du chiasma optique, du tractus optique, du corps genouillé latéral, des radiations optiques et du cortex visuel. En première approximation, l'œil peut être assimilé à un appareil photographique.

Cortex visuel

Le occupe le lobe occipital du cerveau et est chargé de traiter les informations visuelles. Le cortex visuel couvre le lobe occipital, sur les faces latérales et internes, et empiète sur le lobe pariétal et le lobe temporal. L'étude du cortex visuel en neurosciences a permis de le découper en une multitude de sous-régions fonctionnelles (V1, V2, V3, V4, MT) qui traitent chacune ou collectivement des multiples propriétés des informations provenant des voies visuelles (formes, couleurs, mouvements).

Interaction multimodale

Multimodal interaction provides the user with multiple modes of interacting with a system. A multimodal interface provides several distinct tools for input and output of data. Multimodal human-computer interaction refers to the "interaction with the virtual and physical environment through natural modes of communication", This implies that multimodal interaction enables a more free and natural communication, interfacing users with automated systems in both input and output.

Transformation de Fourier

thumb|Portrait de Joseph Fourier. En mathématiques, plus précisément en analyse, la transformation de Fourier est une extension, pour les fonctions non périodiques, du développement en série de Fourier des fonctions périodiques. La transformation de Fourier associe à toute fonction intégrable définie sur R et à valeurs réelles ou complexes, une autre fonction sur R appelée transformée de Fourier dont la variable indépendante peut s'interpréter en physique comme la fréquence ou la pulsation.

Station audionumérique

vignette|Station audionumérique Une station audionumérique (acronyme DAW, de l'anglais Digital Audio Workstation) désigne une station de travail basée sur des composants optimisés pour le pilotage, l'acquisition et le traitement numérique du son. Les stations audionumériques sont conçues pour enregistrer, éditer, manipuler, créer et lire des contenus MIDI et audionumériques. Le concept a évolué avec l'importance prise par l'informatique distribuée au travers de protocoles standards de l'internet.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Scale space implementation

In the areas of computer vision, and signal processing, the notion of scale-space representation is used for processing measurement data at multiple scales, and specifically enhance or suppress image features over different ranges of scale (see the article on scale space). A special type of scale-space representation is provided by the Gaussian scale space, where the image data in N dimensions is subjected to smoothing by Gaussian convolution.

Regard masculin

alt=mannequin portant un bikini de métal.|vignette|redresse=1.5|Le costume d'esclave de Leia Organa dans Star Wars, épisode VI : Le Retour du Jedi est considéré comme un exemple de regard masculin. Le 'regard masculin', également appelé vision masculine ou male gaze, est un concept postulant que la culture visuelle dominante (photographie, cinéma, publicité, jeu vidéo, bande dessinée, etc.) impose une perspective d'homme cisgenre hétérosexuel.

Visual agnosia

Visual agnosia is an impairment in recognition of visually presented objects. It is not due to a deficit in vision (acuity, visual field, and scanning), language, memory, or intellect. While cortical blindness results from lesions to primary visual cortex, visual agnosia is often due to damage to more anterior cortex such as the posterior occipital and/or temporal lobe(s) in the brain.[2] There are two types of visual agnosia: apperceptive agnosia and associative agnosia. Recognition of visual objects occurs at two primary levels.

Regard (sciences sociales)

vignette|300px|Caricature montrant l'Oncle Sam faisant la leçon à quatre enfants étiquetés Philippines, Hawaii, Porto Rico et Cuba devant des enfants tenant des livres étiquetés de divers États américains. À l'arrière-plan, on voit un Amérindien tenant un livre à l'envers, un jeune Chinois à la porte et un jeune Noir nettoyant une fenêtre. En sociologie, le regard (parfois noté avec une majuscule : « Regard ») est la manière dont un individu ou un groupe d'individus (le « regardant ») perçoit et se représente son environnement et en particulier soi-même et les autres individus.