Publication

Let's move forward: Image-computable models and a common model evaluation scheme are prerequisites for a scientific understanding of human vision

Concepts associés (19)

In machine learning, diffusion models, also known as diffusion probabilistic models or score-based generative models, are a class of latent variable models. They are Markov chains trained using variational inference. The goal of diffusion models is to learn the latent structure of a dataset by modeling the way in which data points diffuse through the latent space. In computer vision, this means that a neural network is trained to denoise images blurred with Gaussian noise by learning to reverse the diffusion process.

Vision par ordinateur

La vision par ordinateur est un domaine scientifique et une branche de l’intelligence artificielle qui traite de la façon dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d's ou de vidéos numériques. Du point de vue de l'ingénierie, il cherche à comprendre et à automatiser les tâches que le système visuel humain peut effectuer. Les tâches de vision par ordinateur comprennent des procédés pour acquérir, traiter, et « comprendre » des images numériques, et extraire des données afin de produire des informations numériques ou symboliques, par ex.

Réseaux antagonistes génératifs

En intelligence artificielle, les réseaux antagonistes génératifs (RAG) parfois aussi appelés réseaux adverses génératifs (en anglais generative adversarial networks ou GANs) sont une classe d'algorithmes d'apprentissage non supervisé. Ces algorithmes ont été introduits par . Ils permettent de générer des images avec un fort degré de réalisme. Un GAN est un modèle génératif où deux réseaux sont placés en compétition dans un scénario de théorie des jeux. Le premier réseau est le générateur, il génère un échantillon (ex.

Réseau neuronal convolutif

En apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel.

Vue

thumb|250px|Ommatidies de krill antarctique, composant un œil primitif adapté à une vision sous-marine. thumb|250px|Yeux de triops, primitifs et non mobiles. thumb|250px|Yeux multiples d'une araignée sauteuse (famille des Salticidae, composée d'araignées chassant à l'affut, mode de chasse nécessitant une très bonne vision). thumb|250px|Œil de la libellule Platycnemis pennipes, offrant un champ de vision très large, adapté à un comportement de prédation.

Symbolic artificial intelligence

In artificial intelligence, symbolic artificial intelligence is the term for the collection of all methods in artificial intelligence research that are based on high-level symbolic (human-readable) representations of problems, logic and search. Symbolic AI used tools such as logic programming, production rules, semantic nets and frames, and it developed applications such as knowledge-based systems (in particular, expert systems), symbolic mathematics, automated theorem provers, ontologies, the semantic web, and automated planning and scheduling systems.

Modèle de langage

En traitement automatique des langues, un modèle de langage ou modèle linguistique est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant dans une séquence de mots. Un modèle de langage n-gramme est un modèle de langage qui modélise des séquences de mots comme un processus de Markov. Il utilise l'hypothèse simplificatrice selon laquelle la probabilité du mot suivant dans une séquence ne dépend que d'une fenêtre de taille fixe de mots précédents.

Vision science

Vision science is the scientific study of visual perception. Researchers in vision science can be called vision scientists, especially if their research spans some of the science's many disciplines. Vision science encompasses all studies of vision, such as how human and non-human organisms process visual information, how conscious visual perception works in humans, how to exploit visual perception for effective communication, and how artificial systems can do the same tasks.

Transformeur

vignette|Schéma représentant l'architecture générale d'un transformeur. Un transformeur (ou modèle auto-attentif) est un modèle d'apprentissage profond introduit en 2017, utilisé principalement dans le domaine du traitement automatique des langues (TAL). Dès 2020, les transformeurs commencent aussi à trouver une application en matière de vision par ordinateur par la création des vision transformers (ViT).

Photopic vision

Photopic vision is the vision of the eye under well-lit conditions (luminance levels from 10 to 108 cd/m2). In humans and many other animals, photopic vision allows color perception, mediated by cone cells, and a significantly higher visual acuity and temporal resolution than available with scotopic vision. The human eye uses three types of cones to sense light in three bands of color. The biological pigments of the cones have maximum absorption values at wavelengths of about 420 nm (blue), 534 nm (bluish-green), and 564 nm (yellowish-green).

Common Lisp

Common Lisp (en abrégé CL) est une spécification du langage Lisp standardisée par l'ANSI. Common Lisp est un dialecte de Lisp standardisé par l'ANSI X3.226-1994. Développé pour standardiser les variantes divergentes de Lisp qui l'ont précédé, ce n'est pas une implémentation mais une spécification à laquelle les implémentations Lisp essayent de se conformer. Il est fréquemment abrégé en CL. Common Lisp est un langage de programmation à usage général, a contrario de dialectes de Lisp comme Emacs Lisp et AutoLisp, qui sont des langages d'extension embarqués dans des produits particuliers.

Scheme

Scheme (prononciation : ) est un langage de programmation dérivé du langage fonctionnel Lisp, créé dans les années 1970 au Massachusetts Institute of Technology (MIT) par Gerald Jay Sussman et Guy L. Steele. Le but des créateurs du langage était d'épurer le Lisp en conservant les aspects essentiels, la flexibilité et la puissance expressive. Scheme a donc une syntaxe extrêmement simple, avec un nombre très limité de mots-clés. Comme en Lisp, la notation préfixée permet de s'affranchir d'une précédence des opérateurs.

Text-to-image model

A text-to-image model is a machine learning model which takes an input natural language description and produces an image matching that description. Such models began to be developed in the mid-2010s, as a result of advances in deep neural networks. In 2022, the output of state of the art text-to-image models, such as OpenAI's DALL-E 2, Google Brain's , StabilityAI's Stable Diffusion, and Midjourney began to approach the quality of real photographs and human-drawn art.

Mesure stéréoscopique

La stéréovision ou mesure stéréoscopique est une méthode de mesure qui consiste à se servir de la prise d'images (photographiques ou numériques) prises de différents points de vue, pour déterminer les dimensions, les formes ou les positions d'objets. Pour cela on utilise : soit des appareils photographiques étalonnés utilisant des films argentiques plans et stables dimensionnellement ou des détecteurs C.C.D à haute résolution pour des mesures statiques ; soit des caméras (film ou CCD) si des mesures dynamiques sont nécessaires (vidéogrammétrie).

Applications de l'intelligence artificielle

L'intelligence artificielle, définie comme intelligence présentée par les machines, a de nombreuses applications dans la société actuelle. Plus précisément, c'est l'IA faible, la forme d'IA avec laquelle les programmes sont développés pour effectuer des tâches spécifiques, qui est utilisée pour un large éventail d'activités, y compris le diagnostic médical, le commerce électronique, le contrôle des robots et la télédétection. L'IA a été utilisée pour développer et faire progresser de nombreux domaines et industries, y compris la finance, la santé, l'éducation, le transport, et plus encore.

Réalisme scientifique

Le réalisme scientifique est la théorie selon laquelle le monde décrit par la science est le monde « réel » ou « véritable ». Dans le contexte de la philosophie des sciences, le réalisme scientifique est une thèse à la fois ontologique (concernant l'être des choses) et épistémologique (concernant la connaissance) qui doit permettre d'expliquer comment les sciences parviennent avec succès à prédire les phénomènes.

La Structure des révolutions scientifiques

La Structure des révolutions scientifiques (The Structure of Scientific Revolutions) est un essai rédigé par le philosophe et historien des sciences, Thomas Samuel Kuhn. Paru en 1962, revu en 1970, l'ouvrage est incontestablement son œuvre majeure. Il y modélise notamment la science comme phénomène social et analyse les implications de cette approche, en s'appuyant sur de nombreux exemples tirés de l'Histoire des sciences.

Progrès social

Le progrès social est la recherche d'une amélioration des conditions de vie de l'être humain par un changement dans l'organisation sociale. Le progrès social est essentiellement une notion contemporaine parce qu'il est associé aux conditions de vie de l'être humain dans la société moderne.

Modèle statistique

Un modèle statistique est une description mathématique approximative du mécanisme qui a généré les observations, que l'on suppose être un processus stochastique et non un processus déterministe. Il s’exprime généralement à l’aide d’une famille de distributions (ensemble de distributions) et d’hypothèses sur les variables aléatoires X1, . . ., Xn. Chaque membre de la famille est une approximation possible de F : l’inférence consiste donc à déterminer le membre qui s’accorde le mieux avec les données.