Publication

Low-latency speaker spotting with online diarization and detection

Concepts associés (32)

Speaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).

Espace vectoriel

vignette|Dans un espace vectoriel, on peut additionner deux vecteurs. Par exemple, la somme du vecteur v (en bleu) et w (en rouge) est v + w. On peut aussi multiplier un vecteur, comme le vecteur w que l'on peut multiplier par 2, on obtient alors 2w et la somme devient v + 2w. En mathématiques, plus précisément en algèbre linéaire, un espace vectoriel est un ensemble d'objets, appelés vecteurs, que l'on peut additionner entre eux, et que l'on peut multiplier par un scalaire (pour les étirer ou les rétrécir, les tourner, etc.

Vecteur euclidien

En mathématiques, et plus précisément en géométrie euclidienne, un vecteur euclidien est un objet géométrique possédant une direction, un sens et une norme. On l'utilise par exemple en physique et en ingénierie pour modéliser une force. On parle aussi parfois de vecteur géométrique dans le plan euclidien (deux dimensions) et de vecteur spatial dans l'espace à trois dimensions. Vecteur#HistoireVecteur En physique et en ingénierie, on travaille souvent dans l'espace euclidien.

Vecteur unitaire

vignette|Deux vecteurs unitaires dans un espace vectoriel normé. Dans un espace vectoriel normé (réel ou complexe) E, un vecteur unitaire est un vecteur dont la norme est égale à 1. Si le corps des scalaires est R, deux vecteurs unitaires v et w sont colinéaires si et seulement si v = w ou v = –w. Si le corps des scalaires est C, et si v est un vecteur unitaire de E, alors les vecteurs unitaires colinéaires à v sont αv où α est un complexe de module 1. Les vecteurs unitaires permettent de définir la direction et le sens d'un vecteur non nul de E.

Reconnaissance automatique de la parole

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Enceinte connectée

vignette|redresse|Un modèle d'enceinte connectée, ici le Google Home de Google. Une enceinte connectée ou haut-parleur intelligent est un type de haut-parleur sans fil à commande vocale, associé à un assistant personnel intelligent intégré, qui propose des actions interactives et des commandes à mains libres à l'aide d'un ou plusieurs mots-clés. Les enceintes connectées ajoutent à l'enceinte une utilisation de services distants par une connexion sans fil.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Audio deepfake

An audio deepfake (also known as voice cloning) is a type of artificial intelligence used to create convincing speech sentences that sound like specific people saying things they did not say. This technology was initially developed for various applications to improve human life. For example, it can be used to produce audiobooks, and also to help people who have lost their voices (due to throat disease or other medical problems) to get them back. Commercially, it has opened the door to several opportunities.

Alarme incendie

vignette|Boîtier d'alarme incendie Siemens en France Un boîtier d'alarme incendie, aussi appelé boîtier à bris de glace ou DM (déclencheur manuel), alarme à feu au Canada francophone ou fire alarm en anglais, est un boîtier électrique de couleur rouge permettant à tout usager de détecter un début d'incendie dans un bâtiment, de déclencher son évacuation, et de gérer la sécurisation des personnes se trouvant dans celui-ci. Techniquement, l'ensemble du dispositif est appelé « système de sécurité incendie ».

Open source

Open source is source code that is made freely available for possible modification and redistribution. Products include permission to use the source code, design documents, or content of the product. The open-source model is a decentralized software development model that encourages open collaboration. A main principle of open-source software development is peer production, with products such as source code, blueprints, and documentation freely available to the public.

Surface (physique)

En physique, une surface est une étendue géométrique à deux dimensions, sur laquelle il est localement possible de se repérer à l'aide de deux coordonnées réelles, comme dans le plan (avec l'abscisse et l'ordonnée) ou sur une sphère (avec la latitude et la longitude). Une surface apparaît généralement comme une interface entre deux milieux, ou entre l'intérieur et l'extérieur d'un système physique, supportant une distribution surfacique d'un champ scalaire, ou à travers laquelle passe un flux d'un champ vectoriel.

Bivecteur

En algèbre, le terme de bivecteur désigne un tenseur antisymétrique d'ordre 2, c'est-à-dire une quantité X pouvant s'écrire où les quantités ω sont des formes linéaires et le signe désigne le produit extérieur. Un bivecteur peut être vu comme une application linéaire agissant sur les vecteurs et les transformant en formes linéaires. Les coefficients X_ab peuvent être vus comme formant une matrice antisymétrique. Les bivecteurs sont abondamment utilisés en relativité générale, où plusieurs tenseurs peuvent être reliés à des bivecteurs.

Open-source software

Open-source software (OSS) is computer software that is released under a license in which the copyright holder grants users the rights to use, study, change, and distribute the software and its source code to anyone and for any purpose. Open-source software may be developed in a collaborative, public manner. Open-source software is a prominent example of open collaboration, meaning any capable user is able to participate online in development, making the number of possible contributors indefinite.

Amazon Echo

Amazon Echo est une enceinte connectée, conçue par Amazon, ayant la capacité d'obéir à la voix humaine, de parler et dans une certaine mesure, d'interagir avec un humain. L'appareil peut être connecté à des objets domotiques qui peuvent ainsi être contrôlés par la voix humaine. En France, Amazon lance en mars 2019 une nouvelle génération d'enceinte connectée avec écran : l’Amazon Echo Show génération. Amazon Echo Auto, un boitier équipé de micros et qui intègre entre autres fonctionnalités un GPS vocal, est disponible sur le marché national depuis juillet 2020.

Quadrivecteur

En physique, un quadrivecteur est un vecteur à quatre dimensions utilisé pour représenter un événement dans l'espace-temps. Dans la théorie de la relativité restreinte, un quadrivecteur est un vecteur de l'espace de Minkowski, où un changement de référentiel se fait par des transformations de Lorentz (par covariance des coordonnées). En relativité restreinte, un quadrivecteur (ou 4-vecteur) est un vecteur appartenant à l'espace vectoriel associé à l'espace affine qu'est l'espace-temps.

Smartphone

Un smartphone ou téléphone intelligent (au Québec et au Canada francophone, également appelé téléphone multifonction, mobile multifonction ou encore ordiphone) est un téléphone mobile disposant en général d'un écran tactile, d'un appareil photographique numérique, des fonctions d'un assistant numérique personnel et de certaines fonctions d'un ordinateur portable. La saisie des données se fait le plus souvent à l'aide d'un écran tactile ou, plus rarement, d'un clavier ou d'un stylet.

Applications de l'intelligence artificielle

L'intelligence artificielle, définie comme intelligence présentée par les machines, a de nombreuses applications dans la société actuelle. Plus précisément, c'est l'IA faible, la forme d'IA avec laquelle les programmes sont développés pour effectuer des tâches spécifiques, qui est utilisée pour un large éventail d'activités, y compris le diagnostic médical, le commerce électronique, le contrôle des robots et la télédétection. L'IA a été utilisée pour développer et faire progresser de nombreux domaines et industries, y compris la finance, la santé, l'éducation, le transport, et plus encore.

Segmentation d'image

La segmentation d'image est une opération de s consistant à détecter et rassembler les pixels suivant des critères, notamment d'intensité ou spatiaux, l'image apparaissant ainsi formée de régions uniformes. La segmentation peut par exemple montrer les objets en les distinguant du fond avec netteté. Dans les cas où les critères divisent les pixels en deux ensembles, le traitement est une binarisation. Des algorithmes sont écrits comme substitut aux connaissances de haut niveau que l'homme mobilise dans son identification des objets et structures.

Open-source license

Open-source licenses facilitate free and open-source software (FOSS) development. Intellectual property (IP) laws restrict the modification and sharing of creative works. Free and open-source software licenses use these existing legal structures for the inverse purpose of granting freedoms that promote sharing and collaboration. They grant the recipient the rights to use the software, examine the source code, modify it, and distribute the modifications. These licenses target computer software where source code can be necessary to create modifications.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.