Publication

Joint speech and speaker recognition

Concepts associés (32)

Speaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).

Reconnaissance automatique de la parole

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Reconnaissance de formes

thumb|Reconnaissance de forme à partir de modélisation en 3D La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de techniques et méthodes visant à identifier des régularités informatiques à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce motif. On considère que c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques d'apprentissage automatique et aux statistiques.

Cabine Leslie

right|thumb|Orgue Hammond avec sa cabine Leslie à droite. La cabine Leslie, qui porte le nom de son inventeur Donald Leslie, est un dispositif muni de haut-parleurs dirigés vers des diffuseurs rotatifs situés en bas et en haut de la cabine. Ceci a pour but de créer un effet semblable à un vibrato par effet Doppler. Elle est généralement utilisée avec les orgues Hammond. Les cabines Leslie — et les orgues Hammond — sont actuellement produits par . En 1937, Donald Leslie achète un orgue Hammond.

Réseau de neurones à propagation avant

Un réseau de neurones à propagation avant, en anglais feedforward neural network, est un réseau de neurones artificiels acyclique, se distinguant ainsi des réseaux de neurones récurrents. Le plus connu est le perceptron multicouche qui est une extension du premier réseau de neurones artificiel, le perceptron inventé en 1957 par Frank Rosenblatt. vignette|Réseau de neurones à propagation avant Le réseau de neurones à propagation avant est le premier type de réseau neuronal artificiel conçu. C'est aussi le plus simple.

Perceptron

Le perceptron est un algorithme d'apprentissage supervisé de classifieurs binaires (c'est-à-dire séparant deux classes). Il a été inventé en 1957 par Frank Rosenblatt au laboratoire d'aéronautique de l'université Cornell. Il s'agit d'un neurone formel muni d'une règle d'apprentissage qui permet de déterminer automatiquement les poids synaptiques de manière à séparer un problème d'apprentissage supervisé. Si le problème est linéairement séparable, un théorème assure que la règle du perceptron permet de trouver une séparatrice entre les deux classes.

Enceinte sans fil

Une enceinte sans fil est une caisse dans laquelle sont fixés un ou plusieurs haut-parleurs qui reçoivent des signaux audios sans liaison filaire, utilisant principalement les technologies du Wi-Fi, du Bluetooth, de la UHF longue portée, mais aussi la liaison Kleer, A2DP ou DLNA. Parfois accompagnée d'un amplificateur intégré, ce type d'enceinte se connecte avec des sources audio par une procédure d'appairage.

Haut-parleur

vignette|Un haut-parleur électrodynamique. vignette|Schéma de coupe d'un haut-parleur électrodynamique. Un haut-parleur, ou hautparleur, est un transducteur électroacoustique destiné à produire des sons à partir d'un signal électrique. Il est en cela l'inverse du microphone. Par extension, on emploie parfois ce terme pour désigner un appareil complet destiné à la reproduction sonore (voir Enceinte). Quatre types de haut-parleurs, électrodynamique, électrostatique, piézoélectrique et isodynamique, représentent les technologies actuelles les plus courantes.

Modèle de Markov caché

Un modèle de Markov caché (MMC, terme et définition normalisés par l’ISO/CÉI [ISO/IEC 2382-29:1999]) — (HMM)—, ou plus correctement (mais non employé) automate de Markov à états cachés, est un modèle statistique dans lequel le système modélisé est supposé être un processus markovien de paramètres inconnus. Contrairement à une chaîne de Markov classique, où les transitions prises sont inconnues de l'utilisateur mais où les états d'une exécution sont connus, dans un modèle de Markov caché, les états d'une exécution sont inconnus de l'utilisateur (seuls certains paramètres, comme la température, etc.

Modèle de mélange

In statistics, a mixture model is a probabilistic model for representing the presence of subpopulations within an overall population, without requiring that an observed data set should identify the sub-population to which an individual observation belongs. Formally a mixture model corresponds to the mixture distribution that represents the probability distribution of observations in the overall population.

Amplificateur pour guitare électrique

thumb|Amplificateur Fender au format « stack » Un amplificateur pour guitare est un amplificateur audio, spécialement conçu pour la guitare électrique, ou la guitare basse. Le terme abrégé « ampli » désigne communément le couple constitué par l'amplificateur électronique et le haut-parleur. La partie électronique et le haut-parleur peuvent se présenter en deux éléments distincts, ou être réunis dans un même meuble, construit le plus souvent en plaques de bois, recouvert d'un revêtement en vinyle.

Guitar speaker

A guitar speaker is a loudspeaker – specifically the driver (transducer) part – designed for use in a combination guitar amplifier (in which a loudspeaker and an amplifier are installed in a wooden cabinet) of an electric guitar, or for use in a guitar speaker cabinet. Typically these drivers produce only the frequency range relevant to electric guitars, which is similar to a regular woofer type driver, which is approximately 75 Hz — 5 kHz, or for electric bass speakers, down to 41 Hz for regular four-string basses or down to about 30 Hz for five-string instruments.

Plasma speaker

Plasma speakers or ionophones are a form of loudspeaker which varies air pressure via an electrical plasma instead of a solid diaphragm. The plasma arc heats the surrounding air causing it to expand. Varying the electrical signal that drives the plasma and connected to the output of an audio amplifier, the plasma size varies which in turn varies the expansion of the surrounding air creating sound waves. The plasma is typically in the form of a glow discharge and acts as a massless radiating element.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Markov model

In probability theory, a Markov model is a stochastic model used to model pseudo-randomly changing systems. It is assumed that future states depend only on the current state, not on the events that occurred before it (that is, it assumes the Markov property). Generally, this assumption enables reasoning and computation with the model that would otherwise be intractable. For this reason, in the fields of predictive modelling and probabilistic forecasting, it is desirable for a given model to exhibit the Markov property.

Reconnaissance de l'écriture manuscrite

La reconnaissance de l’écriture manuscrite (en anglais, handwritten text recognition ou HTR) est un traitement informatique qui a pour but de traduire un texte écrit en un texte codé numériquement. Il faut distinguer deux reconnaissances distinctes, avec des problématiques et des solutions différentes : la reconnaissance en-ligne ; la reconnaissance hors-ligne. La reconnaissance de l’écriture manuscrite fait appel à la reconnaissance de forme, mais également au traitement automatique du langage naturel.

Réseau neuronal résiduel

droite|vignette| Forme canonique d'un réseau neuronal résiduel. Une couche l − 1 est ignoré sur l'activation de l − 2. Un réseau neuronal résiduel ( ResNet ) est un réseau neuronal artificiel (ANN). Il s'agit d'une variante du HighwayNet , le premier réseau neuronal à action directe très profond avec des centaines de couches, beaucoup plus profond que les réseaux neuronaux précédents. Les sauts de connexion ou "raccourcis" sont utilisés pour passer par-dessus certaines couches ( les HighwayNets peuvent également avoir des poids pour les saut eux-mêmes, grâce à une matrice de poids supplémentaire pour leurs portes).

Enceinte connectée

vignette|redresse|Un modèle d'enceinte connectée, ici le Google Home de Google. Une enceinte connectée ou haut-parleur intelligent est un type de haut-parleur sans fil à commande vocale, associé à un assistant personnel intelligent intégré, qui propose des actions interactives et des commandes à mains libres à l'aide d'un ou plusieurs mots-clés. Les enceintes connectées ajoutent à l'enceinte une utilisation de services distants par une connexion sans fil.

Classification en classes multiples

In machine learning and statistical classification, multiclass classification or multinomial classification is the problem of classifying instances into one of three or more classes (classifying instances into one of two classes is called binary classification). While many classification algorithms (notably multinomial logistic regression) naturally permit the use of more than two classes, some are by nature binary algorithms; these can, however, be turned into multinomial classifiers by a variety of strategies.