Publication

Robust Log-Energy Estimation and its Dynamic Change Enhancement for In-car Speech Recognition

Concepts associés (25)

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Loi log-normale

En théorie des probabilités et statistique, une variable aléatoire X est dite suivre une loi log-normale de paramètres et si la variable suit une loi normale d'espérance et de variance . Cette loi est parfois appelée loi de Galton. Elle est habituellement notée dans le cas d'une seule variable ou dans un contexte multidimensionnel. Une variable peut être modélisée par une loi log-normale si elle est le résultat de la multiplication d'un grand nombre de petits facteurs indépendants.

Bruit de fond

En traitement du signal, on appelle bruit de fond toute composante non désirée affectant la sortie d'un dispositif indépendamment du signal présent à son entrée. Le bruit de fond se décompose en bruit propre, que cause le dispositif lui-même, et en perturbations originaires de l'extérieur qu'il capte malencontreusement. Au fur et à mesure que le signal se rapproche, puis s'enfonce en dessous du niveau du bruit de fond, la quantité d'informations qu'il peut transporter décroît , il devient plus difficile à détecter, et il finit par se dissoudre dans l'incertitude.

Pollution sonore

thumb|Selon G. Dutilleux (2012), (ici, à titre d'exemple : vue de la circulation automobile urbaine à Bangkok, source majeure de nuisances sonores. thumb|L'échangeur de Daussoulx en Belgique ; autre exemple de source de nuisances sonores. La notion de pollution sonore regroupe généralement des nuisances sonores, et des pollutions induites par le son devenu dans certaines circonstances un « altéragène physique » pour l'être humain ou les écosystèmes.

Rapport signal sur bruit

En électronique, le rapport signal sur bruit (SNR, ) est le rapport des puissances entre la partie du signal qui représente une information et le reste, qui constitue un bruit de fond. Il est un indicateur de la qualité de la transmission d'une information. L'expression d'un rapport signal sur bruit se fonde implicitement sur le principe de superposition, qui pose que le signal total est la somme de ces composantes. Cette condition n'est vraie que si le phénomène concerné est linéaire.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Mel-frequency cepstrum

In sound processing, the mel-frequency cepstrum (MFC) is a representation of the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. Mel-frequency cepstral coefficients (MFCCs) are coefficients that collectively make up an MFC. They are derived from a type of cepstral representation of the audio clip (a nonlinear "spectrum-of-a-spectrum").

Logarithme

vignette|Tracés des fonctions logarithmes en base 2, e et 10. En mathématiques, le logarithme (de logos : rapport et arithmos : nombre) de base d'un nombre réel strictement positif est la puissance à laquelle il faut élever la base pour obtenir ce nombre. Dans le cas le plus simple, le logarithme compte le nombre d'occurrences du même facteur dans une multiplication répétée : comme 1000 = 10×10×10 = 10, le logarithme en base 10 de 1000 est 3. Le logarithme de en base est noté : . John Napier a développé les logarithmes au début du .

Interface utilisateur vocale

Une interface utilisateur vocale ou IUV (ou VUI pour Vocal User Interface en anglais) rend possible l'interaction orale entre les humains et les ordinateurs. Un dispositif de commande vocale (ou VCD pour Voice Command Device) est un appareil doté d'une interface utilisateur vocale. Les ordinateurs équipés d'un tel dispositif utilisent généralement la reconnaissance vocale pour comprendre les mots énoncés par les humains et la synthèse vocale pour en produire.

Synthèse vocale

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Noise (signal processing)

In signal processing, noise is a general term for unwanted (and, in general, unknown) modifications that a signal may suffer during capture, storage, transmission, processing, or conversion. Sometimes the word is also used to mean signals that are random (unpredictable) and carry no useful information; even if they are not interfering with other signals or may have been introduced intentionally, as in comfort noise. Noise reduction, the recovery of the original signal from the noise-corrupted one, is a very common goal in the design of signal processing systems, especially filters.

Speech coding

Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).

Débruitage

Le débruitage est une technique d'édition qui consiste à supprimer des éléments indésirables (« bruit »), afin de rendre un document, un signal (numérique ou analogique) ou un environnement plus intelligible ou plus pur. Ne pas confondre le débruitage avec la réduction de bruit. Sur le plan sonore, le débruitage consiste à réduire ou anéantir le rendu d'ondes sonores « parasites » (ou « bruit »).

Bruit

vignette|Mesure du niveau de bruit à proximité d'une route à l'aide d'un sonomètre. Le bruit est un son jugé indésirable. Les sons qui ne se comprennent pas comme de la parole ou de la musique s'assimilent souvent au bruit, même si leur perception n'est pas désagréable, comme le montre l'expression bruit ambiant. Du point de vue de l'environnement, les sons indésirables sont une nuisance, souvent à l'origine de litiges. Ceux qui s'en plaignent les assimilent à une pollution.

Feature (computer vision)

In computer vision and , a feature is a piece of information about the content of an image; typically about whether a certain region of the image has certain properties. Features may be specific structures in the image such as points, edges or objects. Features may also be the result of a general neighborhood operation or feature detection applied to the image. Other examples of features are related to motion in image sequences, or to shapes defined in terms of curves or boundaries between different image regions.

Emotion recognition

Emotion recognition is the process of identifying human emotion. People vary widely in their accuracy at recognizing the emotions of others. Use of technology to help people with emotion recognition is a relatively nascent research area. Generally, the technology works best if it uses multiple modalities in context. To date, the most work has been conducted on automating the recognition of facial expressions from video, spoken expressions from audio, written expressions from text, and physiology as measured by wearables.

Spectre électromagnétique

vignette|redresse=1.5|Diagramme montrant le spectre électromagnétique dans lequel se distinguent plusieurs domaines spectraux en fonction des longueurs d'onde (avec des exemples de tailles), les fréquences correspondantes, et les températures du corps noir dont l'émission est maximum à ces longueurs d'onde. Le spectre électromagnétique est le classement des rayonnements électromagnétiques par fréquence et longueur d'onde dans le vide ou énergie photonique. Le spectre électromagnétique s'étend sans rupture de zéro à l'infini.

Contrôle actif du bruit

vignette|Principe de la réduction active du bruit. Le contrôle actif du bruit ou « antibruit » (en anglais, active noise control abrégé en ANC) est une technique de réduction du bruit par l’utilisation de sources sonores auxiliaires. Le contrôle actif s'oppose à la réduction passive, c'est-à-dire l'isolation phonique par des parois lourdes associées à des matériaux absorbants. Le principe du contrôle actif du bruit consiste à diffuser, par un haut-parleur piloté par un dispositif électronique, une onde sonore qui s'oppose à celle qu'on veut atténuer.

Système de reconnaissance faciale

Un système de reconnaissance faciale est une application logicielle visant à reconnaître automatiquement une personne grâce à son visage. Il s'agit d'un sujet particulièrement étudié en vision par ordinateur, avec de très nombreuses publications et brevets, et des conférences spécialisées. La reconnaissance de visage a de nombreuses applications en vidéosurveillance, biométrie, robotique, indexation d'images et de vidéos, , etc. Ces systèmes sont généralement utilisés à des fins de sécurité pour déverrouiller ordinateur/mobile/console, mais aussi en domotique.

Speaker recognition

Speaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).