Publication

Source/Filter Factorial Hidden Markov Model, with Application to Pitch and Formant Tracking

Concepts associés (25)

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Synthèse sonore additive

thumb|Synthèse additive d'une onde triangulaire. thumb|Synthèse additive d'une onde en dents de scie. thumb|Synthèse additive d'une onde carrée. La synthèse sonore additive consiste à créer un son en additionnant des signaux sinusoïdaux appelés harmoniques. Depuis Joseph Fourier, on sait qu'un signal périodique peut être décomposé en somme de sinus et cosinus, de fréquences multiples de la fréquence fondamentale du signal.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Théorie de l'estimation

En statistique, la théorie de l'estimation s'intéresse à l'estimation de paramètres à partir de données empiriques mesurées ayant une composante aléatoire. Les paramètres décrivent un phénomène physique sous-jacent tel que sa valeur affecte la distribution des données mesurées. Un estimateur essaie d'approcher les paramètres inconnus à partir des mesures.

Maximum de vraisemblance

En statistique, l'estimateur du maximum de vraisemblance est un estimateur statistique utilisé pour inférer les paramètres de la loi de probabilité d'un échantillon donné en recherchant les valeurs des paramètres maximisant la fonction de vraisemblance. Cette méthode a été développée par le statisticien Ronald Aylmer Fisher en 1922. Soient neuf tirages aléatoires x1, ..., x9 suivant une même loi ; les valeurs tirées sont représentées sur les diagrammes ci-dessous par des traits verticaux pointillés.

Production de la parole

La production de la parole est un processus qui transforme les pensées en parole. Cette activité comprend la sélection des mots, l'organisation des formes grammaticales pertinentes et l'articulation des sons par le système moteur via l'appareil vocal. Cette production peut être spontanée (par exemple, quand une personne prononce des mots lors d'une conversation), réactive (par exemple, quand elle identifie une illustration ou qu'elle fait une lecture à voix haute) ou imitative (quand elle répète les mots qu'une autre personne a dits).

Parameter

A parameter (), generally, is any characteristic that can help in defining or classifying a particular system (meaning an event, project, object, situation, etc.). That is, a parameter is an element of a system that is useful, or critical, when identifying the system, or when evaluating its performance, status, condition, etc. Parameter has more specific meanings within various disciplines, including mathematics, computer programming, engineering, statistics, logic, linguistics, and electronic musical composition.

Speech coding

Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).

Vocodeur

vignette|Un Vocoder VC-10 de Korg. Le vocoder ou vocodeur est un dispositif électronique de traitement du signal sonore. Son nom, contraction de voice coder (« codeur de voix » en anglais), a été francisé en « vocodeur ». Il analyse les principales composantes spectrales de la voix (ou d'un autre son) et fabrique un son synthétique à partir du résultat de cette analyse. Le vocodeur a été inventé en 1939 par Homer Dudley, ingénieur aux laboratoires Bell, afin d'assurer une transmission efficace de la voix sur le réseau téléphonique.

Synthèse FM

vignette|Schéma de principe d'un opérateur FMOSC:OscillateurEG:Générateur d'EnveloppeVCA:voltage controlled amplifier vignette|Synthèse FM avec 2 opérateurs Brevetée par l'ingénieur John Chowning en 1973 au CCRMA de Stanford, la synthèse FM est un procédé de synthèse sonore qui utilise la modulation de fréquence (FM pour frequency modulation). Le brevet a été par la suite racheté par Yamaha qui l'a utilisé dans le synthétiseur DX7 et d'autres synthétiseurs qui l'ont suivi.

Statistical parameter

In statistics, as opposed to its general use in mathematics, a parameter is any measured quantity of a statistical population that summarises or describes an aspect of the population, such as a mean or a standard deviation. If a population exactly follows a known and defined distribution, for example the normal distribution, then a small set of parameters can be measured which completely describes the population, and can be considered to define a probability distribution for the purposes of extracting samples from this population.

Perception de la parole

La perception de la parole est le processus par lequel les humains sont capables d'interpréter et de comprendre les sons utilisés dans le langage. L'étude de la perception de la parole est reliée aux champs de la phonétique, de phonologie en linguistique, de psychologie cognitive et de perception en psychologie. Les recherches dans ce domaine essaient de comprendre comment les auditeurs humains reconnaissent les phonèmes (sons de la paroles) ou autres sons tels que la syllabe ou les rimes, et utilisent cette information pour comprendre le langage parlé.

Formant

On désigne par formant l'un des maxima d'énergie du spectre sonore d'un son de parole. Ce terme est notamment employé dans le domaine de la linguistique, de la phonétique et de l'acoustique. Il y a plusieurs définitions du mot « formant » (résonances du conduit vocal, pôles). vignette|Spectrogramme des voyelles [i, u, ɑ] en anglais américain, montrant les formants F1 et F2. Les formants peuvent être visualisés sur des spectres sonores. Ces spectres représentent la distribution en fréquences de l'énergie du signal de parole.

Estimation spectrale

L'estimation spectrale regroupe toutes les techniques d'estimation de la densité spectrale de puissance (DSP). Les méthodes d'estimation spectrale paramétriques utilisent un modèle pour obtenir une estimation du spectre. Ces modèles reposent sur une connaissance a priori du processus et peuvent être classées en trois grandes catégories : Modèles autorégressif (AR) Modèles à moyenne ajustée (MA) Modèles autorégressif à moyenne ajustée (ARMA). L'approche paramétrique se décompose en trois étapes : Choisir un modèle décrivant le processus de manière appropriée.

Densité spectrale de puissance

On définit la densité spectrale de puissance (DSP en abrégé, Power Spectral Density ou PSD en anglais) comme étant le carré du module de la transformée de Fourier, divisé par le temps d'intégration, (ou, plus rigoureusement, la limite quand tend vers l'infini de l'espérance mathématique du carré du module de la transformée de Fourier du signal - on parle alors de densité spectrale de puissance moyenne).

Maximum spacing estimation

In statistics, maximum spacing estimation (MSE or MSP), or maximum product of spacing estimation (MPS), is a method for estimating the parameters of a univariate statistical model. The method requires maximization of the geometric mean of spacings in the data, which are the differences between the values of the cumulative distribution function at neighbouring data points.

Linear predictive coding

Linear predictive coding (LPC) is a method used mostly in audio signal processing and speech processing for representing the spectral envelope of a digital signal of speech in compressed form, using the information of a linear predictive model. LPC is the most widely used method in speech coding and speech synthesis. It is a powerful speech analysis technique, and a useful method for encoding good quality speech at a low bit rate.

Speech repetition

Speech repetition occurs when individuals speak the sounds that they have heard another person pronounce or say. In other words, it is the saying by one individual of the spoken vocalizations made by another individual. Speech repetition requires the person repeating the utterance to have the ability to map the sounds that they hear from the other person's oral pronunciation to similar places and manners of articulation in their own vocal tract.

Fréquence fondamentale

En acoustique musicale, la fréquence fondamentale est l'inverse de la période d'un son complexe. Cette fréquence détermine la hauteur du son musical. Un son est une vibration de l'air. Cette vibration peut souvent s'assimiler à un phénomène périodique ; c'est le cas notamment des sons de voyelles émis par la voix humaine et de tous les instruments capables de produire une note de musique. Un phénomène périodique se caractérise par sa période, qui est la durée qui se reproduit identiquement lorsqu'on se décale dans le temps de cette même durée.

Décomposition QR

En algèbre linéaire, la décomposition QR (appelée aussi, factorisation QR ou décomposition QU) d'une matrice A est une décomposition de la forme où Q est une matrice orthogonale (QQ=I), et R une matrice triangulaire supérieure. Ce type de décomposition est souvent utilisé pour le calcul de solutions de systèmes linéaires non carrés, notamment pour déterminer la pseudo-inverse d'une matrice. En effet, les systèmes linéaires AX = Y peuvent alors s'écrire : QRX = Y ou RX = QY.