Publication

Vocal Tract Length Normalization for Statistical Parametric Speech Synthesis

Concepts associés (16)

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Synthèse vocale

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Matrice d'une application linéaire

En algèbre linéaire, la matrice d'une application linéaire est une matrice de scalaires qui permet de représenter une application linéaire entre deux espaces vectoriels de dimensions finies, étant donné le choix d'une base pour chacun d'eux. Soient : E et F deux espaces vectoriels sur un corps commutatif K, de dimensions respectives n et m ; B = (e, ... , e) une base de E, C une base de F ; φ une application de E dans F.

Application affine

En géométrie, une application affine est une application entre deux espaces affines qui est compatible avec leur structure. Cette notion généralise celle de fonction affine de R dans R (), sous la forme , où est une application linéaire et est un point. Une bijection affine (qui est un cas particulier de transformation géométrique) envoie les sous-espaces affines, comme les points, les droites ou les plans, sur le même type d'objet géométrique, tout en préservant la notion de parallélisme.

Matrice diagonale

En algèbre linéaire, une matrice diagonale est une matrice carrée dont les coefficients en dehors de la diagonale principale sont nuls. Les coefficients de la diagonale peuvent être ou ne pas être nuls. Une matrice diagonale est une matrice qui correspond à la représentation d'un endomorphisme diagonalisable dans une base de vecteurs propres. La matrice d'un endomorphisme diagonalisable est semblable à une matrice diagonale. Toute matrice diagonale est symétrique, normale et triangulaire.

Matrices semblables

En mathématiques, deux matrices carrées A et B sont dites semblables s'il existe une matrice inversible P telle que . La similitude est une relation d'équivalence. Deux matrices sont semblables si et seulement si elles représentent le même endomorphisme d'un espace vectoriel dans deux bases (éventuellement) différentes. Il ne faut pas confondre la notion de matrices semblables avec celle de matrices équivalentes. En revanche, si deux matrices sont semblables, alors elles sont équivalentes.

Matrice élémentaire

Une matrice est dite élémentaire lorsqu'elle est obtenue en appliquant une seule opération élémentaire sur les lignes de la matrice identité. Les opérations élémentaires sur les lignes d'une matrice sont les suivantes : permuter deux lignes entre elles ; ajouter un multiple d'une ligne à une autre ligne ; multiplier une ligne par un scalaire non nul. Un examen direct des trois types montre que toute matrice élémentaire est inversible et de transposée élémentaire.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Speaker recognition

Speaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).

Réduction de la dimensionnalité

vignette|320x320px|Animation présentant la projection de points en deux dimensions sur les axes obtenus par analyse en composantes principales, une méthode populaire de réduction de la dimensionnalité La réduction de la dimensionnalité (ou réduction de (la) dimension) est un processus étudié en mathématiques et en informatique, qui consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension.

Speech coding

Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).

Fléau de la dimension

Le fléau de la dimension ou malédiction de la dimension (curse of dimensionality) est un terme inventé par Richard Bellman en 1961 pour désigner divers phénomènes qui ont lieu lorsque l'on cherche à analyser ou organiser des données dans des espaces de grande dimension alors qu'ils n'ont pas lieu dans des espaces de dimension moindre. Plusieurs domaines sont concernés et notamment l'apprentissage automatique, la fouille de données, les bases de données, l'analyse numérique ou encore l'échantillonnage.

Reconnaissance de formes

thumb|Reconnaissance de forme à partir de modélisation en 3D La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de techniques et méthodes visant à identifier des régularités informatiques à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce motif. On considère que c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques d'apprentissage automatique et aux statistiques.

Nonlinear dimensionality reduction

Nonlinear dimensionality reduction, also known as manifold learning, refers to various related techniques that aim to project high-dimensional data onto lower-dimensional latent manifolds, with the goal of either visualizing the data in the low-dimensional space, or learning the mapping (either from the high-dimensional space to the low-dimensional embedding or vice versa) itself. The techniques described below can be understood as generalizations of linear decomposition methods used for dimensionality reduction, such as singular value decomposition and principal component analysis.

Synthèse chimique

Une synthèse chimique est un enchaînement de réactions chimiques mis en œuvre volontairement ou non permettant l'obtention d'un ou de plusieurs produits finaux, parfois avec isolation de composés chimiques intermédiaires. Les synthèses chimiques peuvent avoir lieu à toutes sortes d'échelles : du laboratoire de recherche (de l'ordre du gramme ou moins) à l'industrie chimique (souvent de l'ordre de la tonne ou plus) ou dans la nature (biosynthèses).

Performances (informatique)

En informatique, les performances énoncent les indications chiffrées mesurant les possibilités maximales ou optimales d'un matériel, d'un logiciel, d'un système ou d'un procédé technique pour exécuter une tâche donnée. Selon le contexte, les performances incluent les mesures suivantes : Un faible temps de réponse pour effectuer une tâche donnée Un débit élevé (vitesse d'exécution d'une tâche) L'efficience : faible utilisation des ressources informatiques : processeur, mémoire, stockage, réseau, consommation électrique, etc.