Publication

Novel Methods For Detection And Analysis Of Atypical Aspects In Speech

Concepts associés (32)

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Réseau neuronal convolutif

En apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel.

Phonemic orthography

A phonemic orthography is an orthography (system for writing a language) in which the graphemes (written symbols) correspond to the phonemes (significant spoken sounds) of the language. Natural languages rarely have perfectly phonemic orthographies; a high degree of grapheme–phoneme correspondence can be expected in orthographies based on alphabetic writing systems, but they differ in how complete this correspondence is.

Parole

La parole est le langage articulé humain (même si des études ethologiques et philosophiques sont en cours pour déterminer si d’autres animaux pourraient être considérés comme dotés de parole, notamment les perroquets) destiné à communiquer la pensée, et est à distinguer des communications orales diverses, comme les cris, les alertes ou les gémissements. « Articuler la parole » consiste à former des signes audibles, les syllabes, formant les mots qui constituent des symboles.

Speech and language impairment

Speech and language impairment are basic categories that might be drawn in issues of communication involve hearing, speech, language, and fluency. A speech impairment is characterized by difficulty in articulation of words. Examples include stuttering or problems producing particular sounds. Articulation refers to the sounds, syllables, and phonology produced by the individual. Voice, however, may refer to the characteristics of the sounds produced—specifically, the pitch, quality, and intensity of the sound.

Synthèse vocale

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Phonème

En phonologie, domaine de la linguistique, un phonème est la plus petite unité discrète (ou distinctive, c'est-à-dire permettant de distinguer des mots les uns des autres) que l'on puisse isoler par segmentation dans la chaîne parlée. Un phonème est en réalité une entité abstraite, qui peut correspondre à plusieurs sons. Il est en effet susceptible d'être prononcé de façon différente selon les locuteurs ou selon sa position et son environnement au sein du mot (voir allophone) : les phones sont les différentes réalisations d'un phonème.

Réseau de neurones artificiels

Un réseau de neurones artificiels, ou réseau neuronal artificiel, est un système dont la conception est à l'origine schématiquement inspirée du fonctionnement des neurones biologiques, et qui par la suite s'est rapproché des méthodes statistiques. Les réseaux de neurones sont généralement optimisés par des méthodes d'apprentissage de type probabiliste, en particulier bayésien.

Intelligibilité mutuelle

En linguistique, l'intelligibilité mutuelle est la caractéristique de deux idiomes étroitement apparentés génétiquement, c'est-à-dire deux telles langues ou deux dialectes d'une langue, qui permet que les utilisateurs de l'un comprennent l'autre et inversement, sans un apprentissage préalable. On considère parfois que, si deux idiomes sont mutuellement intelligibles, alors ils sont les dialectes d'une même langue, et s'ils ne le sont pas, alors il s'agit de dialectes de langues différentes, mais ce critère est problématique pour délimiter les langues.

Transcription phonétique

Une transcription phonétique est une méthode de transcription plus ou moins formalisée des sons d'une ou plusieurs langues. Cette transcription rend normalement une approximation de la prononciation standard de la langue. Les variantes dialectales et individuelles sont difficiles à rendre dans la transcription. Les variantes d'un même phonème (allophone) sont presque toujours impossibles à rendre. Quelques signes sont à disposition pour rendre les informations paraverbales (pauses, racler, tousser, rire...

Prononciation de l'anglais

La prononciation de l'anglais varie considérablement dans sa phonologie, principalement en raison de son histoire, à travers différentes périodes historiques distinctes, et de son expansion géographique.

Discours de haine

Un discours de haine (ou « discours haineux », « discours de la haine ») désigne un type de discours ou de système qui (au-delà de la violence ou de l'injure ponctuelle en termes de force et de nature) attaque une personne ou un groupe de personnes sur la base de caractéristiques diverses (couleur de peau, ethnie, âge, sexe, orientation sexuelle, religion, etc.). L'Histoire a montré que le discours haineux peut conduire à des suicides, lynchages, fusillades de masse, attaques par explosifs, guerres, crimes de masses et processus génocidaires comme en ex-Yougoslavie et au Rwanda (voir : incitation au génocide).

Alphabet phonétique international

L'alphabet phonétique international (API) est un alphabet utilisé pour la transcription phonétique des sons du langage parlé. Contrairement aux nombreuses autres méthodes de transcription qui se limitent à des familles de langues, l'API est conçu pour couvrir l'ensemble des langues du monde. Développé par des phonéticiens français et britanniques sous les auspices de l'Association phonétique internationale, il a été publié pour la première fois en 1888.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Réseau neuronal résiduel

droite|vignette| Forme canonique d'un réseau neuronal résiduel. Une couche l − 1 est ignoré sur l'activation de l − 2. Un réseau neuronal résiduel ( ResNet ) est un réseau neuronal artificiel (ANN). Il s'agit d'une variante du HighwayNet , le premier réseau neuronal à action directe très profond avec des centaines de couches, beaucoup plus profond que les réseaux neuronaux précédents. Les sauts de connexion ou "raccourcis" sont utilisés pour passer par-dessus certaines couches ( les HighwayNets peuvent également avoir des poids pour les saut eux-mêmes, grâce à une matrice de poids supplémentaire pour leurs portes).

Allophone (phonologie)

En linguistique, un allophone est l'une des réalisations sonores possibles d'un phonème. Contrairement à deux phonèmes entre eux, deux allophones d'un même phonème ne peuvent s'opposer en distinguant des unités de sens distincts dans une langue : les locuteurs leur attribuent le même rôle fonctionnel en phonologie, même quand ils perçoivent la différence phonétique entre les deux. Dans le texte qui suit, une forme entre crochets indique une transcription phonétique, tandis qu'une entre barres obliques indique une transcription phonologique.

Liberté d'expression

vignette|redresse=1.3|La Liberté de parole, par Norman Rockwell (1942-1943), musée Norman Rockwell; Stockbridge (Massachusetts). La liberté d'expression est le droit reconnu à l'individu de faire connaître le produit de sa propre activité intellectuelle à son entourage. Elle procède de la faculté de communiquer entre humains. Celle-ci a longtemps été considérée comme un simple phénomène naturel conditionnant la vie sociale, avant d'être solennellement érigée en liberté individuelle, aujourd'hui juridiquement garantie mais en réalité encadrée.

Phone (linguistique)

En phonétique, un phone est un son articulé, c’est-à-dire prononcé en principe de manière distincte par le mouvement des organes qui l’émettent, et qui est reçu dans le processus de communication par la parole en tant que le moindre segment discret perceptible dans la chaîne parlée. Les phones ou sons de la parole se réalisent de diverses façons selon que l’air est expiré ou inspiré, et selon les diverses manières de fonctionnement des organes de la parole, facteurs qui peuvent varier en fonction de la langue considérée.

Speech coding

Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).

Phonétique

La phonétique est une branche de la linguistique qui étudie les phones (les sons) en tant que plus petits segments de la parole, du point de vue physique, physiologique, neurophysiologique et neuropsychologique, c’est-à-dire de leur production, transmission, audition et évolution dans le processus de communication humaine par la langue, en utilisant des moyens spécifiques pour leur description, classification et transcription. Certains auteurs incluent dans l’objet de la phonétique les traits suprasegmentaux de la parole (accent, intonation, etc.