Publication

Articulatory feature based continuous speech recognition using probabilistic lexical modeling

Concepts associés (21)

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Perception de la parole

La perception de la parole est le processus par lequel les humains sont capables d'interpréter et de comprendre les sons utilisés dans le langage. L'étude de la perception de la parole est reliée aux champs de la phonétique, de phonologie en linguistique, de psychologie cognitive et de perception en psychologie. Les recherches dans ce domaine essaient de comprendre comment les auditeurs humains reconnaissent les phonèmes (sons de la paroles) ou autres sons tels que la syllabe ou les rimes, et utilisent cette information pour comprendre le langage parlé.

Production de la parole

La production de la parole est un processus qui transforme les pensées en parole. Cette activité comprend la sélection des mots, l'organisation des formes grammaticales pertinentes et l'articulation des sons par le système moteur via l'appareil vocal. Cette production peut être spontanée (par exemple, quand une personne prononce des mots lors d'une conversation), réactive (par exemple, quand elle identifie une illustration ou qu'elle fait une lecture à voix haute) ou imitative (quand elle répète les mots qu'une autre personne a dits).

Prononciation de l'anglais

La prononciation de l'anglais varie considérablement dans sa phonologie, principalement en raison de son histoire, à travers différentes périodes historiques distinctes, et de son expansion géographique.

Motor theory of speech perception

The motor theory of speech perception is the hypothesis that people perceive spoken words by identifying the vocal tract gestures with which they are pronounced rather than by identifying the sound patterns that speech generates. It originally claimed that speech perception is done through a specialized module that is innate and human-specific. Though the idea of a module has been qualified in more recent versions of the theory, the idea remains that the role of the speech motor system is not only to produce speech articulations but also to detect them.

Aire de Broca

Laire de Broca ou aire motrice du langage selon la nomenclature officielle est l'une des deux principales zones du cerveau hominidé responsables du traitement du langage. Découverte par le médecin français éponyme Paul Broca en 1861, elle est située dans le cortex cérébral au niveau de la partie inférieure (ou « pied ») de la frontale de l'hémisphère dominant (le plus souvent à gauche, tant chez les droitiers que chez les gauchers). Elle correspond aux aires 44 et 45 de Brodmann.

Speech coding

Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).

Emotion recognition

Emotion recognition is the process of identifying human emotion. People vary widely in their accuracy at recognizing the emotions of others. Use of technology to help people with emotion recognition is a relatively nascent research area. Generally, the technology works best if it uses multiple modalities in context. To date, the most work has been conducted on automating the recognition of facial expressions from video, spoken expressions from audio, written expressions from text, and physiology as measured by wearables.

Distinctive feature

In linguistics, a distinctive feature is the most basic unit of phonological structure that distinguishes one sound from another within a language. For example, the feature [voice] distinguishes the two bilabial plosives: [p] and [b]. There are many different ways of defining and arranging features into feature systems: some deal with only one language while others are developed to apply to all languages. Distinctive features are grouped into categories according to the natural classes of segments they describe: major class features, laryngeal features, manner features, and place features.

Synthèse vocale

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Embodiment

L'embodiment (ou cognition incarnée) est un concept issu de la psychologie cognitive. Il fait référence aux pensées (cognition), aux sentiments (émotion) et aux comportements (corps) basés sur nos expériences sensorielles et sur nos positions corporelles. Dans la pratique, il est utilisé pour penser des aspects généralement associés à notre vie quotidienne, tels que notre façon de bouger, de parler et de se développer.

Source de courant

Une source de courant est un dispositif pouvant produire un courant électrique constant fonctionnant sur une plage de tension donnée. vignette|Source de courant parfaite (rouge) ; source de courant idéale sur une plage de tension (vert) ; source de courant avec résistance en parallèle (turquoise). Ce dispositif produit un courant stable I quelle que soit la tension à ses bornes. Une source de courant réelle a une résistance interne en parallèle de très grande valeur (infinie dans le cas d'une source idéale).

Traitement de la phrase

De façon générale, le traitement de la phrase peut être défini comme l'ensemble des mécanismes employés pour produire ou comprendre une occurrence linguistique. Le traitement de la phrase peut être étudié sous deux aspects : la production ou la compréhension. Dans ce texte, nous porterons une attention particulière à la compréhension de la phrase. Six étapes sont impliquées dans le traitement de la phrase : Une séquence acoustique est produite L’information se rend jusqu’à l’oreille Décodage de l’information acoustique Reconnaissance des mots Saisie de l’information lexicale en mémoire Ajustement de l’information en mémoire avec la séquence qui suit.

Reconnaissance de formes

thumb|Reconnaissance de forme à partir de modélisation en 3D La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de techniques et méthodes visant à identifier des régularités informatiques à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce motif. On considère que c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques d'apprentissage automatique et aux statistiques.

Speaker recognition

Speaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).

Parole

La parole est le langage articulé humain (même si des études ethologiques et philosophiques sont en cours pour déterminer si d’autres animaux pourraient être considérés comme dotés de parole, notamment les perroquets) destiné à communiquer la pensée, et est à distinguer des communications orales diverses, comme les cris, les alertes ou les gémissements. « Articuler la parole » consiste à former des signes audibles, les syllabes, formant les mots qui constituent des symboles.

Informatique affective

L’informatique affective ou informatique émotionnelle (en anglais, affective computing) est l'étude et le développement de systèmes et d'appareils ayant les capacités de reconnaître, d’exprimer, de synthétiser et modéliser les émotions humaines. C'est un domaine de recherche interdisciplinaire couvrant les domaines de l'informatique, de la psychologie et des sciences cognitives qui consiste à étudier l’interaction entre technologie et sentiments.

Anglais standard

L’anglais standard peut désigner n’importe quelle variété de la langue anglaise acceptée comme langue standard nationale dans les pays anglophones, du point de vue tant de la prononciation que de la grammaire, du lexique et de l’orthographe. Dans les îles Britanniques, particulièrement en Angleterre et au Pays de Galles, il est souvent associé à l’accent de la « Received Pronunciation » (qui comporte plusieurs variantes), à la grammaire et au lexique dits United Kingdom Standard English (UKSE : « anglais standard du Royaume-Uni »).

Old English phonology

Old English phonology is necessarily somewhat speculative since Old English is preserved only as a written language. Nevertheless, there is a very large corpus of the language, and the orthography apparently indicates phonological alternations quite faithfully, so it is not difficult to draw certain conclusions about the nature of Old English phonology. Old English had a distinction between short and long (doubled) consonants, at least between vowels (as seen in sunne "sun" and sunu "son", stellan "to put" and stelan "to steal"), and a distinction between short vowels and long vowels in stressed syllables.

Probabilistic context-free grammar

Grammar theory to model symbol strings originated from work in computational linguistics aiming to understand the structure of natural languages. Probabilistic context free grammars (PCFGs) have been applied in probabilistic modeling of RNA structures almost 40 years after they were introduced in computational linguistics. PCFGs extend context-free grammars similar to how hidden Markov models extend regular grammars. Each production is assigned a probability.