Publication

On matching data and model in LF-MMI-based dysarthric speech recognition

Concepts associés (19)

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Transformeur génératif pré-entraîné

droite|vignette| Architecture du modèle GPT Le transformeur génératif pré-entraîné (ou GPT, de l’anglais generative pre-trained transformer) est une famille de modèles de langage généralement formée sur un grand corpus de données textuelles pour générer un texte de type humain. Il est construit en utilisant plusieurs blocs de l'architecture du transformeur. Ils peuvent être affinés pour diverses tâches de traitement du langage naturel telles que la génération de texte, la traduction de langue et la classification de texte.

Grand modèle de langage

Un grand modèle de langage, grand modèle linguistique, grand modèle de langue, modèle massif de langage ou encore modèle de langage de grande taille (LLM, pour l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus). Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé.

Synthèse vocale

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Alphabet phonétique international

L'alphabet phonétique international (API) est un alphabet utilisé pour la transcription phonétique des sons du langage parlé. Contrairement aux nombreuses autres méthodes de transcription qui se limitent à des familles de langues, l'API est conçu pour couvrir l'ensemble des langues du monde. Développé par des phonéticiens français et britanniques sous les auspices de l'Association phonétique internationale, il a été publié pour la première fois en 1888.

Modèle de fondation

Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé ). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais). Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT et GPT-3.

Segment (linguistics)

In linguistics, a segment is "any discrete unit that can be identified, either physically or auditorily, in the stream of speech". The term is most used in phonetics and phonology to refer to the smallest elements in a language, and this usage can be synonymous with the term phone. In spoken languages, segments will typically be grouped into consonants and vowels, but the term can be applied to any minimal unit of a linear sequence meaningful to the given field of analysis, such as a mora or a syllable in prosodic phonology, a morpheme in morphology, or a chereme in sign language analysis.

Dialect levelling

Dialect levelling or leveling (in American English) is the process of an overall reduction in the variation or diversity of features between two or more dialects. Typically, this comes about through assimilation, mixture, and merging of certain dialects, often by language standardization. It has been observed in most languages with large numbers of speakers after industrialisation and modernisation of the areas in which they are spoken.

Phonème

En phonologie, domaine de la linguistique, un phonème est la plus petite unité discrète (ou distinctive, c'est-à-dire permettant de distinguer des mots les uns des autres) que l'on puisse isoler par segmentation dans la chaîne parlée. Un phonème est en réalité une entité abstraite, qui peut correspondre à plusieurs sons. Il est en effet susceptible d'être prononcé de façon différente selon les locuteurs ou selon sa position et son environnement au sein du mot (voir allophone) : les phones sont les différentes réalisations d'un phonème.

Arabe dialectal

L'arabe dialectal (ٱلْعَرَبِيَّة ٱلدَّارِجَة, al-ʿarabiyyah ad-dārijah) est un terme qui recouvre les dialectes arabes, résultant d'une interférence linguistique entre la langue arabe et les langues locales ou voisines, à l'issue d'un processus d'arabisation ou d'une influence culturelle quelconque due principalement à la colonisation, aux mouvements migratoires, au commerce, et plus récemment aux médias. Ils sont en perpétuelle évolution, incluant constamment de nouveaux mots et tournures de phrases, tirés la plupart du temps de langues occidentales comme le français, l'espagnol ou l'anglais.

Communication améliorée et alternative

right|thumb| alt=Une utilisatrice d'un système de communication alternative par balayage visuel pointe du regard l'un des chiffres inscrit sur un tableau transparent, afin de former un mot|Utilisatrice d'un système de communication alternative par balayage visuel, indiquant par le regard une série de chiffres sur un tableau afin de former un mot. La communication améliorée et alternative (CAA) est un terme générique qui englobe les méthodes de communication utilisées pour compléter ou remplacer la parole ou l'écriture pour les personnes ayant une déficience dans la production ou la compréhension du langage.

Danois

Le danois est une langue germanique principalement parlée au Danemark par les Danois. Langue officielle du Danemark et des îles Féroé (à parité avec le féroïen), langue seconde du Groenland, le danois est aussi une des langues officielles de l'Union européenne. Il est généralement intelligible par les locuteurs du norvégien et du suédois et reste très enseigné comme langue secondaire en Islande, ancienne dépendance danoise. Le danois est régi au Danemark par le Conseil de la langue danoise.

Speaker recognition

Speaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).

Acronymie

Lacronymie est la création d'un mot formé des initiales abréviatives (OTAN, ovni, Unicef) de plusieurs mots, ou bien de lettres ou de syllabes initiales (radar, Benelux), ou parfois d'un mélange de lettres initiales et non initiales (Medef, sida), et qui se prononce comme un mot normal et non pas lettre par lettre. Ainsi sont exclus la plupart des mots-valises (motel, progiciel) car ils contiennent des éléments qui ne sont pas initiaux dans les mots d'origine (hôtel, logiciel), et les sigles prononcés lettre par lettre (SNCF en France, STM au Québec, USA).

Reconnaissance de formes

thumb|Reconnaissance de forme à partir de modélisation en 3D La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de techniques et méthodes visant à identifier des régularités informatiques à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce motif. On considère que c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques d'apprentissage automatique et aux statistiques.

Natural-language user interface

Natural-language user interface (LUI or NLUI) is a type of computer human interface where linguistic phenomena such as verbs, phrases and clauses act as UI controls for creating, selecting and modifying data in software applications. In interface design, natural-language interfaces are sought after for their speed and ease of use, but most suffer the challenges to understanding wide varieties of ambiguous input. Natural-language interfaces are an active area of study in the field of natural-language processing and computational linguistics.

Indonésien

L’indonésien (bahasa Indonesia, littéralement « langue de l'Indonésie ») est la langue officielle de l'Indonésie. C'est aussi l'une des langues d'usage au Timor oriental. L'indonésien est une des formes du malais (bahasa Melayu). Pour la majorité d'Indonésiens, ce n'est pas la langue maternelle, et ils ne l'apprennent qu'à l'école, vers l'âge de cinq ans.

Data wrangling

Data wrangling, sometimes referred to as data munging, is the process of transforming and mapping data from one "raw" data form into another format with the intent of making it more appropriate and valuable for a variety of downstream purposes such as analytics. The goal of data wrangling is to assure quality and useful data. Data analysts typically spend the majority of their time in the process of data wrangling compared to the actual analysis of the data.

Data Preprocessing

Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.