Publication

Fast keyword detection with sparse time-frequency models

Concepts associés (25)

La perception de la parole est le processus par lequel les humains sont capables d'interpréter et de comprendre les sons utilisés dans le langage. L'étude de la perception de la parole est reliée aux champs de la phonétique, de phonologie en linguistique, de psychologie cognitive et de perception en psychologie. Les recherches dans ce domaine essaient de comprendre comment les auditeurs humains reconnaissent les phonèmes (sons de la paroles) ou autres sons tels que la syllabe ou les rimes, et utilisent cette information pour comprendre le langage parlé.

Speech coding

Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).

Reconnaissance automatique de la parole

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Speech repetition

Speech repetition occurs when individuals speak the sounds that they have heard another person pronounce or say. In other words, it is the saying by one individual of the spoken vocalizations made by another individual. Speech repetition requires the person repeating the utterance to have the ability to map the sounds that they hear from the other person's oral pronunciation to similar places and manners of articulation in their own vocal tract.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Parole

La parole est le langage articulé humain (même si des études ethologiques et philosophiques sont en cours pour déterminer si d’autres animaux pourraient être considérés comme dotés de parole, notamment les perroquets) destiné à communiquer la pensée, et est à distinguer des communications orales diverses, comme les cris, les alertes ou les gémissements. « Articuler la parole » consiste à former des signes audibles, les syllabes, formant les mots qui constituent des symboles.

Codage neuronal

Le codage neuronal désigne, en neurosciences, la relation hypothétique entre le stimulus et les réponses neuronales individuelles ou globales. C'est une théorie sur l'activité électrique du système nerveux, selon laquelle les informations, par exemple sensorielles, numériques ou analogiques, sont représentées dans le cerveau par des réseaux de neurones. Le codage neuronal est lié aux concepts du souvenir, de l'association et de la mémoire sensorielle.

Radial basis function network

In the field of mathematical modeling, a radial basis function network is an artificial neural network that uses radial basis functions as activation functions. The output of the network is a linear combination of radial basis functions of the inputs and neuron parameters. Radial basis function networks have many uses, including function approximation, time series prediction, classification, and system control. They were first formulated in a 1988 paper by Broomhead and Lowe, both researchers at the Royal Signals and Radar Establishment.

Language processing in the brain

In psycholinguistics, language processing refers to the way humans use words to communicate ideas and feelings, and how such communications are processed and understood. Language processing is considered to be a uniquely human ability that is not produced with the same grammatical understanding or systematicity in even human's closest primate relatives. Throughout the 20th century the dominant model for language processing in the brain was the Geschwind-Lichteim-Wernicke model, which is based primarily on the analysis of brain-damaged patients.

Sparse approximation

Sparse approximation (also known as sparse representation) theory deals with sparse solutions for systems of linear equations. Techniques for finding these solutions and exploiting them in applications have found wide use in , signal processing, machine learning, medical imaging, and more. Consider a linear system of equations , where is an underdetermined matrix and . The matrix (typically assumed to be full-rank) is referred to as the dictionary, and is a signal of interest.

Base (algèbre linéaire)

vignette|Le même vecteur peut être représenté dans deux bases différentes (flèches violettes et rouges). En mathématiques, une base d'un espace vectoriel V est une famille de vecteurs de V linéairement indépendants et dont tout vecteur de V est combinaison linéaire. En d'autres termes, une base de V est une famille libre de vecteurs de V qui engendre V. alt=|vignette|upright=2|. La géométrie plane, celle d'Euclide, peut comporter une approche algébrique, celle de Descartes.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Sous-espace vectoriel

En algèbre linéaire, un sous-espace vectoriel d'un espace vectoriel E, est une partie non vide F, de E, stable par combinaisons linéaires. Cette stabilité s'exprime par : la somme de deux vecteurs de F appartient à F ; le produit d'un vecteur de F par un scalaire appartient à F. Muni des lois induites, F est alors un espace vectoriel. L'intersection d'une famille non vide de sous-espaces de E est un sous-espace de E. La réunion d'une famille non vide de sous-espaces n'en est généralement pas un ; le sous-espace engendré par cette réunion est la somme de cette famille.

Base orthonormée

En géométrie vectorielle, une base orthonormale ou base orthonormée (BON) d'un espace euclidien ou hermitien est une base de cet espace vectoriel constituée de vecteurs de norme 1 et orthogonaux deux à deux. Dans une telle base, les coordonnées d'un vecteur quelconque de l'espace sont égales aux produits scalaires respectifs de ce vecteur par chacun des vecteurs de base, et le produit scalaire de deux vecteurs quelconques a une expression canonique en fonction de leurs coordonnées.

Time–frequency analysis

In signal processing, time–frequency analysis comprises those techniques that study a signal in both the time and frequency domains simultaneously, using various time–frequency representations. Rather than viewing a 1-dimensional signal (a function, real or complex-valued, whose domain is the real line) and some transform (another function whose domain is the real line, obtained from the original via some transform), time–frequency analysis studies a two-dimensional signal – a function whose domain is the two-dimensional real plane, obtained from the signal via a time–frequency transform.

Espace euclidien

En mathématiques, un espace euclidien est un objet algébrique permettant de généraliser de façon naturelle la géométrie traditionnelle développée par Euclide, dans ses Éléments. Une géométrie de cette nature modélise, en physique classique, le plan ainsi que l'espace qui nous entoure. Un espace euclidien permet également de traiter les dimensions supérieures ; il est défini par la donnée d'un espace vectoriel sur le corps des réels, de dimension finie, muni d'un produit scalaire, qui permet de « mesurer » distances et angles.

Motor theory of speech perception

The motor theory of speech perception is the hypothesis that people perceive spoken words by identifying the vocal tract gestures with which they are pronounced rather than by identifying the sound patterns that speech generates. It originally claimed that speech perception is done through a specialized module that is innate and human-specific. Though the idea of a module has been qualified in more recent versions of the theory, the idea remains that the role of the speech motor system is not only to produce speech articulations but also to detect them.

Sparse dictionary learning

Sparse dictionary learning (also known as sparse coding or SDL) is a representation learning method which aims at finding a sparse representation of the input data in the form of a linear combination of basic elements as well as those basic elements themselves. These elements are called atoms and they compose a dictionary. Atoms in the dictionary are not required to be orthogonal, and they may be an over-complete spanning set. This problem setup also allows the dimensionality of the signals being represented to be higher than the one of the signals being observed.

Espace projectif

En mathématiques, un espace projectif est le résultat d'une construction fondamentale qui consiste à rendre homogène un espace vectoriel, autrement dit à raisonner indépendamment des proportionnalités pour ne plus considérer que des directions. Par exemple, l'espace projectif réel de dimension n, P(R),ou RPn, est l'ensemble des droites vectorielles ou des directions de R ; formellement, c'est le quotient de R{0} par la relation d'équivalence de colinéarité. On peut munir ces espaces projectifs de structures additionnelles pour en faire des variétés.

Topologie induite

En mathématiques, la topologie induite est une topologie définie sur toute partie Y d'un espace topologique X : c'est la trace sur Y de la topologie sur X. Autrement dit, l'ensemble des ouverts de Y (muni de la topologie induite) est : {O⋂Y | O ouvert de X}. Ou encore : les voisinages dans Y d'un point sont les traces sur Y de ses voisinages dans X. On dit alors que Y est un sous-espace de X. La topologie induite est souvent sous-entendue dans les énoncés de topologie : par exemple, lorsque l'on a un espace topologique X donné, une partie Y de X sera dite compacte si elle est compacte pour la topologie induite par X sur Y.