Publication

Wide-Band Audio Coding based on Frequency Domain Linear Prediction

Concepts associés (32)

Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).

Advanced Audio Coding

Advanced Audio Coding (AAC, « encodage audio avancé ») est un algorithme de compression audio avec perte de données ayant pour but d’offrir un meilleur rapport qualité sur débit binaire que le format plus ancien MPEG-1/2 Audio Layer 3, plus connu sous le nom de MP3. Pour ces qualités, il est choisi par différentes entreprises dont Apple ou RealNetworks. La RNT (Radio numérique terrestre utilise le système de radio diffusion DAB+ (version améliorée du DAB, Digital Audio Broadcasting) qui intègre une version avancée du codec AAC : HE-AAC version 2, aussi appelé eAAC+, et défini dans la norme MPEG-4 Part 3.

Linear predictive coding

Linear predictive coding (LPC) is a method used mostly in audio signal processing and speech processing for representing the spectral envelope of a digital signal of speech in compressed form, using the information of a linear predictive model. LPC is the most widely used method in speech coding and speech synthesis. It is a powerful speech analysis technique, and a useful method for encoding good quality speech at a low bit rate.

Opus Interactive Audio Codec

Opus est un format ouvert de compression audio avec pertes, sans redevances et normalisé par l'Internet Engineering Task Force (IETF), conçu pour encoder efficacement la voix et plus largement l'audio dans un format unique, tout en ayant une latence suffisamment faible pour la communication en temps réel et une complexité suffisamment faible pour les processeurs embarqués peu puissants. Opus remplace Vorbis et Speex pour les nouvelles applications et différents tests d'écoute en aveugle l'ont jugé supérieur à tous les autres formats audio à tous les débits, y compris MP3, AAC et HE-AAC.

Reconnaissance automatique de la parole

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Synthèse vocale

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Modulation par impulsions et codage

La modulation par impulsions et codage ou MIC (en anglais : pulse-code modulation), généralement abrégé en PCM est une représentation numérique d'un signal électrique résultant d'un processus de numérisation. Le signal est d'abord échantillonné, puis chaque échantillon est quantifié indépendamment des autres échantillons, et chacune des valeurs quantifiées est convertie en un code numérique. Le traitement indépendant de chaque échantillon implique qu'il n'y a ni chiffrement, ni compression de données.

Téléphonie large-bande

La téléphonie large-bande se distingue de la téléphonie classique par une bande passante plus importante (50-7000 Hz) permettant d'améliorer sensiblement la qualité d'écoute. Les réseaux de téléphonie fixe et de téléphonie mobile standards permettent de transmettre la voix d'un correspondant entre 300 et 3400 Hz. La téléphonie large-bande utilise des codecs spécifiques comme le G.722, le G.722.2, le G.729.1 ou Opus Interactive Audio Codec Les services de téléphonie par internet (VoIP), par exemple Skype, utilisent la téléphonie large-bande.

Auditory masking

In audio signal processing, auditory masking occurs when the perception of one sound is affected by the presence of another sound. Auditory masking in the frequency domain is known as simultaneous masking, frequency masking or spectral masking. Auditory masking in the time domain is known as temporal masking or non-simultaneous masking. The unmasked threshold is the quietest level of the signal which can be perceived without a masking signal present. The masked threshold is the quietest level of the signal perceived when combined with a specific masking noise.

Porteuse

NOTOC Dans le domaine des télécommunications une onde porteuse, ou, plus simplement, porteuse, est une forme d'onde (généralement sinusoïdale) qui est modulée par un signal d'entrée dans le but de transporter des informations. La porteuse a généralement une fréquence beaucoup plus élevée que le signal d'entrée. L'intérêt de la porteuse est le plus souvent soit de transmettre une information à travers l'espace sous forme d'onde électromagnétique (comme pour la radio), soit de permettre à plusieurs porteuses de fréquences différentes de partager un même support physique par multiplexage fréquentiel (comme dans le cas de la télévision par câble).

Video codec

A video codec is software or hardware that compresses and decompresses digital video. In the context of video compression, codec is a portmanteau of encoder and decoder, while a device that only compresses is typically called an encoder, and one that only decompresses is a decoder. The compressed data format usually conforms to a standard video coding format. The compression is typically lossy, meaning that the compressed video lacks some information present in the original video.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Video coding format

A video coding format (or sometimes video compression format) is a content representation format for storage or transmission of digital video content (such as in a data file or bitstream). It typically uses a standardized video compression algorithm, most commonly based on discrete cosine transform (DCT) coding and motion compensation. A specific software, firmware, or hardware implementation capable of compression or decompression to/from a specific video coding format is called a video codec.

MPEG-1

MPEG-1 est une norme de compression vidéo et audio définie par la norme ISO/CEI-11172, élaborée par le groupe MPEG en 1988. Ce groupe a pour but de développer des standards internationaux de compression, décompression, traitement et codage d'images animées et de données audio. La norme MPEG-1 représente chaque image comme un ensemble de blocs 16 × 16. Elle permet d'obtenir une définition de : 352× à 30 images par seconde en NTSC 352× à 25 images par seconde en PAL/SECAM MPEG-1 permet d'obtenir des débits de l'ordre de 1,2 Mbit/s (exploitable sur un lecteur de CD-ROM).

Son numérique (musique)

thumb|Échantillonnage (en gris) d'un signal analogique (en rouge). L'arrivée de l'informatique et du stockage d'information sous forme numérique a entraîné une véritable révolution dans le domaine musical. Cette révolution a commencé avec le CD audio, puis avec la compression des fichiers audios, puis les lecteurs dits MP3 et continue de nos jours avec l'intégration de la composante numérique dans le monde de la Hi-Fi et dans les lecteurs multimédias. Il y a pour le grand public plusieurs sources possibles pour obtenir de la musique sous forme numérique.

Modulation du signal

En télécommunications, le signal transportant une information doit passer par un moyen de transmission entre un émetteur et un récepteur. Le signal est rarement adapté à la transmission directe par le canal de communication choisi, hertzien, filaire, ou optique. La modulation peut être définie comme le processus par lequel le signal est transformé de sa forme originale en une forme adaptée au canal de transmission, par exemple en faisant varier les paramètres d'amplitude et d'argument (phase/fréquence) d'une onde sinusoïdale appelée porteuse.

Daala

Daala est un codec développé collaborativement par la fondation Xiph.Org et la Fondation Mozilla. Le projet a pour objectif de fournir un codec dont l'implémentation, l'utilisation et la distribution seront libres et dont les performances seront supérieures à celles du format H.265/HEVC. Le format ouvert et libre de droit, AV1, publié en 2018 et accepté par la majorité des acteurs industriels est en partie inspiré par ce format. Selon la page de notes techniques du projet, son nom de code pourra changer dès lors que quelqu'un insiste sur l'adoption d'une meilleure alternative.

Modulation d'amplitude

La modulation d'amplitude ou MA (AM en anglais) est une technique utilisée pour moduler un signal. Elle consiste en la multiplication du signal à moduler par un signal de fréquence moins élevée. La modulation d'amplitude consiste à faire varier l'amplitude d'un signal de fréquence élevée, le signal porteur, en fonction d'un signal de plus basse fréquence, le signal modulant. Ce dernier est celui qui contient l'information à transmettre (voix, par exemple, recueillie par un microphone).

Estimation spectrale

L'estimation spectrale regroupe toutes les techniques d'estimation de la densité spectrale de puissance (DSP). Les méthodes d'estimation spectrale paramétriques utilisent un modèle pour obtenir une estimation du spectre. Ces modèles reposent sur une connaissance a priori du processus et peuvent être classées en trois grandes catégories : Modèles autorégressif (AR) Modèles à moyenne ajustée (MA) Modèles autorégressif à moyenne ajustée (ARMA). L'approche paramétrique se décompose en trois étapes : Choisir un modèle décrivant le processus de manière appropriée.

Digital Audio Broadcasting

vignette|Un récepteur radio compatible DAB. Le DAB pour Digital Audio Broadcasting, ou en français radiodiffusion numérique ou système de radiodiffusion sonore numérique, est un système de radiodiffusion numérique développé et standardisé au départ par le projet européen , et actuellement exploité sur plusieurs continents. Depuis 2007 est déployée une version améliorée du standard, appelée « DAB+ ». Les premières émissions régulières en DAB ont eu lieu en 1995 : chaîne NRK Klassisk de la Société norvégienne de radiodiffusion (NRK) lancée le , chaînes de la BBC et de la radio suédoise (SR) lancées le .