Voix sur IPLa voix sur IP, ou « VoIP » pour « Voice over IP », est une technologie informatique qui permet de transmettre la voix sur des réseaux compatibles IP, via Internet ou des réseaux privés (intranets) ou publics, qu'ils soient filaires (câble/ADSL/fibre optique) ou non (satellite, Wi-Fi et réseaux mobiles). Des logiciels de VoIP tels que Skype, Signal, Discord, WhatsApp gèrent aujourd'hui tous les flux multimédia (téléphonie, appels vidéo, messagerie instantanée et transferts de fichiers).
Audio coding formatAn audio coding format (or sometimes audio compression format) is a content representation format for storage or transmission of digital audio (such as in digital television, digital radio and in audio and video files). Examples of audio coding formats include MP3, AAC, Vorbis, FLAC, and Opus. A specific software or hardware implementation capable of audio compression and decompression to/from a specific audio coding format is called an audio codec; an example of an audio codec is LAME, which is one of several different codecs which implements encoding and decoding audio in the MP3 audio coding format in software.
Transformée en cosinus discrèteLa transformée en cosinus discrète ou TCD (de l'anglais : DCT ou Discrete Cosine Transform) est une transformation proche de la transformée de Fourier discrète (DFT). Le noyau de projection est un cosinus et crée donc des coefficients réels, contrairement à la DFT, dont le noyau est une exponentielle complexe et qui crée donc des coefficients complexes. On peut cependant exprimer la DCT en fonction de la DFT, qui est alors appliquée sur le signal symétrisé.
Traitement de la paroleLe traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.
Opus Interactive Audio CodecOpus est un format ouvert de compression audio avec pertes, sans redevances et normalisé par l'Internet Engineering Task Force (IETF), conçu pour encoder efficacement la voix et plus largement l'audio dans un format unique, tout en ayant une latence suffisamment faible pour la communication en temps réel et une complexité suffisamment faible pour les processeurs embarqués peu puissants. Opus remplace Vorbis et Speex pour les nouvelles applications et différents tests d'écoute en aveugle l'ont jugé supérieur à tous les autres formats audio à tous les débits, y compris MP3, AAC et HE-AAC.
Linear predictive codingLinear predictive coding (LPC) is a method used mostly in audio signal processing and speech processing for representing the spectral envelope of a digital signal of speech in compressed form, using the information of a linear predictive model. LPC is the most widely used method in speech coding and speech synthesis. It is a powerful speech analysis technique, and a useful method for encoding good quality speech at a low bit rate.
TéléphonieTéléphonie fut d’abord le nom donné par François Sudre, dans les années 1830, à son système de transmission de sons à distance, basé sur les notes de musique, pour l’échange de messages. La téléphonie est devenue ensuite un système de communication assurant essentiellement la transmission et la reproduction de la voix (et plus rarement d'autres signaux sonores), système qui regroupe un ensemble de fonctionnalités téléphoniques.
Son numérique (musique)thumb|Échantillonnage (en gris) d'un signal analogique (en rouge). L'arrivée de l'informatique et du stockage d'information sous forme numérique a entraîné une véritable révolution dans le domaine musical. Cette révolution a commencé avec le CD audio, puis avec la compression des fichiers audios, puis les lecteurs dits MP3 et continue de nos jours avec l'intégration de la composante numérique dans le monde de la Hi-Fi et dans les lecteurs multimédias. Il y a pour le grand public plusieurs sources possibles pour obtenir de la musique sous forme numérique.
Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
VideotelephonyVideotelephony (also known as videoconferencing, video teleconferencing, or simply video call) is the two-way or multipoint reception and transmission of audio and video signals by people in different locations for real-time communication. A videophone is a telephone with a video camera and video display, capable of simultaneous video and audio communication. Videoconferencing implies the use of this technology for a group or organizational meeting rather than for individuals, in a videoconference.
MP3Le MPEG-1 Audio Layer ou MPEG-2 Audio Layer , plus connu sous son abréviation de MP3, est la spécification audio des standards MPEG-1 et MPEG-2. Il s'agit d'un format de compression audio avec perte permettant une réduction importante de la taille du flux de données audio, tout en conservant une qualité de restitution couramment jugée acceptable, donnant le choix du débit selon le compromis taille-qualité souhaité. C'est aussi l'un des formats de musique numérique les plus répandus. L'extension de nom de fichier est .
Traitement du sonLe traitement du son est la branche du traitement du signal qui s'applique aux signaux audio, dans le but notamment d'en améliorer la qualité, de les compresser, ou d'en extraire de l'information. Le terme analogique désigne quelque chose qui est mathématiquement représenté par une fonction continue. Donc un signal analogique est un signal représenté par un flux continu de donnée, ici dans un circuit électrique sous la forme de tension ou de courant.
Débit binaireLe débit binaire est une mesure de la quantité de données numériques transmises par unité de temps. Selon ses définitions normatives, il s'exprime en bits par seconde (bit/s, b/s ou bps) ou un de ses multiples en employant les préfixes du Système international (SI) : kb/s (kilobits par seconde), Mb/s (mégabits par seconde) et ainsi de suite. Dans le domaine de l'informatique, le débit est parfois exprimé en octets par seconde. Un octet équivaut à 8 bits, nombre de bits correspondant aux premières et aux plus simples des machines, et permettant de transmettre un caractère alphanumérique.
Synthèse vocaleLa synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
Modified discrete cosine transformThe modified discrete cosine transform (MDCT) is a transform based on the type-IV discrete cosine transform (DCT-IV), with the additional property of being lapped: it is designed to be performed on consecutive blocks of a larger dataset, where subsequent blocks are overlapped so that the last half of one block coincides with the first half of the next block. This overlapping, in addition to the energy-compaction qualities of the DCT, makes the MDCT especially attractive for signal compression applications, since it helps to avoid artifacts stemming from the block boundaries.
Radio numériqueLa radio numérique est la diffusion de programmes de radio sous forme numérique, soit par radiodiffusion numérique hertzienne terrestre, soit par satellite et par Internet. Contrairement à la radio analogique hertzienne (AM ou FM) où le son sous forme de signal électrique est transporté tel quel dans l'onde porteuse, la radio numérique envoie un son qui est d'abord numérisé puis compressé selon différentes techniques afin d'être transmis en optimisant la bande passante.
Modulation par impulsions et codageLa modulation par impulsions et codage ou MIC (en anglais : pulse-code modulation), généralement abrégé en PCM est une représentation numérique d'un signal électrique résultant d'un processus de numérisation. Le signal est d'abord échantillonné, puis chaque échantillon est quantifié indépendamment des autres échantillons, et chacune des valeurs quantifiées est convertie en un code numérique. Le traitement indépendant de chaque échantillon implique qu'il n'y a ni chiffrement, ni compression de données.
Traitement numérique du signalLe traitement numérique du signal étudie les techniques de traitement (filtrage, compression, etc), d'analyse et d'interprétation des signaux numérisés. À la différence du traitement des signaux analogiques qui est réalisé par des dispositifs en électronique analogique, le traitement des signaux numériques est réalisé par des machines numériques (des ordinateurs ou des circuits dédiés). Ces machines numériques donnent accès à des algorithmes puissants, tel le calcul de la transformée de Fourier.
G.722La norme de codage mondiale G.722 normalisée par l'UIT-T en 1987 permet d'obtenir en voix sur IP une qualité de voix "haute définition" (dite téléphonie large-bande). Cette qualité est obtenue par doublement de la bande de fréquence codée (50-7 000 Hz) par rapport à la qualité téléphonique usuelle dite bande étroite (300-3 400 Hz) produite par le format de codage G.711 (MIC) utilisé en téléphonie "classique" sur les réseaux RTC. L'utilisateur bénéficie donc d'une sensation de présence de son interlocuteur, d'un confort d'écoute et d'une intelligibilité fortement améliorés.
Téléphonie large-bandeLa téléphonie large-bande se distingue de la téléphonie classique par une bande passante plus importante (50-7000 Hz) permettant d'améliorer sensiblement la qualité d'écoute. Les réseaux de téléphonie fixe et de téléphonie mobile standards permettent de transmettre la voix d'un correspondant entre 300 et 3400 Hz. La téléphonie large-bande utilise des codecs spécifiques comme le G.722, le G.722.2, le G.729.1 ou Opus Interactive Audio Codec Les services de téléphonie par internet (VoIP), par exemple Skype, utilisent la téléphonie large-bande.