LangageLe langage est la capacité d'exprimer une pensée et de communiquer au moyen d'un système de signes (vocaux, gestuel, graphiques, tactiles, olfactifs, etc.) doté d'une sémantique, et le plus souvent d'une syntaxe — mais ce n'est pas systématique (la cartographie est un exemple de langage non syntaxique). Fruit d'une acquisition, la langue est une des nombreuses manifestations du langage. Les langages sont constitués de signaux correspondant au support physique de l'information.
Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
CorpusUn corpus est un ensemble de documents, artistiques ou non (textes, s, vidéos), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.
Mort d'une langueEn linguistique, la mort d'une langue survient quand disparaissent les d'une langue maternelle. Par extension, lextinction d'une langue est le stade où cette langue n'est plus connue, pas même comme langue seconde. D'autres termes proches sont le linguicide, c'est-à-dire la mort d'une langue pour des motifs naturels ou politiques et, plus rarement, la « glottophagie », phénomène où une langue peu parlée est absorbée ou remplacée par une autre, comptant des locuteurs plus nombreux.
Hockett's design featuresHockett's Design Features are a set of features that characterize human language and set it apart from animal communication. They were defined by linguist Charles F. Hockett in the 1960s. He called these characteristics the design features of language. Hockett originally believed there to be 13 design features. While primate communication utilizes the first 9 features, the final 4 features (displacement, productivity, cultural transmission, and duality) are reserved for humans.
Langue éteinteUne langue éteinte ou finie est une langue qui n'a plus de locuteurs natifs. Cela se produit généralement lorsqu'une langue est sujette à l' extinction linguistique et est directement remplacée par une autre langue, par exemple le copte remplacé par l'arabe et de nombreuses langues amérindiennes, remplacé par l'anglais, le français, l'espagnol et le portugais . Le terme « langue morte » se réfère aussi couramment à une langue plus ancienne qui a considérablement changé et a évolué vers un nouveau groupe linguistique autonome, dont le processus de séparation linguistique est maintenant terminé.
Langue secondeLa notion de langue seconde a deux interprétations principales. L’une provient de la sociolinguistique anglo-saxone, conformément à laquelle une langue seconde est simplement une langue acquise chronologiquement juste après la première, c’est-à-dire après la langue maternelle. Selon une autre interprétation, la notion de langue seconde est englobée dans celle de langue étrangère au sens où c’est une langue autre que la langue maternelle mais se distingue de la langue étrangère par son statut social et, éventuellement, juridique.
Synthèse vocaleLa synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
Langue construitevignette|Le drapeau des langues construites, représentant la tour de Babel. Une langue construite ou planifiée (ou idéolangue, parfois dénommée langue artificielle, ou conlang pour constructed language en anglais) est une langue créée par une ou plusieurs personnes dans un temps relativement bref, contrairement aux langues naturelles dont l'élaboration est en grande partie spontanée et sans plan d'ensemble. Il est donc parfois difficile de cloisonner les langues dans ces deux catégories.
Concordancier multilingueUn concordancier multilingue est un outil informatique permettant de gérer des corpus parallèles. Par métonymie, le concordancier multilingue désigne aussi ces corpus. Un corpus parallèle est un ensemble de groupes de textes qui, deux à deux, dans chaque groupe, sont des traductions mutuelles. L'Acquis communautaire européen est un exemple où chaque groupe comporte un texte pour chacune des langues officielles de l'Union européenne. L'ensemble des groupes désignent les lois régissant la communauté européenne.
Production de la paroleLa production de la parole est un processus qui transforme les pensées en parole. Cette activité comprend la sélection des mots, l'organisation des formes grammaticales pertinentes et l'articulation des sons par le système moteur via l'appareil vocal. Cette production peut être spontanée (par exemple, quand une personne prononce des mots lors d'une conversation), réactive (par exemple, quand elle identifie une illustration ou qu'elle fait une lecture à voix haute) ou imitative (quand elle répète les mots qu'une autre personne a dits).
Revitalisation linguistiqueLa revitalisation linguistique est un processus cherchant à empêcher une langue de disparaître et à la faire revivre. Le nombre de s'élève actuellement à quelques dizaines: aïnou, arabe andalou, barngarla, chochenyo, cornique, dalmate, diyari, hawaïen, kaurna, latin, laze, live, léonais, manx, māori, mutsun, gascon, vieux-prussien, palawa kani, sanskrit, wampanoag. Cette liste est ouverte, et des dizaines d'autres langues pourraient y être incluses, tant les efforts de revitalisation linguistique sont répandus dans le monde.
Acquisition du langageL'acquisition du langage est un domaine de recherche pluridisciplinaire, relevant notamment de la recherche en psychologie et en sciences du langage, qui vise à décrire et comprendre comment l'enfant acquiert le langage, oral ou gestuel, du milieu qui l'entoure. L'acquisition du langage d'un jeune enfant est rapide et s'effectue sans apprentissage formel. Le langage se développe toute la vie, mais c'est surtout entre la naissance et l'âge de cinq ans, que les apprentissages essentiels sont observés.
Désambiguïsation lexicaleLa désambiguïsation lexicale ou désambigüisation lexicale est la détermination du sens d'un mot dans une phrase lorsque ce mot peut avoir plusieurs sens possibles. Dans la linguistique informatique, la désambiguïsation lexicale est un problème non résolu dans le traitement des langues naturelles et de l'ontologie informatique. La résolution de ce problème permettrait des avancées importantes dans d'autres champs de la linguistique informatique comme l'analyse du discours, l'amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l'inférence, etc.
Langue des signesthumb|Lettre V en langue des signes. Les langues des signes sont les langues visuo-gestuelles (produites par les mouvements des mains, du visage et du corps dans son ensemble) qui ont émergé au contact des personnes sourdes entre elles et dont l'évolution au cours du temps résulte de la pratique de leurs locuteurs. Elles assurent toutes les fonctions remplies par les langues vocales. Les langues des signes sont des langues naturelles, qui, au même titre que les langues vocales, ont émergé et évolué spontanément au cours du temps par la pratique de leurs locuteurs, sans planification ni prescription consciente ou explicite.
Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Speech codingSpeech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).
Fouille de textesLa fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.
Indigenous languageAn indigenous language, or autochthonous language, is a language that is native to a region and spoken by indigenous peoples. This language is from a linguistically distinct community that originated in the area. Indigenous languages are not necessarily national languages but they can be; for example, Aymara is an official language of Bolivia. Also, national languages are not necessarily indigenous to the country.
Multilinguismethumb|right|Le logo de la Confédération suisse, dont l’allemand, le français, l'italien et le romanche sont les quatre langues nationales thumb|Enseigne multilingue à l’aéroport international de Vancouver. Texte en anglais, français et chinois affiché de façon permanente, tandis que le panneau de droite est un écran qui montre d’autres langues à tour de rôle. Le mot multilinguisme (ainsi que plurilinguisme) décrit le fait qu'une communauté, ou une personne, soit multilingue (ou plurilingue), c'est-à-dire qu'elle soit capable de s'exprimer dans plusieurs langues.