Publication

OdiEnCorp 2.0: Odia-English Parallel Corpus for Machine Translation

Concepts associés (26)

Un concordancier multilingue est un outil informatique permettant de gérer des corpus parallèles. Par métonymie, le concordancier multilingue désigne aussi ces corpus. Un corpus parallèle est un ensemble de groupes de textes qui, deux à deux, dans chaque groupe, sont des traductions mutuelles. L'Acquis communautaire européen est un exemple où chaque groupe comporte un texte pour chacune des langues officielles de l'Union européenne. L'ensemble des groupes désignent les lois régissant la communauté européenne.

Traduction automatique

La traduction automatique désigne la traduction brute d'un texte entièrement réalisée par un ou plusieurs programmes informatiques. Dans le cas de la traduction d'une conversation audio, en direct ou en différé, on parle de transcription automatique. Un traducteur humain n’intervient pas pour corriger les erreurs du texte durant la traduction, mais seulement avant et/ou après. On la distingue de la traduction assistée par ordinateur où la traduction est en partie manuelle, éventuellement de façon interactive avec la machine.

Google Traduction

Google Traduction (Google Translate) est un service de traduction automatique gratuit fourni par Google. Contrairement à d'autres services de traduction comme Babel Fish (supprimé en 2012), AOL et Yahoo! qui utilisent SYSTRAN, Google utilise son propre logiciel de traduction. Le service permet également la traduction de pages Web, même longues. Depuis , une limitation de caractères traduits est posée, mais elle n'affecte pas la traduction d'une page web via son URL.

Statistical machine translation

Statistical machine translation (SMT) was a machine translation approach, that superseded the previous, rule-based approach because it required explicit description of each and every linguistic rule, which was costly, and which often did not generalize to other languages. Since 2003, the statistical approach itself has been gradually superseded by the deep learning-based neural network approach. The first ideas of statistical machine translation were introduced by Warren Weaver in 1949, including the ideas of applying Claude Shannon's information theory.

Neural machine translation

Neural machine translation (NMT) is an approach to machine translation that uses an artificial neural network to predict the likelihood of a sequence of words, typically modeling entire sentences in a single integrated model. They require only a fraction of the memory needed by traditional statistical machine translation (SMT) models. Furthermore, unlike conventional translation systems, all parts of the neural translation model are trained jointly (end-to-end) to maximize the translation performance.

Corpus

Un corpus est un ensemble de documents, artistiques ou non (textes, s, vidéos), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.

Reconnaissance optique de caractères

vignette|Vidéo montrant un processus de reconnaissance optique de caractères effectué en direct grâce à un scanner portable. La reconnaissance optique de caractères (ROC, ou OCR pour l'anglais optical character recognition), ou océrisation, désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte. Un ordinateur réclame pour l'exécution de cette tâche un logiciel d'OCR.

Example-based machine translation

Example-based machine translation (EBMT) is a method of machine translation often characterized by its use of a bilingual corpus with parallel texts as its main knowledge base at run-time. It is essentially a translation by analogy and can be viewed as an implementation of a case-based reasoning approach to machine learning. At the foundation of example-based machine translation is the idea of translation by analogy.

Europarl Corpus

The Europarl Corpus is a corpus (set of documents) that consists of the proceedings of the European Parliament from 1996 to 2012. In its first release in 2001, it covered eleven official languages of the European Union (Danish, Dutch, English, Finnish, French, German, Greek, Italian, Portuguese, Spanish, and Swedish). With the political expansion of the EU the official languages of the ten new member states have been added to the corpus data.

Arabe

L’arabe (en arabe : ar, al-arabīyah ) est une langue afro-asiatique de la famille des langues sémitiques. Avec un nombre de locuteurs estimé entre et de personnes, au sein du monde arabe et de la diaspora arabe, l'arabe est de loin la langue sémitique la plus parlée, bien avant l'amharique (seconde langue sémitique la plus parlée). La langue arabe est originaire de la péninsule Arabique, où elle devint au la langue du Coran et la langue liturgique de l'islam.

Traduction assistée par ordinateur

La traduction assistée par ordinateur ou TAO (en anglais, computer-aided translation ou CAT) est un domaine qui est à cheval entre la traduction et l’informatique. Elle est un sous-domaine de la traductique, qui regroupe l'ensemble des outils informatiques utilisées par un traducteur (traitement de textes, outils terminologiques, traduction automatique...). Elle ne doit pas être confondue avec la traduction automatique par ordinateur : dans la traduction assistée par ordinateur, c’est bien un humain qui traduit, mais avec un soutien informatique pour lui faciliter la tâche.

Réseau de neurones artificiels

Un réseau de neurones artificiels, ou réseau neuronal artificiel, est un système dont la conception est à l'origine schématiquement inspirée du fonctionnement des neurones biologiques, et qui par la suite s'est rapproché des méthodes statistiques. Les réseaux de neurones sont généralement optimisés par des méthodes d'apprentissage de type probabiliste, en particulier bayésien.

Représentation irréductible

En mathématiques et plus précisément en théorie des représentations, une représentation irréductible est une représentation non nulle qui n'admet qu'elle-même et la représentation nulle comme sous-représentations. Le présent article traite des représentations d'un groupe. Le théorème de Maschke démontre que dans de nombreux cas, une représentation est somme directe de représentations irréductibles. Dans le cas des groupes finis, les informations liés aux représentations irréductibles sont encodées dans la table de caractères du groupe.

Reconnaissance de l'écriture manuscrite

La reconnaissance de l’écriture manuscrite (en anglais, handwritten text recognition ou HTR) est un traitement informatique qui a pour but de traduire un texte écrit en un texte codé numériquement. Il faut distinguer deux reconnaissances distinctes, avec des problématiques et des solutions différentes : la reconnaissance en-ligne ; la reconnaissance hors-ligne. La reconnaissance de l’écriture manuscrite fait appel à la reconnaissance de forme, mais également au traitement automatique du langage naturel.

Représentation de groupe

En mathématiques, une représentation de groupe décrit un groupe en le faisant agir sur un espace vectoriel de manière linéaire. Autrement dit, on essaie de voir le groupe comme un groupe de matrices, d'où le terme représentation. On peut ainsi, à partir des propriétés relativement bien connues du groupe des automorphismes de l'espace vectoriel, arriver à déduire quelques propriétés du groupe. C'est l'un des concepts importants de la théorie des représentations.

Théorie des représentations

La théorie des représentations est une branche des mathématiques qui étudie les structures algébriques abstraites en représentant leurs éléments comme des transformations linéaires d'espaces vectoriels, et qui étudie les modules sur ces structures algébriques abstraites. Essentiellement, une représentation concrétise un objet algébrique abstrait en décrivant ses éléments par des matrices et les opérations sur ces éléments en termes d'addition matricielle et de produit matriciel.

Littérature indienne

La littérature indienne est riche de son très ancien corpus de contes et d'épopées, et d'une littérature moderne et contemporaine, d'une grande diversité linguistique. En effet l'Inde compte 22 langues dites nationales et 2 langues officielles, une grande quantité d'œuvres a été produite, dans ces différentes langues, au fil du temps. Les formes orale et écrite sont aussi importantes l'une que l'autre. La littérature traditionnelle hindoue tient une grande place dans la culture indienne.

Reconnaissance optique de marques

thumb|Exemple de formulaire papier destiné à la reconnaissance optique de marques Le sigle OMR désigne des marquages optiques (typiquement, des traits noirs à emplacements prédéfinis) lisibles par une machine. Cette technologie peut être utilisée dans différents contextes. Les codes OMR sont imprimés sur les documents sortant à gros volumes (exemples : factures ou mailings d'entreprise), afin de piloter les machines de mise sous pli automatiques.

Dictionary-based machine translation

Machine translation can use a method based on dictionary entries, which means that the words will be translated as a dictionary does – word by word, usually without much correlation of meaning between them. Dictionary lookups may be done with or without morphological analysis or lemmatisation. While this approach to machine translation is probably the least sophisticated, dictionary-based machine translation is ideally suitable for the translation of long lists of phrases on the subsentential (i.e.

Digital imaging

Digital imaging or digital image acquisition is the creation of a digital representation of the visual characteristics of an object, such as a physical scene or the interior structure of an object. The term is often assumed to imply or include the , , , printing and display of such images. A key advantage of a , versus an analog image such as a film photograph, is the ability to digitally propagate copies of the original subject indefinitely without any loss of image quality.