Extraction de connaissancesL'extraction de connaissances est le processus de création de connaissances à partir d'informations structurées (bases de données relationnelles, XML) ou non structurées (textes, documents, images). Le résultat doit être dans un format lisible par les ordinateurs. Le groupe RDB2RDF W3C est en cours de standardisation d'un langage d'extraction de connaissances au format RDF à partir de bases de données. En français on parle d'« extraction de connaissances à partir des données » (ECD).
Information extractionInformation extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction Due to the difficulty of the problem, current approaches to IE (as of 2010) focus on narrowly restricted domains.
Annotation sémantiqueL'annotation sémantique est l'opération consistant à relier le contenu d'un texte à des entités dans une ontologie. Par exemple, pour la phrase «Paris est la capitale de la France.», l'annotation correcte de Paris serait Paris et non Paris Hilton. L'annotation sémantique est une variante plus détaillée mais moins exacte de la méthode des entitiés nommées, car ces dernières décrivent seulement la catégorie de l'entité (Paris est une ville, sans la relier à la bonne page Wikipédia).
CoréférenceEn linguistique, la coréférence est le phénomène qui consiste pour plusieurs syntagmes nominaux (SN) différents contenus dans une phrase ou dans un discours, à désigner la même entité. Par exemple une personne, un lieu, un événement, ou encore une date. Dans la terminologie linguistique, on dit qu'une coréférence est reliée à son antécédent. Pour que les syntagmes se coréférent, les deux expressions doivent porter les mêmes trait-φ. C'est-à-dire qu'ils doivent être en accord en genre, en nombre et en personne.
Pronom personnel en françaisEn grammaire française, le pronom personnel est une catégorie de pronoms servant à désigner les trois types de personnes grammaticales. La classification des pronoms en trois personnes distinctes a été héritée de la culture grecque qui appelait Personae les figurations réalisées par la flexion verbale. Image:PronomPersonnel2Je.png|vignette|Je. Image:PronomPersonnel2Tu.png|vignette|Tu. Image:PronomPersonnel2Il.png|vignette|Il. Image:PronomPersonnel2Elle.png|vignette|Elle. Les trois personnes grammaticales sont : 1.
He (pronoun)In Modern English, he is a singular, masculine, third-person pronoun. In Standard Modern English, he has four shapes representing five distinct word forms: he: the nominative (subjective) form him: the accusative (objective) form (also called the oblique case) his: the dependent and independent genitive (possessive) forms himself: the reflexive form Old English had a single third-person pronoun — from the Proto-Germanic demonstrative base *khi-, from PIE *ko- "this" — which had a plural and three genders in the singular.
Reconnaissance d'entités nomméesLa reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. À titre d'exemple, on pourrait donner le texte qui suit, étiqueté par un système de reconnaissance d'entités nommées utilisé lors de la campagne d'évaluation MUC: Henri a acheté 300 actions de la société AMD en 2006 Henri a acheté 300 actions de la société AMD en 2006.
Théorie du liageEn linguistique, la théorie du liage peut désigner toute théorie ayant pour objet la distribution des éléments pronominaux et anaphoriques. Cette théorie offre des restrictions syntaxiques selon la position du syntagme déterminant (ou nominal). L'idée selon laquelle il devrait y avoir une théorie spécialisée et cohérente s'occupant de ces phénomènes particuliers est apparue dans les travaux autour des grammaires transformationnelles dans les années 1970.
Traitement automatique du langage naturelLe traitement automatique du langage naturel (TALN), en anglais natural language processing ou NLP, est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement du langage naturel pour diverses applications. Il ne doit pas être confondu avec la linguistique informatique, qui vise à comprendre les langues au moyen d'outils informatiques.
Pronom réfléchiEn grammaire le pronom réfléchi est un pronom qui se réfère à l’agent d’une action, celui-ci étant d’ordinaire le sujet d’un verbe, et le pronom étant le complément de ce verbe. Dans certaines langues, comme le français ou le roumain, le pronom réfléchi peut aussi se référer à un agent sous-entendu du procès exprimé par un nom, le pronom étant le complément de celui-ci. Dans certaines langues il y a seulement des pronoms réfléchis disjoints, c’est-à-dire accentués et non attachés au verbe, par exemple en anglais ou en hongrois.
Pronom neutreA third-person pronoun is a pronoun that refers to an entity other than the speaker or listener. Some languages with gender-specific pronouns have them as part of a grammatical gender system, a system of agreement where most or all nouns have a value for this grammatical category. A few languages with gender-specific pronouns, such as English, Afrikaans, Defaka, Khmu, Malayalam, Tamil, and Yazgulyam, lack grammatical gender; in such languages, gender usually adheres to "natural gender", which is often based on biological sex.
Statistical machine translationStatistical machine translation (SMT) was a machine translation approach, that superseded the previous, rule-based approach because it required explicit description of each and every linguistic rule, which was costly, and which often did not generalize to other languages. Since 2003, the statistical approach itself has been gradually superseded by the deep learning-based neural network approach. The first ideas of statistical machine translation were introduced by Warren Weaver in 1949, including the ideas of applying Claude Shannon's information theory.
Fouille de textesLa fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.
Neural machine translationNeural machine translation (NMT) is an approach to machine translation that uses an artificial neural network to predict the likelihood of a sequence of words, typically modeling entire sentences in a single integrated model. They require only a fraction of the memory needed by traditional statistical machine translation (SMT) models. Furthermore, unlike conventional translation systems, all parts of the neural translation model are trained jointly (end-to-end) to maximize the translation performance.
Traductionvignette|La Pierre de Rosette, qui a permis le déchiffrement des hiéroglyphes au . La traduction (dans son acception principale de traduction interlinguale) est le fait de faire passer un texte rédigé dans une langue (« langue source », ou « langue de départ ») dans une autre langue (« langue cible », ou « langue d'arrivée »). Elle met en relation au moins deux langues et deux cultures, et parfois deux époques.
Glose interlinéaireEn linguistique et en pédagogie, une glose interlinéaire est une glose (un commentaire linguistique) qui décompose une phrase en langue étrangère en indiquant notamment le rôle de ses morphèmes, mais aussi parfois sa prononciation ou sa traduction littérale. Ces gloses sont dites interlinéaires car elles se placent généralement entre une ligne de texte original et sa traduction dans la langue cible. Ces gloses aident le lecteur à suivre la relation entre le texte source et sa traduction, ainsi que la structure de la langue d'origine.
Inalienable possessionIn linguistics, inalienable possession (abbreviated ) is a type of possession in which a noun is obligatorily possessed by its possessor. Nouns or nominal affixes in an inalienable possession relationship cannot exist independently or be "alienated" from their possessor. Inalienable nouns include body parts (such as leg, which is necessarily "someone's leg" even if it is severed from the body), kinship terms (such as mother), and part-whole relations (such as top).
Thou (pronom personnel)Le mot anglais thou (prononcer /ðaʊ/) est un pronom personnel de la deuxième personne du singulier de l'anglais moderne naissant. C'est l'équivalent du « tu » français. Il est aujourd'hui considéré comme archaïque, ayant été remplacé dans pratiquement tous les contextes par you (qui était donc à l'origine la forme de politesse et du pluriel), ce qui prive l'anglais moderne de la distinction entre tutoiement et vouvoiement. Il existait aussi un verbe to thou, aujourd'hui complètement disparu de la langue anglaise, signifiant « tutoyer ».
Genre grammaticalEn linguistique, le genre grammatical est une caractéristique intrinsèque des noms qui influe sur la forme de certains éléments satellites. En tant que catégorie linguistique, il manifeste une classification des mots en tant qu’objets structurant la langue elle-même, par opposition à ce à quoi ces mots réfèrent. Elle fournit une distinction supplémentaire à celle du nombre grammatical, et en un sens se présente en rival au sein des langues indo-européennes à la classe nominale.