Thésaurus lexicographiqueUn thésaurus ou dictionnaire analogique est un ouvrage de référence dans lequel les mots sont organisés par champ lexical, où l’on peut trouver des synonymes et antonymes de mots. Il est destiné notamment aux personnes qui écrivent, pour aider à trouver le meilleur mot pour exprimer une idée. Les dictionnaires de synonymes ont une longue histoire. Le mot thésaurus a été utilisé en 1852 par Peter Mark Roget pour son Roget's Thesaurus, qui regroupe les mots dans une taxonomie hiérarchique de concepts, mais d’autres sont organisés par ordre alphabétique ou d’une autre manière.
Ontologie (informatique)En informatique et en science de l'information, une ontologie est un modèle de données contenant des concepts et relations permettant de modéliser un ensemble de connaissances dans un domaine donné. Les concepts sont organisés dans un graphe dont les relations peuvent être : des relations sémantiques ; des relations de subsomption. Les ontologies sont employées dans l’intelligence artificielle, le web sémantique, le génie logiciel, l'informatique biomédicale ou encore l'architecture de l'information comme une forme de représentation de la connaissance au sujet d'un monde ou d'une certaine partie de ce monde.
Réseau sémantiqueUn réseau sémantique est un graphe marqué destiné à la représentation des connaissances, qui représente des relations sémantiques entre concepts. Le graphe est orienté ou non orienté. Ses sommets représentent les concepts, et les liens entre les sommets (nœuds) représentent les relations sémantiques, reliant les champs lexicaux. Un réseau sémantique peut être instancié, par exemple,dans une base de données orientée graphes ou un schéma conceptuel. Les réseaux sémantiques normalisés sont exprimés sous forme de triplets RDF.
Désambiguïsation lexicaleLa désambiguïsation lexicale ou désambigüisation lexicale est la détermination du sens d'un mot dans une phrase lorsque ce mot peut avoir plusieurs sens possibles. Dans la linguistique informatique, la désambiguïsation lexicale est un problème non résolu dans le traitement des langues naturelles et de l'ontologie informatique. La résolution de ce problème permettrait des avancées importantes dans d'autres champs de la linguistique informatique comme l'analyse du discours, l'amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l'inférence, etc.
Hyponymy and hypernymyHyponymy and hypernymy are semantic relations between a term belonging in a set that is defined by another term and the latter. In other words, the relationship of a subtype (hyponym) and the supertype (also called umbrella term, blanket term, or hypernym). The semantic field of the hyponym is included within that of the hypernym. For example, pigeon, crow, and eagle are all hyponyms of bird, their hypernym. In linguistics, semantics, general semantics, and ontologies, hyponymy () shows the relationship between a generic term (hypernym) and a specific instance of it (hyponym).
Base de connaissanceUne base de connaissance ou base de connaissances regroupe des connaissances spécifiques à un domaine spécialisé donné, sous une forme exploitable par un ordinateur. Elle peut contenir des règles (dans ce cas, on parle de base de règles), des faits ou d'autres représentations. Si elle contient des règles, un moteur d'inférence peut être utilisé pour déduire de nouveaux faits. Une autre manière de définir une base de connaissance est de dire qu'il s'agit d'une ontologie peuplée par des individus.
CycCyc est un projet d’intelligence artificielle (« IA ») qui cherche à développer une ontologie globale et une base de connaissance générale, dans le but de permettre à des applications d’intelligence artificielle de raisonner d’une manière similaire à l’être humain. Le projet a été lancé en 1984 par Douglas Lenat, de la société Microelectronics and Computer Technology Corporation. Le nom « Cyc » (dérivé de « encyclopédie », et prononcé saïk, est une marque déposée par Cycorp, Inc.
Similarité sémantiqueLa similarité sémantique est une notion définie entre deux concepts soit au sein d'une même hiérarchie conceptuelle, soit - dans le cas d'alignement d'ontologies - entre deux concepts appartenant respectivement à deux hiérarchies conceptuelles distinctes. La similarité sémantique indique que ces deux concepts possèdent un grand nombre d'éléments en commun (propriétés, termes, instances). D’un point de vue psychologie cognitive, les notions de proximité et de similarité sont bien distinctes.
Lexical Markup FrameworkLexical Markup Framework (LMF ou cadre de balisage lexical, en français) est le standard de l'Organisation internationale de normalisation (plus spécifiquement au sein de l'ISO/TC37) pour les lexiques du traitement automatique des langues (TAL). L'objectif est la normalisation des principes et méthodes relatifs aux ressources langagières dans le contexte de la communication multilingue et de la diversité culturelle.
Information extractionInformation extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction Due to the difficulty of the problem, current approaches to IE (as of 2010) focus on narrowly restricted domains.
Graphe de connaissancesDans le domaine de la représentation des connaissances, un graphe de connaissances (knowledge graph en anglais) est une base de connaissance modélisant les données sous forme de représentation graphique. Depuis le développement du web sémantique, les graphes de connaissances sont souvent associés aux projets de données ouvertes du web des données, visant surtout à connecter les concepts et entités. Ils sont fortement liés aux et utilisés par les moteurs de recherches, dont certains, tels Google, ont développé leur propre graphe de connaissances.
Ontology componentsContemporary ontologies share many structural similarities, regardless of the ontology language in which they are expressed. Most ontologies describe individuals (instances), classes (concepts), attributes, and relations. Common components of ontologies include: Individuals instances or objects (the basic or "ground level" objects; the tokens). Classes sets, collections, concepts, types of objects, or kinds of things. Attributes aspects, properties, features, characteristics, or parameters that objects (and classes) can have.
Upper ontologyIn information science, an upper ontology (also known as a top-level ontology, upper model, or foundation ontology) is an ontology (in the sense used in information science) which consists of very general terms (such as "object", "property", "relation") that are common across all domains. An important function of an upper ontology is to support broad semantic interoperability among a large number of domain-specific ontologies by providing a common starting point for the formulation of definitions.
BabelNetBabelNet est un réseau sémantique multilingue et une ontologie lexicalisée. BabelNet a été créé en intégrant automatiquement la plus grande encyclopédie multilingue – c’est-à-dire Wikipédia – avec le lexique de la langue anglaise le plus connu – WordNet. L’intégration a été réalisée par correspondance automatique. Les entrées manquantes dans d'autres langues ont été obtenues par des techniques de traduction automatique.
Résumé automatique de texteUn résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence.
DBpediaDBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et normalisée au format du web sémantique des contenus de Wikipedia. DBpedia vise aussi à interconnecter Wikipédia avec d'autres ensembles de données ouvertes provenant du Web des données. DBpedia a été conçu par ses auteurs comme l'un des , connu également sous le nom de Web des données, et l'un de ses possibles points d'entrée.
Lexical resourceIn digital lexicography, natural language processing, and digital humanities, a lexical resource is a language resource consisting of data regarding the lexemes of the lexicon of one or more languages e.g., in the form of a database. Different standards for the machine-readable edition of lexical resources exist, e.g., Lexical Markup Framework (LMF) an ISO standard for encoding lexical resources, comprising an abstract data model and an XML serialization, and OntoLex-Lemon, an RDF vocabulary for publishing lexical resources as knowledge graphs on the web, e.
Fouille de textesLa fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.
TaxonomyTaxonomy is the practice and science of categorization or classification. A taxonomy (or taxonomical classification) is a scheme of classification, especially a hierarchical classification, in which things are organized into groups or types. Among other things, a taxonomy can be used to organize and index knowledge (stored as documents, articles, videos, etc.), such as in the form of a library classification system, or a search engine taxonomy, so that users can more easily find the information they are searching for.
Compréhension du langage naturelvignette|L'apprentissage de la lecture par Sigurður málari, siècle. La compréhension du langage naturel (NLU en anglais) ou linterprétation en langage naturel (NLI) est une sous-rubrique du traitement de la langue naturelle en intelligence artificielle qui traite de la compréhension en lecture automatique. La compréhension du langage naturel est considérée comme un problème difficile en IA. Il existe un intérêt commercial considérable dans ce domaine en raison de son application à la collecte de nouvelles, à la catégorisation des textes, à l'activation vocale, à l'archivage et à l'analyse de contenu à grande échelle.