Concept

Web des données

Concepts associés (18)

DBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et normalisée au format du web sémantique des contenus de Wikipedia. DBpedia vise aussi à interconnecter Wikipédia avec d'autres ensembles de données ouvertes provenant du Web des données. DBpedia a été conçu par ses auteurs comme l'un des , connu également sous le nom de Web des données, et l'un de ses possibles points d'entrée.

RDFa

RDFa (pour « Resource Description Framework dans des Attributs ») est une recommandation du W3C définissant une syntaxe permettant d'ajouter des données structurées dans une page HTML ou n'importe quel document XML. Ainsi formellement décrites, les données peuvent alors faire l'objet de traitements automatisés complexes, via des outils adaptés. Le code RDFa est invisible pour l'internaute et n'affecte pas ce qui est affiché. RDFa a atteint le statut de recommandation 1.0 le et 1.1 le .

Entity–attribute–value model

An entity–attribute–value model (EAV) is a data model optimized for the space-efficient storage of sparse—or ad-hoc—property or data values, intended for situations where runtime usage patterns are arbitrary, subject to user variation, or otherwise unforseeable using a fixed design. The use-case targets applications which offer a large or rich system of defined property types, which are in turn appropriate to a wide set of entities, but where typically only a small, specific selection of these are instantated (or persisted) for a given entity.

Machine-readable medium and data

In communications and computing, a machine-readable medium (or computer-readable medium) is a medium capable of storing data in a format easily readable by a digital computer or a sensor. It contrasts with human-readable medium and data. The result is called machine-readable data or computer-readable data, and the data itself can be described as having machine-readability. Machine-readable data must be structured data. Attempts to create machine-readable data occurred as early as the 1960s.

SPARQL

SPARQL (prononcé sparkle, en anglais : « étincelle ») est un langage de requête et un protocole qui permet de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponibles à travers Internet. Son nom est un acronyme récursif qui signifie SPARQL Protocol and RDF Query Language. SPARQL est considéré dès 2007 comme l'une des technologies clés du Web sémantique par Tim Berners-Lee l'inventeur du Web sémantique qui explique que .

Schema.org

Schema.org est un schéma de micro-données utilisé sur le Web. Les micro-données permettent aux robots d'indexation de saisir plus précisément le sens des pages indexées. Le projet a défini une méthode pour étendre le mécanisme avec de nouvelles propriétés, et une adaptation du schéma au format RDF est disponible. À terme, il est également prévu de supporter plusieurs formats différents en plus des micro-données. Une liste de diffusion permet de coordonner le projet. L'initiative est lancée conjointement par Bing, Google et Yahoo! le .

Triplet RDF

Le triplet RDF est la plus petite structure de description de ressources du modèle RDF. C’est une déclaration ou assertion sur une ressource. Cette déclaration RDF est appelée triplet, car elle suit la structure : « sujet - prédicat - objet ». Ainsi, la déclaration RDF Mona Lisa a pour créateur Léonard de Vinci est un triplet : Le triplet RDF comprend trois éléments, sujet, prédicat, objet, conventionnellement écrits dans cet ordre. alt=Sujet → Prédicat → Objet|vignette|414x414px|Schéma du triplet RDF.

YAGO

YAGO (Yet Another Great Ontology) est une base de connaissance créée par l'institut Max-Planck d'informatique à Sarrebruck. Elle est constituée à partir d'informations extraites de Wikipédia et d'autres sources. En 2012, YAGO2s, la deuxième version de YAGO, possède d'entités avec plus de d'informations à propos de ces entités. Les connaissances de YAGO sont extraites de Wikipédia (catégories, redirections, infoboxes), de WordNet (synsets, hyponymie), et de GeoNames.

Resource Description Framework

Resource Description Framework (RDF) est un modèle de graphe destiné à décrire formellement les ressources Web et leurs métadonnées, afin de permettre le traitement automatique de telles descriptions. Développé par le W3C, RDF est le langage de base du Web sémantique. L'une des syntaxes (ou sérialisations) de ce langage est RDF/XML. D'autres syntaxes de RDF sont apparues ensuite, cherchant à rendre la lecture plus compréhensible ; c'est le cas par exemple de Notation3 (ou N3).

Wikidata

Wikidata est une base de connaissances librement améliorable, conçue pour centraliser les données utilisées par les différents projets du mouvement Wikimédia. Une mise à jour d'une fiche Wikidata se répercute automatiquement sur toutes les pages de projets Wikimédia qui y font appel. Plus largement, Wikidata est destiné à fournir une source commune de données objectives, telles que les dates de naissance de personnalités ou le produit intérieur brut des pays.

Requête sémantique

Les requêtes sémantiques permettent des interrogations et des analyses de nature associative et contextuelle. Elles permettent d'extraire des informations dérivant d'éléments syntaxiques, sémantiques et structurelles contenues dans les données. Elles sont conçues pour : fournir des résultats précis, telles que la sélection distinctive d'un seul élément d'information ; répondre à des questions plus floues et ouvertes grâce au filtrage de motifs et aux systèmes basés sur le raisonnement.

Graphe de connaissances

Dans le domaine de la représentation des connaissances, un graphe de connaissances (knowledge graph en anglais) est une base de connaissance modélisant les données sous forme de représentation graphique. Depuis le développement du web sémantique, les graphes de connaissances sont souvent associés aux projets de données ouvertes du web des données, visant surtout à connecter les concepts et entités. Ils sont fortement liés aux et utilisés par les moteurs de recherches, dont certains, tels Google, ont développé leur propre graphe de connaissances.

Cyc

Cyc est un projet d’intelligence artificielle (« IA ») qui cherche à développer une ontologie globale et une base de connaissance générale, dans le but de permettre à des applications d’intelligence artificielle de raisonner d’une manière similaire à l’être humain. Le projet a été lancé en 1984 par Douglas Lenat, de la société Microelectronics and Computer Technology Corporation. Le nom « Cyc » (dérivé de « encyclopédie », et prononcé saïk, est une marque déposée par Cycorp, Inc.

Ontologie (informatique)

En informatique et en science de l'information, une ontologie est un modèle de données contenant des concepts et relations permettant de modéliser un ensemble de connaissances dans un domaine donné. Les concepts sont organisés dans un graphe dont les relations peuvent être : des relations sémantiques ; des relations de subsomption. Les ontologies sont employées dans l’intelligence artificielle, le web sémantique, le génie logiciel, l'informatique biomédicale ou encore l'architecture de l'information comme une forme de représentation de la connaissance au sujet d'un monde ou d'une certaine partie de ce monde.

Web sémantique

vignette|300px|droite|Logo du W3C pour le Web sémantique Le Web sémantique, ou toile sémantique, est une extension du Web standardisée par le World Wide Web Consortium (W3C). Ces standards encouragent l'utilisation de formats de données et de protocoles d'échange normés sur le Web, en s'appuyant sur le modèle Resource Description Framework (RDF). Le Web sémantique est par certains qualifié de Web 3.0. Selon le W3C, . L'expression a été inventée par Tim Berners-Lee (inventeur du Web et directeur du W3C), qui supervise le développement des technologies communes du Web sémantique.

Web Ontology Language

Web Ontology Language (OWL) est un langage de représentation des connaissances construit sur le modèle de données de RDF. Il fournit les moyens pour définir des ontologies web structurées. Sa deuxième version est devenue une recommandation du W3C fin 2012. Le langage OWL est basé sur les recherches effectuées dans le domaine de la logique de description.

Freebase (web)

Freebase est un projet collaboratif libre de rassemblement et de connexion des connaissances du web, sous forme sémantique déployé sur le Web entre 2007 et 2014. Il est diffusé sous licence Creative Commons avec attribution. Freebase structure fortement les documents. Son développement s’appuie sur des utilisateurs pour alimenter cette base de connaissance, établir les liens entre entités et catégoriser les informations. Dès son origine, Freebase établit des liens vers Wikipedia.

Uniform Resource Identifier

Un URI, de l'anglais Uniform Resource Identifier, soit littéralement identifiant uniforme de ressource, est une courte chaîne de caractères identifiant une ressource sur un réseau (par exemple une ressource Web) physique ou abstraite, et dont la syntaxe respecte une norme d'Internet mise en place pour le World Wide Web (voir RFC 3986). La norme était précédemment connue sous le terme UDI. L'IETF l'a d'abord défini dans la RFC 2396 en se basant sur des propositions de Tim Berners-Lee (RFC 1630).