Publication

Aggregation of a Term Vocabulary for Peer-to-Peer Information Retrieval: a DHT Stress Test

Concepts associés (32)

Une table de hachage distribuée (ou DHT pour Distributed Hash Table), est une technique permettant la mise en place d’une table de hachage dans un système réparti. Une table de hachage est une structure de données de type clé → valeur. Chaque donnée est associée à une clé et est distribuée sur le réseau. Les tables de hachage permettent de répartir le stockage de données sur l’ensemble des nœuds du réseau, chaque nœud étant responsable d’une partie des données.

Recherche d'information

La recherche d'information (RI) est le domaine qui étudie la manière de retrouver des informations dans un corpus. Celui-ci est composé de documents d'une ou plusieurs bases de données, qui sont décrits par un contenu ou les métadonnées associées. Les bases de données peuvent être relationnelles ou non structurées, telles celles mises en réseau par des liens hypertexte comme dans le World Wide Web, l'internet et les intranets. Le contenu des documents peut être du texte, des sons, des images ou des données.

Partage de fichiers en pair-à-pair

Un partage de fichiers en pair-à-pair (en anglais peer-to-peer - P2P) est un réseau informatique logiciel, destiné à partager des fichiers entre plusieurs ordinateurs interconnectés par Internet, chaque internaute pouvant être serveur et client d’un autre internaute. Ils forment ainsi des « pairs ». L'avantage technique essentiel du système par rapport à un chargement centralisé est le suivant : plus un contenu a de demandeurs sur un serveur central, plus celui-ci est encombré.

Androstanolone

Landrostanolone, ou dihydrotestostérone (DHT), est un métabolite biologiquement actif de la testostérone, formé dans la prostate, les testicules, les follicules pileux et les glandes surrénales sous l'action d’une enzyme, la 5-α-réductase, par réduction de la liaison Δ(4,5). L’androstanolone est une hormone androgène. Elle est responsable de la différenciation des organes génitaux externes en testicules à partir de la septième semaine du développement de l'embryon humain.

Pair-à-pair

Le pair-à-pair ou système pair à pair (en anglais peer-to-peer, souvent abrégé « P2P ») est un modèle d'échange en réseau où chaque entité est à la fois client et serveur, contrairement au modèle client-serveur. Les termes « pair », « nœud » et « utilisateur » sont généralement utilisés pour désigner les entités composant un tel système. Un système pair à pair peut être partiellement centralisé (une partie de l'échange passe par un serveur central intermédiaire) ou totalement décentralisé (les connexions se font entre participants sans infrastructure particulière).

Recherche plein texte

La recherche (en) plein texte (appelée aussi recherche en texte intégral ou recherche de texte libre) est une technique de recherche dans un document électronique ou une base de données textuelles, qui consiste pour le moteur de recherche à examiner tous les mots de chaque document enregistré et à essayer de les faire correspondre à ceux fournis par l'utilisateur. Les techniques de recherche sont devenues fréquentes dans les bases de données bibliographiques en ligne dans les années 1970.

Pertinence d'un document

Une recherche scientifique ne peut avoir cette qualité de « scientifique » qu’après avoir répondu à un ensemble de critères. Parmi ces critères, la pertinence occupe une place primordiale, elle constitue la moelle épinière de toute recherche académique. En effet, c’est le degré de la pertinence qui donne beaucoup de crédibilité à un tel document. Par elle ce dernier aura beaucoup de chance d’être publiée et d’être tenue comme référence scientifique de recherche.

Partage de fichiers

Le partage de fichiers est une technique de transfert de fichier consistant à distribuer ou à donner accès, à distance, à des données numériques à travers un réseau informatique. Il peut s'agir de fichiers de toutes sortes : logiciels, livres, vidéo, audio etc. Deux techniques de partage de fichiers existent actuellement : l'hébergement centralisé (modèle client-serveur) permet de stocker les données sur un serveur de fichiers unique et d'y accéder sur celui-ci depuis un autre ordinateur (dit le client).

Chord

Chord est un réseau de recouvrement de type table de hachage distribuée pour les réseaux pair à pair (P2P). Chord est une des premières tables de hachage distribuées, parmi CAN, Tapestry et Pastry. Chord a été présenté en 2001 par Ion Stoica, Robert Tappan Morris, David Karger, Frans Kaashoek, et Hari Balakrishnan, et a été développé au MIT. Il a pour particularité de disposer d'algorithmes d'une complexité d'au plus requêtes pour trouver une information dans un anneau de N éléments.

Calcul distribué

Un calcul distribué, ou réparti ou encore partagé, est un calcul ou un traitement réparti sur plusieurs microprocesseurs et plus généralement sur plusieurs unités centrales informatiques, et on parle alors d'architecture distribuée ou de système distribué. Le calcul distribué est souvent réalisé sur des clusters de calcul spécialisés, mais peut aussi être réalisé sur des stations informatiques individuelles à plusieurs cœurs. La distribution d'un calcul est un domaine de recherche des sciences mathématiques et informatiques.

Indexation automatique de documents

L’indexation automatique de documents est un domaine de l'informatique et des sciences de l'information et des bibliothèques qui utilise des méthodes logicielles pour organiser un ensemble de documents et faciliter ultérieurement la recherche de contenu dans cette collection. La multiplicité des types de documents (textuels, medias, audiovisuels, Web) donne lieu à des approches très différentes, notamment en termes de représentation des données.

Table de hachage

Une table de hachage est, en informatique, une structure de données qui permet une association clé–valeur, c'est-à-dire une implémentation du type abstrait tableau associatif. Son but principal est de permettre de retrouver une clé donnée très rapidement, en la cherchant à un emplacement de la table correspondant au résultat d'une fonction de hachage calculée en O(1). Cela constitue un gain de temps très important pour les grosses tables, lors d'une recherche ou d'un besoin d'accès aux données en utilisant la clé définie.

Vocabulaire contrôlé

Un vocabulaire contrôlé est un lexique dont le but est de rendre possible l'organisation des connaissances afin d'optimiser la recherche d'information. Le vocabulaire contrôlé est utilisé dans les schémas servant à l'indexation sujet, les vedettes-matières, les thésaurus et les taxinomies. Un vocabulaire contrôlé impose l'utilisation de termes prédéfinis, qui ont été présélectionnés par le concepteur du vocabulaire. Ils s'opposent donc au langage naturel, où aucune restriction n'existe quant au choix du vocabulaire.

Fouille de textes

La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.

Comparaison des applications de partage de fichier

is a method of distributing electronically stored information such as computer programs and digital media. Below is a list of file sharing applications, most of them make use of technologies. This comparison contains also download managers that can be used as file sharing applications. For pure download managers see the comparison of download managers, and for BitTorrent-only clients the comparison of BitTorrent clients. Note that several applications had adware or spyware tied in during the past and may have it again in the future.

Concept search

A concept search (or conceptual search) is an automated information retrieval method that is used to search electronically stored unstructured text (for example, digital archives, email, scientific literature, etc.) for information that is conceptually similar to the information provided in a search query. In other words, the ideas expressed in the information retrieved in response to a concept search query are relevant to the ideas contained in the text of the query.

Pattern hair loss

Pattern hair loss (also known as androgenetic alopecia (AGA)) is a hair loss condition that primarily affects the top and front of the scalp. In male-pattern hair loss (MPHL), the hair loss typically presents itself as either a receding front hairline, loss of hair on the crown (vertex) of the scalp, or a combination of both. Female-pattern hair loss (FPHL) typically presents as a diffuse thinning of the hair across the entire scalp.

Moteur de recherche

alt=Capture d'écran d'une page de résultat de recherche|vignette|340x340px|Capture d'écran d'une page de résultat de recherche Un moteur de recherche est une application permettant à un utilisateur d'effectuer une recherche locale ou en ligne, c'est-à-dire de trouver des ressources à partir d'une requête composée de termes. Les ressources peuvent notamment être des pages web, des articles de forums Usenet, des , des vidéos, des fichiers, des ouvrages, des sites pédagogiques, des applications, des logiciels open source.

Kademlia

Kademlia (kad) est un réseau de recouvrement de type table de hachage distribuée pour les réseaux pair à pair (P2P). Il a été conçu par Petar Maymounkov et David Mazières en 2002. Le protocole précise la structure du réseau Kademlia, les communications entre les nœuds et l'échange d'information. Les nœuds communiquent grâce à UDP (cf le modèle OSI). À l'intérieur d'un réseau existant (Internet), Kademlia crée un nouveau réseau, à l'intérieur duquel chaque nœud est identifié par un numéro d'identification, un ID (nombre binaire à 160 bits).

I2P

I2P (« Invisible Internet Project ») est un réseau anonyme, offrant une simple couche réseau logicielle de type réseau overlay, que les applications peuvent employer pour envoyer de façon anonyme et sécurisée des informations entre elles. La communication est chiffrée de bout en bout. Au total, quatre couches de chiffrement sont utilisées pour envoyer un message. L'anonymat est assuré par le concept de « mix network » qui consiste à supprimer les connexions directes entre les pairs qui souhaitent échanger de l'information.