Ranking (information retrieval)Ranking of query is one of the fundamental problems in information retrieval (IR), the scientific/engineering discipline behind search engines. Given a query q and a collection D of documents that match the query, the problem is to rank, that is, sort, the documents in D according to some criterion so that the "best" results appear early in the result list displayed to the user. Ranking in terms of information retrieval is an important concept in computer science and is used in many different applications such as search engine queries and recommender systems.
Eigenvector centralityIn graph theory, eigenvector centrality (also called eigencentrality or prestige score) is a measure of the influence of a node in a network. Relative scores are assigned to all nodes in the network based on the concept that connections to high-scoring nodes contribute more to the score of the node in question than equal connections to low-scoring nodes. A high eigenvector score means that a node is connected to many nodes who themselves have high scores. Google's PageRank and the Katz centrality are variants of the eigenvector centrality.
SpamdexingLe spamdexing ou référencement abusif, est un ensemble de techniques consistant à tromper les moteurs de recherche sur la qualité d'une page ou d'un site afin d'obtenir, pour un mot-clef donné, un bon classement dans les résultats des moteurs (de préférence dans les tout premiers résultats, car les utilisateurs vont rarement au-delà de la première page qui, pour les principaux moteurs, ne comprend par défaut que dix adresses).
Lien retourUn lien retour (aussi appelé lien entrant ou lien arrivant ; en anglais, inbound link, inlink ou backlink) est un hyperlien pointant vers un site ou une page Web. La qualité du lien retour et le nombre de liens retour pointant vers un site ou une page fournissent une indication de la réputation de ce site ou de cette page. Plus précisément, un lien retour correspond à n'importe quel lien reçu par un nœud du Web (page Web, annuaire, site Internet, ou Domaine de premier niveau) depuis un autre nœud du Web.
Optimisation pour les moteurs de recherchealt=Illustration du principe de fonctionnement du PageRank|vignette|Illustration du principe de fonctionnement du PageRank. Loptimisation pour les moteurs de recherche, aussi connue sous le sigle SEO (de l'anglais « Search Engine Optimization »), inclut l'ensemble des techniques qui visent à améliorer le positionnement d'une page, d'un site ou d'une application web dans la page de résultats d'un moteur de recherche (SERP pour « Search Engine Results Page »).
Sergey BrinSergey ou Sergueï Brin (en Сергей Михайлович Брин, Sergueï Mikhaïlovitch Brine), né le à Moscou, est un entrepreneur américain d'origine russe, cofondateur avec Larry Page de la société Google. Membre de son conseil d'administration, il avait en 2011 le titre de président et de directeur technique. Il est actuellement président de la société Alphabet Inc. et supervise les travaux chez X. Sergey Brin (nom également transcrit en français Sergueï Brin) naît en Russie de deux parents juifs russes à l'époque de l'Union soviétique, alors dirigée par Léonid Brejnev.
Élément metaUn élément meta (ou métaélément, ou balise meta, ou meta tag par analogie avec l’anglais) est une information qui porte sur la nature et le contenu d’une page web, ajoutée dans l’en-tête de la page au moyen de marqueurs HTML. L’élément meta est un type d’élément HTML (comme l’élément link...) destiné à fournir des métadonnées structurées sur une page web. Cet élément doit être placé dans la section head d’un document HTML, entre les marques et . Il est invisible à la lecture et peut avoir diverses utilisations.
PaywallSur Internet, un paywall (anglicisme, « mur de péage »), péage de lecture numérique ou verrou d'accès payant est une méthode de restriction d'accès à un contenu numérique dans le but d'amener le lecteur à souscrire un abonnement payant. Les péages de lecture numérique les plus connus sont ceux des publications périodiques, tels les journaux et les magazines. Le premier verrou serait celui mis en place par le Financial Times en 2002.
BaiduBaidu () est une entreprise Internet chinoise. Son moteur de recherche en chinois peut chercher du texte et des images. En , c'est le site le plus consulté de Chine et, en 2019, c'est le le plus consulté sur Internet. Baidu signifie « Cent degrés » en chinois. L'entreprise propose un index de plus de 740 millions de pages web, 80 millions d'images et 10 millions de fichiers multimédia. Elle participe activement à la communauté du logiciel libre, notamment dans le domaine de l'intelligence artificielle.
Centralitéthumb|right|300px|Exemples de A) Centralité d'intermédiarité, B) Centralité de proximité, C) Centralité de vecteur propre, D) Centralité de degré, E) Centralité harmonique et F) Centralité de Katz sur le même graphe. En théorie des graphes et en théorie des réseaux, les indicateurs de centralité sont des mesures censées capturer la notion d'importance dans un graphe, en identifiant les sommets les plus significatifs.
Search engineA search engine is a software system that finds web pages that match a web search. They search the World Wide Web in a systematic way for particular information specified in a textual web search query. The search results are generally presented in a line of results, often referred to as search engine results pages (SERPs). The information may be a mix of hyperlinks to web pages, images, videos, infographics, articles, and other types of files. Some search engines also mine data available in databases or open directories.
Désambiguïsation lexicaleLa désambiguïsation lexicale ou désambigüisation lexicale est la détermination du sens d'un mot dans une phrase lorsque ce mot peut avoir plusieurs sens possibles. Dans la linguistique informatique, la désambiguïsation lexicale est un problème non résolu dans le traitement des langues naturelles et de l'ontologie informatique. La résolution de ce problème permettrait des avancées importantes dans d'autres champs de la linguistique informatique comme l'analyse du discours, l'amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l'inférence, etc.
Larry PageLawrence Edward Page dit Larry Page, né le à East Lansing dans le Michigan, est un milliardaire et informaticien américain. Il est avec Sergey Brin le cofondateur de l'entreprise Google. Larry Page est né dans une famille juive à East Lansing, au Michigan, aux États-Unis, le . Il est le fils de deux professeurs d’université : Gloria Weinstein (1944-), professeure de programmation à l’Université du Michigan, et Carl V. Page (1938-1996), professeur d’informatique et d’intelligence artificielle à l’Université de Caroline du Nord à Chapel Hill et à l’Université du Michigan.
Hyperlienalt=Hyperlien wikipedia|vignette|Pointeur de souris en forme de main au-dessus d'un hyperlien « Wikipedia ». Un hyperlien ou lien hypertexte, est une référence placée dans le contenu d'un document électronique permettant de passer automatiquement d'un document consulté à un autre document ou à une autre partie du même document. Il prend la plupart du temps la forme d'un texte souligné en bleu, mais peut également être placé sur une photographie, une image, un bouton, notamment.
Robot d'indexationalt=Architecture d'un robot d'indexation|vignette|270x270px|Architecture d'un robot d'indexation Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, , vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.
Google (moteur de recherche)Google est un moteur de recherche gratuit et libre d'accès sur le World Wide Web, ayant donné son nom à la société Google. C'est aujourd'hui le moteur de recherche et le site web le plus visité au monde : 90 % des internautes l'utilisaient en 2018. Le nom Google vient du mot Gogol, nom donné au nombre . Ce nombre a été choisi pour évoquer la capacité de Google à traiter une très grande quantité de données.
Chaîne de Markovvignette|Exemple élémentaire de chaîne de Markov, à deux états A et E. Les flèches indiquent les probabilités de transition d'un état à un autre. En mathématiques, une chaîne de Markov est un processus de Markov à temps discret, ou à temps continu et à espace d'états discret. Un processus de Markov est un processus stochastique possédant la propriété de Markov : l'information utile pour la prédiction du futur est entièrement contenue dans l'état présent du processus et n'est pas dépendante des états antérieurs (le système n'a pas de « mémoire »).