Concept

TF-IDF

Séances de cours associées (28)

Données de base sur la récupération de l'information

Introduit les bases de la recherche de l'information, couvrant la recherche par texte et booléen, la recherche de l'espace vectoriel et le calcul de la similitude.

Données de base sur la récupération de l'information

Présente les bases de la récupération d'informations, couvrant la représentation de documents, l'expansion des requêtes et TF-IDF pour le classement des documents.

Recherche et classification de documents

Couvre la récupération de documents, la classification, l'analyse des sentiments et la détection de sujets à l'aide de matrices TF-IDF et de vecteurs de mots contextualisés tels que BERT.

Recherche d'informations : Fagin's Algorithm

Couvre la mise en œuvre de l'algorithme de Fagin pour la récupération d'informations, en mettant l'accent sur la récupération efficace de documents.

Récupérer l'information : bases et techniques

Introduit les bases de la récupération d'informations, couvrant l'indexation, les schémas de pondération, la similarité cosinus et l'évaluation des requêtes.

Traitement de texte: Matrice, Documents, Sujets

Explore la gestion du texte, en se concentrant sur les matrices, les documents et les sujets, y compris les défis de la classification des documents et des modèles avancés comme BERT.

Récupération d'information: espace vectoriel

Couvre les bases de la récupération d'informations à l'aide de modèles d'espace vectoriel et d'exercices pratiques sur la rétroaction de pertinence et la numérisation de la liste de publication.

Exercice de récupération d'espace vectoriel

Couvre le calcul TF-IDF, les vecteurs de documents, la similarité cosinus et les formules de précision.

Analyse des données textuelles : Techniques et applications

Explore le traitement des données texte, en dérivant des ensembles de données propres à partir de textes non structurés, et diverses techniques d'analyse de texte.

Bases de récupération d'information: modèles d'espace booléen et vectoriel

Introduit des modèles Booléen et Vector Space pour la recherche d'informations, couvrant la syntaxe, le calcul de similarité, la fréquence des termes et les poids des requêtes.

Traitement des données textuelles : recherche de documents et classification

Couvre la recherche de documents, la classification, l'analyse des sentiments et la détection de sujets à l'aide de matrices TF-IDF et de vecteurs de mots contextualisés.

Analyse des données textuelles: bases et techniques

Présente les bases de l'analyse de données textuelles, couvrant la récupération de documents, la classification, l'analyse des sentiments et la détection de sujets à l'aide de techniques de prétraitement et de modèles d'apprentissage automatique.

Sémantique spatiale vectorielle (et récupération d'information)

Explore le modèle Vector Space, le sac de mots, tf-idf, cosine similarité, Okapi BM25, et la précision et le rappel dans la récupération d'information.

Traitement de texte : Analyse de grandes collections de texte numérique

Plongez dans le traitement de grandes collections de textes numériques, en explorant les régularités cachées, la réutilisation du texte et l'analyse TF-IDF.

Traitement des langues naturelles

Introduit le traitement du langage naturel, qui couvre le prétraitement du texte, l'analyse des sentiments et l'analyse des sujets, en mettant l'accent sur l'établissement d'un indice de risque pour le changement climatique.

Traitement de données texte: bases et techniques

Présente les bases du traitement de données textuelles, couvrant la récupération de documents, la classification, l'analyse des sentiments et la détection de sujets.

Information Retrieval Basics: Longueur du document et normalisation

Explore la longueur du document, la normalisation, la compensation des biais et l'évaluation du modèle de récupération de l'information.

Indexation sémantique latente

Couvre l'indexation sémantique latente, une méthode pour améliorer la récupération d'informations en cartographiant des documents et des requêtes dans un espace conceptuel de dimension inférieure.

Indexation sémantique latente

Couvre l'indexation sémantique latente, l'intégration de mots, et le modèle de skipgram avec un échantillonnage négatif.

Récupération probabiliste

Couvre la récupération d'informations probabilistes, la pertinence de la modélisation en tant que probabilité, l'expansion des requêtes et la génération automatique de thésaurus.