Cours

CS-423: Distributed information systems

Séances de ce cours (143)

Web sémantique : représentation des connaissances

Explore les concepts du Web sémantique, la syntaxe RDF et la représentation des connaissances en utilisant les instructions RDF et Schema.org.

Extraction d'entités et d'informations

Explore l'extraction de connaissances à partir du texte, couvrant des concepts clés tels que l'extraction de phrases clés et la reconnaissance d'entités nommées.

Calcul pratique du PageRank

Couvre le calcul pratique du PageRank en utilisant des méthodes itératives et les défis de la méthode propre-vecteur.

Extraction d'entités et d'informations

Explore l'extraction d'informations à l'aide de classificateurs, de fonctionnalités et d'analyses syntaxiques.

Indexation sémantique latente : concepts et applications

Explore l'indexation sémantique latente, la construction de vocabulaire, la création de matrices de documents, la transformation de requêtes et la récupération de documents en utilisant la similarité cosinus.

Taxonomie Induction: Concepts d'apprentissage et relations

Explore l'induction de la taxonomie, les relations d'apprentissage et les concepts à partir de documents.

Classification : Introduction

Couvre le clustering et la classification, la construction de modèles pour affecter des objets à des classes basées sur des valeurs d'attributs.

Désambiguïsation des entités et prédiction des liens

Explore la désambiguïsation des entités, reliant le texte aux bases de connaissances et la prédiction de liens dans les graphiques de connaissances avec des exemples de Wikipedia.

Arbres de décision: Induction et taille

Explore les arbres de décision, de l'induction à l'élagage, en mettant l'accent sur l'interprétabilité et les forces de sélection automatique des fonctionnalités, tout en abordant des défis tels que l'ajustement excessif.

Inférence de connaissances pour les graphes

Explore l'inférence des connaissances pour les graphiques, en discutant de la propagation des étiquettes, des objectifs d'optimisation et du comportement probabiliste.

Méthodes de l'ensemble: Random Forest

Explore les forêts aléatoires en tant que méthode d'ensemble puissante pour la classification, en discutant des stratégies d'ensachage, d'empilage, de renforcement et d'échantillonnage.

Collecte et préparation des données

Discute de l'importance de la collecte de données et de la préparation à la classification, y compris les défis d'étiquetage et les méthodes de crowdsourcing.

Techniques de clustering : K-means et DBSCAN

Explore les techniques de regroupement k-means et DBSCAN, couvrant les types d'affectation et de classification des points de données.

Crowdsourcing : méthodologie de classification

Explore les algorithmes de distribution et d'agrégation des tâches de crowdsourcing pour les réponses des travailleurs dans la méthodologie de classification.

Discretisation : méthodes et techniques

Explore les méthodes de discrétisation, y compris les techniques d'égale largeur et d'égale fréquence, ainsi que les statistiques x2 pour les tests d'indépendance.

Sélection des caractéristiques

Explore les méthodes de sélection des fonctionnalités, les pièges et les techniques de normalisation pour des performances optimales du modèle.

Évaluation du modèle : métriques et sélection

Explore les mesures d'évaluation des modèles, les techniques de sélection, le compromis biais-variance et la gestion des distributions de données biaisées dans l'apprentissage automatique.

Pipeline de classification : construction et évaluation

Explique la construction et l'évaluation d'un pipeline de classification à l'aide d'ensembles de données de tweet.

Classification des documents

Explore les méthodes de classification des documents, y compris Naïve Bayes et word embeddings.

Systèmes Recommender

Explore les systèmes de recommandation, le filtrage collaboratif, les recommandations basées sur le contenu, les mesures de similarité et les méthodes avancées telles que la factorisation matricielle.