Séances de cours associées à Techniques de résolution des entités

Modélisation des données : concepts et applications

Explore les concepts de modélisation de données, les implémentations SQL et les applications pratiques dans la gestion des données manquantes.

Gêne de données: Transformer les données pour l'analyse

Couvre le processus de collecte de données, en mettant l'accent sur la transformation et la préparation des données pour l'analyse.

Questions liées à l'échange de données : questions liées à la structure et à l'échange de données

Couvre les étapes de la collecte des données, les techniques de structuration et les questions communes à la préparation des données.

Temporalité et résolution des entités

Explore les défis dans la temporalité des données et les techniques de résolution des entités.

Manipulation des données : modèles de données et embrouillement

Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Data Wrangling: Processus ETL et questions de querelles

Explore le processus ETL, les étapes de querelles de données et les problèmes courants.

Résolution d'entités : Techniques et applications

Explore les techniques de résolution d'entités pour identifier et agréger différents profils d'entités à travers des ensembles de données, couvrant les défis et les solutions.

Interactions et analyse des données

Couvre une mission de travail sur les données de querelle et d'analyse à l'aide de la bibliothèque de pandas de Python pour les ensembles de données du monde réel.

Précision des données : évaluation de la fidélité et détection d'erreurs

Explore la précision des données par l'évaluation de la fidélité, la détection des erreurs, la manipulation aberrante, les corrélations, les dépendances fonctionnelles, la détection des violations, les contraintes de déni et les techniques de réparation des données.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

Entreposage des données : aperçu et défis

Présente les fondamentaux de l'entreposage de données, les défis et le concept novateur de «lakehouse».

Techniques de gestion des données : HBase et Hive Integration

Couvre les techniques de querelles de données utilisant HBase et Hive, en se concentrant sur l'intégration et les applications pratiques.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

L'échange de données: Structurer et nettoyer les données

Explore les techniques de manipulation des données, la détection des erreurs, les dépendances fonctionnelles, les contraintes de déni et la temporalité des données.

Découverte avancée de la structure : données sur les distances et les séries chronologiques

Explore les algorithmes de clustering, les mesures de distance et les techniques d'analyse de données de séries chronologiques.

Intelligence en temps réel : défis liés aux données et évolution du matériel

Explore les défis de données et l'évolution matérielle pour l'intelligence en temps réel à l'ère du big data.

Formats de données et brouillage de données avec Hadoop

Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.

Science collaborative des données : outils et techniques

Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.

Introduction au traitement des flux de données: concepts et applications

Couvre les principes du traitement des flux de données et de ses applications dans l'analyse de données en temps réel.