Concept

Nettoyage de données

Séances de cours associées (32)

Représentations et traitement des données

Couvre les représentations des données, les défis des données déséquilibrées et les stratégies de normalisation et de nettoyage des données.

Représentativité, fiabilité et contribution

Discuter de l'évaluation de la qualité des données, de la fiabilité, de la représentativité et de la contribution du processus à l'évaluation du cycle de vie.

Résolution d'entités : Techniques et applications

Explore les techniques de résolution d'entités pour identifier et agréger différents profils d'entités à travers des ensembles de données, couvrant les défis et les solutions.

Transformations des intrants ou des extrants

Couvre le traitement des données manquantes, l'ingénierie des fonctionnalités et les transformations de sortie dans l'apprentissage automatique.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

Techniques de résolution des entités

Explore les techniques de résolution d'entités, la déduplication des données, les métriques de similitude, le coût de calcul, les techniques de blocage et l'échelle des jointures de similarité.

Entreposage des données : aperçu et défis

Présente les fondamentaux de l'entreposage de données, les défis et le concept novateur de «lakehouse».

Techniques de gestion des données : HBase et Hive Integration

Couvre les techniques de querelles de données utilisant HBase et Hive, en se concentrant sur l'intégration et les applications pratiques.

Applications et systèmes intensifs de données: Aperçu

Couvre la croissance exponentielle des données, les défis dans la technologie de traitement, la variété des données, le nettoyage, le traitement approximatif des requêtes, l'analyse multi-requêtes et le traitement hybride des transactions.

Formats de données et brouillage de données avec Hadoop

Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.

Traitement du flux de données : Apache Kafka et Spark

Couvre le traitement de flux de données avec Apache Kafka et Spark, y compris le temps d'événement vs le temps de traitement, les opérations de traitement de flux, et les jointures de flux.

Manipulation des données : Intro vers Pandas

Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.