Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.
Explore les techniques de résolution d'entités pour identifier et agréger différents profils d'entités à travers des ensembles de données, couvrant les défis et les solutions.
Couvre une mission de travail sur les données de querelle et d'analyse à l'aide de la bibliothèque de pandas de Python pour les ensembles de données du monde réel.
Explore la précision des données par l'évaluation de la fidélité, la détection des erreurs, la manipulation aberrante, les corrélations, les dépendances fonctionnelles, la détection des violations, les contraintes de déni et les techniques de réparation des données.
Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.
Explore les techniques de manipulation des données, la détection des erreurs, les dépendances fonctionnelles, les contraintes de déni et la temporalité des données.
Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.
Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.