Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.
Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Introduit des concepts de modélisation de données, l'utilisation de SQL et des applications de bibliothèque Pandas pour un traitement efficace des données.
Introduit le modèle relationnel, SQL, les clés, les contraintes d'intégrité, la traduction ER, les entités faibles, les hiérarchies ISA et SQL vs. noSQL.
Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.
Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.