Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.
Couvre une mission de travail sur les données de querelle et d'analyse à l'aide de la bibliothèque de pandas de Python pour les ensembles de données du monde réel.
Couvre les bases du traitement des flux de données, y compris des outils comme Apache Storm et Kafka, des concepts clés tels que le temps d'événement et les opérations de fenêtre, et les défis du traitement des flux.
Explore les compromis dans un système de file d'attente à l'échelle planétaire, en soulignant l'importance de la sémantique relaxante pour gérer la complexité.
Explore les techniques de résolution d'entités, la déduplication des données, les métriques de similitude, le coût de calcul, les techniques de blocage et l'échelle des jointures de similarité.
Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.
Couvre le traitement de flux de données avec Apache Kafka et Spark, y compris le temps d'événement vs le temps de traitement, les opérations de traitement de flux, et les jointures de flux.
Explore les techniques de manipulation des données, la détection des erreurs, les dépendances fonctionnelles, les contraintes de déni et la temporalité des données.
Explore les défis liés aux hiérarchies de mémoire, aux espaces d'adressage à l'échelle de la TB et optimise les performances grâce au traitement quasi-mémoire.