Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.
Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.
Introduit le cours d'analyse des données appliquées à l'EPFL, couvrant un large éventail de sujets d'analyse des données et mettant l'accent sur l'apprentissage continu en sciences des données.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Explore les progrès de la science des données, en mettant l'accent sur des idées rapides, la variété des données et les systèmes de données intelligents en temps réel.
Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.
Explore la précision des données par l'évaluation de la fidélité, la détection des erreurs, la manipulation aberrante, les corrélations, les dépendances fonctionnelles, la détection des violations, les contraintes de déni et les techniques de réparation des données.
Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.