Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.
Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.
Explore les données sur la consommation d'eau à Genève, y compris les graphiques sur la consommation et les pertes, les ensembles de données disponibles et les phases de traitement des données.
Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Discute des opérateurs de requête avancés, en se concentrant sur les techniques de jointure et leurs méthodes de traitement dans les bases de données relationnelles.
Couvre les progrès des systèmes d'analyse de données et le rôle de la co-conception matériel-logiciel dans l'amélioration des performances à l'ère post-Moore.
Explore le dimensionnement des réservoirs et des barrages en utilisant des courbes d'écoulement cumulatives et le dimensionnement des réservoirs pour les périodes sèches et pluvieuses.
Explore les défis de gestion du stockage dans la transition vers les lacs de données, en abordant l'hétérogénéité des logiciels et du matériel, la conception unifiée du stockage et l'optimisation des performances.
Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.
Explore les défis et les solutions dans l'informatique sans serveur, en mettant l'accent sur l'utilisation de l'énergie, l'utilisation du cloud, l'architecture FaaS et l'analyse des performances.