Explore les données sur la consommation d'eau à Genève, y compris les graphiques sur la consommation et les pertes, les ensembles de données disponibles et les phases de traitement des données.
Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.
Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Explore les défis de l'informatique distribuée, de la croissance des données et des types de données, en mettant l'accent sur la bataille contre les trois V dans le Big Data.
Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.
Couvre Nexus Fusion, une plateforme pour la découverte collaborative de données et de connaissances, y compris la gestion des données, la présentation et la recherche.
Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.