Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Explore l'importance de la reproductibilité dans la science des données et présente Renku, une plate-forme pour la gestion de projets axés sur les données.
Explore les signaux de débruitage avec des modèles de mélange gaussien et l'algorithme EM, l'analyse de signal EMG et la segmentation d'image à l'aide de modèles markoviens.
Explore le contrôle de version distribué de Git, couvrant la résolution des conflits, la gestion de la collaboration et la fusion dans des projets logiciels.
Couvre les outils collaboratifs de science des données, les concepts de big data, Spark, et le traitement du flux de données, avec des conseils pour le projet final.