Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.
Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.
Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.
Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.
Couvre les bases de la programmation scientifique pour les ingénieurs, en soulignant l'importance de GIT pour le travail collaboratif et en fournissant un aperçu des défis du développement de logiciels scientifiques.
Introduit Renku, une plateforme pour la science collaborative des données, mettant l'accent sur la reproductibilité, la shareability, la réutilisabilité et la sécurité.
Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.
Couvre les outils collaboratifs de science des données, les concepts de big data, Spark, et le traitement du flux de données, avec des conseils pour le projet final.
Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.