Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.
Explore les arbres de décision pour la classification, l'entropie, le gain d'information, l'encodage à chaud, l'optimisation de l'hyperparamètre et les forêts aléatoires.
Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.
Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Explore les fondamentaux de régression logistique, y compris les fonctions de coût, la régularisation et les limites de classification, avec des exemples pratiques utilisant scikit-learn.
Introduit des arbres de décision pour la classification, couvrant l'entropie, la qualité fractionnée, l'indice Gini, les avantages, les inconvénients, et le classificateur forestier aléatoire.
Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.
Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.
Introduit un système de mesure 3D « professionnel » pour l'analyse des pierres et l'extraction des caractéristiques à l'aide de la photogrammétrie stéréo et des technologies de lumière structurée.
Discute des arbres de régression, des méthodes d'ensemble et de leurs applications dans la prévision des prix des voitures d'occasion et des rendements des stocks.
Explore l'importance de la reproductibilité dans la science des données et présente Renku, une plate-forme pour la gestion de projets axés sur les données.