Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.
Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Explore la régression logistique pour prédire les proportions de la végétation dans la région amazonienne grâce à l'analyse des données de télédétection.
Introduit les bases de l'apprentissage automatique, couvrant l'apprentissage supervisé et non supervisé, la régression linéaire et la compréhension des données.
Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.
Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.
Explore les arbres de décision pour la classification, l'entropie, le gain d'information, l'encodage à chaud, l'optimisation de l'hyperparamètre et les forêts aléatoires.
Discute des arbres de régression, des méthodes d'ensemble et de leurs applications dans la prévision des prix des voitures d'occasion et des rendements des stocks.
Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.
Couvre les techniques d'apprentissage supervisées et non supervisées dans l'apprentissage automatique, en mettant en évidence leurs applications dans la finance et l'analyse environnementale.
Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.
Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.
Explore les fondamentaux de régression logistique, y compris les fonctions de coût, la régularisation et les limites de classification, avec des exemples pratiques utilisant scikit-learn.