Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.
Explore les entrepôts de données, les systèmes d'aide à la décision, OLAP, les lacs de données, les modèles de données multidimensionnels et les optimisations de requêtes.
Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.
Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.
Introduit le modèle relationnel, SQL, les clés, les contraintes d'intégrité, la traduction ER, les entités faibles, les hiérarchies ISA et SQL vs. noSQL.
Couvre les fondements des systèmes de base de données, y compris la modélisation des données, le traitement de l'information et les défis de la gestion d'importants volumes de données.
Couvre l'introduction et les défis des entrepôts de données, y compris l'intégration des données, la gestion des métadonnées et l'optimisation des performances des requêtes.
Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.