Introduit des concepts de modélisation de données, l'utilisation de SQL et des applications de bibliothèque Pandas pour un traitement efficace des données.
Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.
Couvre le langage SQL pour interagir avec les bases de données à travers des requêtes structurées, y compris la sélection, le filtrage, l'agrégation et le tri des données.
Discute des systèmes de fichiers, en mettant l'accent sur l'organisation des données, les techniques d'indexation et leur impact sur les performances de la base de données.
Discute des modèles de traitement des requêtes et des opérations relationnelles, en se concentrant sur les sélections, les projections et les jointures dans les systèmes à forte intensité de données.