Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.
Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.
Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.
Introduit des concepts de modélisation de données, l'utilisation de SQL et des applications de bibliothèque Pandas pour un traitement efficace des données.
Introduit le modèle relationnel, SQL, les clés, les contraintes d'intégrité, la traduction ER, les entités faibles, les hiérarchies ISA et SQL vs. noSQL.
Introduit les principes fondamentaux des systèmes de gestion des bases de données, couvrant le modèle relationnel, les options de stockage, l'intégrité des données, les requêtes et les langages de manipulation des données.
Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.
Discute de la modélisation des systèmes hydrologiques, en mettant l'accent sur le routage et la rétention des inondations à l'aide d'une nouvelle base de données.
Couvre la vue d'ensemble des systèmes d'information, la modélisation des données, la gestion des données et la distinction entre les données et l'information.
Couvre les bases de données relationnelles, les transactions et la cohérence des données dans le contexte des typologies historiques des bases de données.