Séances de cours associées à Formats de données et brouillage de données avec Hadoop

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Modélisation des données : concepts et applications

Explore les concepts de modélisation de données, les implémentations SQL et les applications pratiques dans la gestion des données manquantes.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Intelligence en temps réel : défis liés aux données et évolution du matériel

Explore les défis de données et l'évolution matérielle pour l'intelligence en temps réel à l'ère du big data.

Techniques de gestion des données : HBase et Hive Integration

Couvre les techniques de querelles de données utilisant HBase et Hive, en se concentrant sur l'intégration et les applications pratiques.

Entreposage des données : aperçu et défis

Présente les fondamentaux de l'entreposage de données, les défis et le concept novateur de «lakehouse».

Manipulation des données : modèles de données et embrouillement

Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.

Données, big data, nuages et IoT

Explore la représentation des données, les bases de données, le cloud computing et les défis dans l'environnement cloud.

Introduction aux systèmes de bases de données

Couvre les bases des systèmes de base de données, y compris la modélisation des données, le SGBD, l'indépendance des données et l'aperçu du cours.

Big Data: Meilleures pratiques et lignes directrices

Couvre les pratiques exemplaires et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture typique, les défis et les technologies utilisés pour y remédier.

Gestion des données : Aperçu

Présente les concepts fondamentaux de la gestion des données, y compris les modèles de données, les bases de données et les tâches clés.

Modélisation hydrologique: Système de routage

Couvre la modélisation des systèmes hydrologiques, en mettant l'accent sur la rétention des inondations et l'exemple du système de routage.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

DDL, DML, Vues

Couvre la définition des données SQL, la manipulation et les vues dans les bases de données.

Questions liées à l'échange de données : questions liées à la structure et à l'échange de données

Couvre les étapes de la collecte des données, les techniques de structuration et les questions communes à la préparation des données.