Concept

Lac de données

Séances de cours associées (24)

Couvre les entrepôts de données, les lacs de données, le PLOLO et le PLOLO, la qualité des données et le concept de Data Lakehouse.

Entrepôts de données et systèmes d'aide à la décision

Explore les entrepôts de données, les systèmes d'aide à la décision, OLAP, les lacs de données, les modèles de données multidimensionnels et les optimisations de requêtes.

Entreposage des données : aperçu et défis

Présente les fondamentaux de l'entreposage de données, les défis et le concept novateur de «lakehouse».

Data Lakes : structure et optimisation

Explore les lacs de données, la structure des données et l'optimisation pour une interrogation efficace.

Big Data: Meilleures pratiques et lignes directrices

Couvre les pratiques exemplaires et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture typique, les défis et les technologies utilisés pour y remédier.

Couche d'ingestion de données: SmartDataLake

Explore le processus d'ingestion de données dans SmartDataLake, y compris les ensembles de données et la plate-forme RAW.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Informatique distribuée : défis et solutions

Explore les défis de l'informatique distribuée, de la croissance des données et des types de données, en mettant l'accent sur la bataille contre les trois V dans le Big Data.

Virtualisation des données : SmartDataLake

Explore la virtualisation des données dans le projet SmartDataLake, couvrant l'optimisation des requêtes, le niveau de stockage et les défis dans le traitement de données hétérogènes.

Entreposage des données et aide à la décision

Explore l'entreposage des données, les systèmes d'aide à la décision et l'importance des statistiques dans l'analyse des données.

Data Wrangling: Processus ETL et questions de querelles

Explore le processus ETL, les étapes de querelles de données et les problèmes courants.

Introduction au traitement des flux de données: concepts et applications

Couvre les principes du traitement des flux de données et de ses applications dans l'analyse de données en temps réel.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Introduction au traitement des flux de données: concepts et applications

Couvre les concepts de traitement de flux de données, en se concentrant sur l'intégration Apache Kafka et Spark Streaming, la gestion du temps des événements et les directives de mise en œuvre du projet.

Introduction au traitement du flux de données

Couvre les bases du traitement des flux de données, y compris des outils comme Apache Storm et Kafka, des concepts clés tels que le temps d'événement et les opérations de fenêtre, et les défis du traitement des flux.

Entrepôts de données : introduction et défis

Couvre l'introduction et les défis des entrepôts de données, y compris l'intégration des données, la gestion des métadonnées et l'optimisation des performances des requêtes.

Mobilités à travers le Big Data

Discute de l'influence de Big Data sur la planification et l'optimisation de la mobilité, explorant ses promesses et ses limites.

Calcul des taux de croissance moyens

Il étudie le calcul des taux de croissance moyens et la sensibilité des taux de croissance à des périodes différentes.