Séance de cours

Concepts avancés de traitement du flux de données

Séances de cours associées (26)

Introduction au traitement du flux de données

Couvre les bases du traitement des flux de données, y compris des outils comme Apache Storm et Kafka, des concepts clés tels que le temps d'événement et les opérations de fenêtre, et les défis du traitement des flux.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.

Introduction au traitement des flux de données: concepts et applications

Couvre les concepts de traitement de flux de données, en se concentrant sur l'intégration Apache Kafka et Spark Streaming, la gestion du temps des événements et les directives de mise en œuvre du projet.

Traitement du flux de données : Apache Kafka et Spark

Couvre le traitement de flux de données avec Apache Kafka et Spark, y compris le temps d'événement vs le temps de traitement, les opérations de traitement de flux, et les jointures de flux.

Concepts avancés de traitement du flux de données

Explore le temps de l'événement par rapport au temps de traitement, les opérations de traitement de flux, les jointures de flux et le traitement des données en retard ou hors-commande dans le traitement de flux de données.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Traitement des flux et tolérance aux défauts

Explore le traitement de flux, la tolérance aux défauts, DStreams, et les opérations de fenêtre coulissante dans l'analyse de big data.

Introduction au traitement du flux de données

Introduit le traitement de flux de données, couvrant le traitement par lots vs le traitement de flux, des informations en temps réel, des applications, des défis et des outils comme Apache Kafka et Spark Streaming.

Traitement des flux de données : gestion et défis

Explore la gestion des flux de données, les applications en temps réel, les défis de l'analyse et les stratégies efficaces de gestion des flux.

Introduction au traitement des flux de données: concepts et applications

Couvre les principes du traitement des flux de données et de ses applications dans l'analyse de données en temps réel.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Spark Streaming : tolérance aux pannes et DStreams

Explore la tolérance aux pannes et DStreams dans Spark Streaming pour une analyse en temps réel des données volumineuses.

Optimisation des requêtes relationnelles

Couvre l'optimisation des requêtes relationnelles, y compris les plans de requêtes logiques et physiques, l'estimation des coûts, les équivalences et la stratégie du système R.

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Sans titre

Introduction au traitement du flux de données

Couvre les fondamentaux du traitement des flux de données, y compris les informations en temps réel, les applications de l'industrie, et les exercices pratiques sur Kafka et Spark Streaming.

Traitement des demandes de renseignements avec les opérations relationnelles

Couvre le traitement des requêtes avec des opérations relationnelles, y compris l'optimisation des requêtes et différents algorithmes de jonction.

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.