Séance de cours

Hadoop : Modèles d'exécution

Séances de cours associées (32)

Écosystème Hadoop : Choix architecturaux et programmation MapReduce

Explore l'architecture de l'écosystème Hadoop et le modèle de programmation MapReduce, en mettant l'accent sur les forces et les limites.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Big Data: Meilleures pratiques et lignes directrices

Couvre les pratiques exemplaires et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture typique, les défis et les technologies utilisés pour y remédier.

Optimisation des requêtes récursives

Explore l'optimisation des requêtes récursives dans les systèmes de bases de données à l'aide de Datalog et semi-rings, en discutant des défis et des solutions dans l'analyse des données.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Couche de stockage Spark

Explore l'écosystème Spark, les ensembles de données distribués résilients et l'abstraction de la couche de stockage dans Spark.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Décisions d'ordonnancement : Data Locality et Multitenancy

Explore la localisation des données dans la planification des décisions pour les plates-formes multi-locataires et discute de l'architecture d'Hadoop, des optimisations du moteur d'exécution et des stratégies de tolérance aux pannes.

Défis Big Data : Computing distribué avec Spark

Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.

Efficacité des commérages : systèmes décentralisés

Explore l'efficacité des commérages dans les systèmes décentralisés, couvrant les protocoles, les besoins d'interaction et l'optimisation de la bande passante, ainsi que les algorithmes de recherche et les optimisations.

Modèles de programmation : aperçu et exemples

Explore les modèles de programmation pour le traitement des mégadonnées, y compris les RDD de Spark et les optimisations.

Optimisation avancée de l'étincelle

Déplacez-vous dans les techniques avancées d'optimisation Spark, en mettant l'accent sur la partition des données, les opérations de shuffle et la gestion de la mémoire.

Intégrer le stockage de données évolutives et la carte Réduire le traitement avec Hadoop

Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.

Programmation parallèle de données : Processeurs vectoriels et SIMD

Explore la programmation parallèle aux données avec les processeurs vectoriels et SIMD, et présente MapReduce, Pregel et TensorFlow.

Écosystème Spark: Choix architecturaux

Explore les choix architecturaux de l'écosystème Spark, y compris les RDD et la tolérance aux pannes.

Optimisation de code : analyses accélérées

Explore les techniques pour accélérer les analyses de flux de données et discute de l'importance de l'ordonnancement des nœuds et de la traversée post-commande.

Cadres de données Spark

Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.