Explore la localisation des données dans la planification des décisions pour les plates-formes multi-locataires et discute de l'architecture d'Hadoop, des optimisations du moteur d'exécution et des stratégies de tolérance aux pannes.
Explore les modèles d'exécution de Hadoop, la tolérance aux défauts, la localisation des données et la programmation, soulignant les limites de MapReduce et d'autres cadres de traitement distribué.
Examine la conception d'un système d'exécution distribué à usage général, couvrant les défis, les cadres spécialisés, la logique de contrôle décentralisée et les remaniements de haute performance.
Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.
Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.
Couvre le rôle du système d'exploitation en tant qu'arbitre dans la gestion des ressources et la sécurité grâce à l'isolement des pannes, au partage des ressources et à la communication.
Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.
Introduit le cours d'analyse des données appliquées à l'EPFL, couvrant un large éventail de sujets d'analyse des données et mettant l'accent sur l'apprentissage continu en sciences des données.
Explore la coordination et la programmation dans les systèmes d'exploitation, couvrant les problèmes de réveil perdus, les algorithmes de planification et les primitives de coordination comme le sommeil et le réveil.
Déplacez-vous dans l'intersection de la physique et des données dans les modèles d'apprentissage automatique, couvrant des sujets tels que les champs d'expansion des grappes atomiques et l'apprentissage non supervisé.
Couvre l'essentiel de la science des données, y compris le traitement, la visualisation et l'analyse des données, en mettant l'accent sur les compétences pratiques et l'engagement actif.
Explore la 2ème génération de modèles d'exécution pour l'informatique distribuée, en mettant l'accent sur les ensembles de données distribués Spark et Résilient (RDD).