Séance de cours

Scaling up : Spark et Big Data

Séances de cours associées (31)

Défis du Big Data : l'expansion vers des données massives

Explore les défis de la manipulation massive des données à l'ère du big data, en discutant de solutions comme MapReduce et Spark.

Défis Big Data : Computing distribué avec Spark

Explore les défis du Big Data, l'informatique distribuée avec Spark, les RDD, la configuration matérielle requise, MapReduce, les transformations et Spark DataFrames.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Régression linéaire et régression logistique

Couvre la régression linéaire et logistique pour les tâches de régression et de classification, en mettant l'accent sur les fonctions de perte et la formation de modèle.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Régression logistique : prédiction de la végétation

Explore la régression logistique pour prédire les proportions de la végétation dans la région amazonienne grâce à l'analyse des données de télédétection.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Introduction à l'analyse des données appliquées

Introduit le cours d'analyse des données appliquées à l'EPFL, couvrant un large éventail de sujets d'analyse des données et mettant l'accent sur l'apprentissage continu en sciences des données.

Écosystème Hadoop : Choix architecturaux et programmation MapReduce

Explore l'architecture de l'écosystème Hadoop et le modèle de programmation MapReduce, en mettant l'accent sur les forces et les limites.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Principes fondamentaux de l'apprentissage supervisé

Présente les principes fondamentaux de l'apprentissage supervisé, y compris les fonctions de perte et les distributions de probabilité.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Régression logistique : Fondements et applications

Explore les fondamentaux de régression logistique, y compris les fonctions de coût, la régularisation et les limites de classification, avec des exemples pratiques utilisant scikit-learn.

Évoluer vers des données massives: Fondements de l'étincelle

Couvre les fondamentaux de l'échelle vers des données massives à l'aide de Spark, en mettant l'accent sur les DDR, les transformations, les actions, l'architecture Spark, et la boîte à outils d'apprentissage automatique de Spark.

Big Data: Meilleures pratiques et lignes directrices

Couvre les pratiques exemplaires et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture typique, les défis et les technologies utilisés pour y remédier.

Intégrer le stockage de données évolutives et la carte Réduire le traitement avec Hadoop

Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.

Introduction à l'architecture Spark Runtime

Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.

Régression logistique : fonctions de coût et optimisation

Explore la régression logistique, les fonctions de coût, la descente en gradient et la modélisation de probabilité à l'aide de la fonction sigmoïde logistique.

Classement multiclasses

Couvre le concept de classification multiclasse et les défis de la séparation linéaire des données avec les classes multiples.