Écosystèmes Big Data : technologies et défis

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (32)

Introduction à l'analyse des données appliquées

Introduit le cours d'analyse des données appliquées à l'EPFL, couvrant un large éventail de sujets d'analyse des données et mettant l'accent sur l'apprentissage continu en sciences des données.

Analyse des données sur la pollution atmosphérique

Couvre l'analyse des données sur la pollution atmosphérique, en se concentrant sur les bases de R, en visualisant des séries chronologiques et en créant des résumés des concentrations de polluants.

Science des données pour les ingénieurs: Partie 2

Explore la manipulation, l'exploration et la visualisation de données dans des projets de science des données en utilisant Python.

Introduction au traitement des flux de données: concepts et applications

Couvre les principes du traitement des flux de données et de ses applications dans l'analyse de données en temps réel.

Introduction à l'architecture Spark Runtime

Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

L'essentiel de la science des données

Couvre l'essentiel de la science des données, y compris le traitement, la visualisation et l'analyse des données, en mettant l'accent sur les compétences pratiques et l'engagement actif.

Entreposage des données : aperçu et défis

Présente les fondamentaux de l'entreposage de données, les défis et le concept novateur de «lakehouse».

Manipulation des données : modèles de données et embrouillement

Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.

Intégrer le stockage de données évolutives et la carte Réduire le traitement avec Hadoop

Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.

Éléments de la collaboration dans le domaine de la science des données

Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.

Formats de données et brouillage de données avec Hadoop

Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.

Page 2 sur 2