Séance de cours

Data Wrangling avec Hive : gérer efficacement le Big Data

Séances de cours associées (32)

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Techniques de gestion des données : HBase et Hive Integration

Couvre les techniques de querelles de données utilisant HBase et Hive, en se concentrant sur l'intégration et les applications pratiques.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Formats de données et brouillage de données avec Hadoop

Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Introduction à la science des données

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Science collaborative des données : outils et techniques

Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.

Big Data: Meilleures pratiques et lignes directrices

Couvre les pratiques exemplaires et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture typique, les défis et les technologies utilisés pour y remédier.

Manipulation des données : modèles de données et embrouillement

Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.

Manipulation des données : Intro vers Pandas

Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Introduction aux systèmes de bases de données

Couvre les fondements des systèmes de base de données, y compris la modélisation des données, le traitement de l'information et les défis de la gestion d'importants volumes de données.

Introduction à l'analyse des données appliquées

Introduit le cours d'analyse des données appliquées à l'EPFL, couvrant un large éventail de sujets d'analyse des données et mettant l'accent sur l'apprentissage continu en sciences des données.

Modélisation des données : concepts et applications

Explore les concepts de modélisation de données, les implémentations SQL et les applications pratiques dans la gestion des données manquantes.

Fonctions avancées des pandas

Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.