Séances de cours associées à Building DH Portal: Plateforme de données pour les chercheurs

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Manipulation des données : modèles de données et embrouillement

Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.

Défis de nettoyage des données : Optimisation de la détection des erreurs

S'attaque aux défis du nettoyage des données pour l'analyse, proposant des optimisations pour réduire le temps de traitement.

Manipulation des données : Intro vers Pandas

Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Modélisation des données : concepts et applications

Explore les concepts de modélisation de données, les implémentations SQL et les applications pratiques dans la gestion des données manquantes.

Introduction au traitement des flux de données: concepts et applications

Couvre les principes du traitement des flux de données et de ses applications dans l'analyse de données en temps réel.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Entreposage des données : aperçu et défis

Présente les fondamentaux de l'entreposage de données, les défis et le concept novateur de «lakehouse».

Introduction à l'analyse des données appliquées

Introduit le cours d'analyse des données appliquées à l'EPFL, couvrant un large éventail de sujets d'analyse des données et mettant l'accent sur l'apprentissage continu en sciences des données.

Big Data: Traitement et dimensions

Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.

Questions relatives aux données dans le domaine de la recherche

Examine les défis que posent les hypothèses de données, les biais et d'autres aspects de la recherche, y compris les écritures incomplètes et les frustrations des nouveaux arrivants.

Techniques de gestion des données : HBase et Hive Integration

Couvre les techniques de querelles de données utilisant HBase et Hive, en se concentrant sur l'intégration et les applications pratiques.

Big Data: Meilleures pratiques et lignes directrices

Couvre les pratiques exemplaires et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture typique, les défis et les technologies utilisés pour y remédier.

Deep Learning : données, modèles et défis

Fournit une vue d'ensemble des concepts d'apprentissage profond, en se concentrant sur les données, l'architecture du modèle et les défis liés à la gestion de grands ensembles de données.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

Questions liées à l'échange de données : questions liées à la structure et à l'échange de données

Couvre les étapes de la collecte des données, les techniques de structuration et les questions communes à la préparation des données.

Consommation d'eau à Genève

Explore les données sur la consommation d'eau à Genève, y compris les graphiques sur la consommation et les pertes, les ensembles de données disponibles et les phases de traitement des données.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.