Séances de cours associées à Data wrangling

Modélisation des données : concepts et applications

Explore les concepts de modélisation de données, les implémentations SQL et les applications pratiques dans la gestion des données manquantes.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Questions liées à l'échange de données : questions liées à la structure et à l'échange de données

Couvre les étapes de la collecte des données, les techniques de structuration et les questions communes à la préparation des données.

Défis de nettoyage des données : Optimisation de la détection des erreurs

S'attaque aux défis du nettoyage des données pour l'analyse, proposant des optimisations pour réduire le temps de traitement.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Gêne de données: Transformer les données pour l'analyse

Couvre le processus de collecte de données, en mettant l'accent sur la transformation et la préparation des données pour l'analyse.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

L'échange de données: Structurer et nettoyer les données

Explore les techniques de manipulation des données, la détection des erreurs, les dépendances fonctionnelles, les contraintes de déni et la temporalité des données.

Manipulation des données : modèles de données et embrouillement

Examine les éléments fondamentaux de la gestion des données, y compris les modèles, les sources et les querelles, en soulignant l'importance de comprendre et de résoudre les problèmes de données.

Interactions et analyse des données

Couvre une mission de travail sur les données de querelle et d'analyse à l'aide de la bibliothèque de pandas de Python pour les ensembles de données du monde réel.

Présentation du module Utilisateurs clés de l'équipement

Couvre la présentation du module des utilisateurs clés de l'équipement et son accent sur la planification, le chargement des données et les essais d'intégration.

Data Science: Python pour les ingénieurs - Partie II

Explore les data wrangling, le traitement numérique des data, et la visualisation scientifique en utilisant Python pour les ingénieurs.

Entreposage des données : aperçu et défis

Présente les fondamentaux de l'entreposage de données, les défis et le concept novateur de «lakehouse».

Histoire urbaine numérique: Lausanne Time Machine

Explore l'histoire numérique urbaine de Lausanne en 1832, en mettant l'accent sur l'intersection des données, la création de moteurs de recherche et la classification professionnelle.

Innovations dans le domaine des sciences des données : perspectives, défis et avenir

Explore les progrès de la science des données, en mettant l'accent sur des idées rapides, la variété des données et les systèmes de données intelligents en temps réel.

Applications et systèmes intensifs de données: Aperçu

Couvre la croissance exponentielle des données, les défis dans la technologie de traitement, la variété des données, le nettoyage, le traitement approximatif des requêtes, l'analyse multi-requêtes et le traitement hybride des transactions.

Building DH Portal: Plateforme de données pour les chercheurs

Présente l'expérience de stage de Haeeun Kim dans l'amélioration des processus de nettoyage et d'organisation des données des chercheurs.

Data Wrangling: Processus ETL et questions de querelles

Explore le processus ETL, les étapes de querelles de données et les problèmes courants.

Éléments de la collaboration dans le domaine de la science des données

Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.

Temporalité et résolution des entités

Explore les défis dans la temporalité des données et les techniques de résolution des entités.