Séances de cours associées à Data mapping

Modélisation des données : concepts et applications

Explore les concepts de modélisation de données, les implémentations SQL et les applications pratiques dans la gestion des données manquantes.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Data Wrangling: Processus ETL et questions de querelles

Explore le processus ETL, les étapes de querelles de données et les problèmes courants.

Gêne de données: Transformer les données pour l'analyse

Couvre le processus de collecte de données, en mettant l'accent sur la transformation et la préparation des données pour l'analyse.

Couche d'ingestion de données: SmartDataLake

Explore le processus d'ingestion de données dans SmartDataLake, y compris les ensembles de données et la plate-forme RAW.

Interactions et analyse des données

Couvre une mission de travail sur les données de querelle et d'analyse à l'aide de la bibliothèque de pandas de Python pour les ensembles de données du monde réel.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Introduction au traitement des flux de données: concepts et applications

Couvre les principes du traitement des flux de données et de ses applications dans l'analyse de données en temps réel.

Data Science: Python pour les ingénieurs - Partie II

Explore les data wrangling, le traitement numérique des data, et la visualisation scientifique en utilisant Python pour les ingénieurs.

Introduction au traitement du flux de données

Couvre les bases du traitement des flux de données, y compris des outils comme Apache Storm et Kafka, des concepts clés tels que le temps d'événement et les opérations de fenêtre, et les défis du traitement des flux.

Intelligence en temps réel : défis liés aux données et évolution du matériel

Explore les défis de données et l'évolution matérielle pour l'intelligence en temps réel à l'ère du big data.

Architecture Les compromis dans un système de file d'attente à l'échelle planétaire

Explore les compromis dans un système de file d'attente à l'échelle planétaire, en soulignant l'importance de la sémantique relaxante pour gérer la complexité.

Temporalité et résolution des entités

Explore les défis dans la temporalité des données et les techniques de résolution des entités.

Techniques de résolution des entités

Explore les techniques de résolution d'entités, la déduplication des données, les métriques de similitude, le coût de calcul, les techniques de blocage et l'échelle des jointures de similarité.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

Formats de données et brouillage de données avec Hadoop

Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.

Traitement du flux de données : Apache Kafka et Spark

Couvre le traitement de flux de données avec Apache Kafka et Spark, y compris le temps d'événement vs le temps de traitement, les opérations de traitement de flux, et les jointures de flux.

L'échange de données: Structurer et nettoyer les données

Explore les techniques de manipulation des données, la détection des erreurs, les dépendances fonctionnelles, les contraintes de déni et la temporalité des données.

Techniques de gestion des données : HBase et Hive Integration

Couvre les techniques de querelles de données utilisant HBase et Hive, en se concentrant sur l'intégration et les applications pratiques.

Emerging Memory II

Explore les défis liés aux hiérarchies de mémoire, aux espaces d'adressage à l'échelle de la TB et optimise les performances grâce au traitement quasi-mémoire.