Séance de cours

Manipulation des données : modèles de données et embrouillement

Séances de cours associées (32)

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Fondamentaux de la science des données

Couvre les principes fondamentaux de la science des données, l'évolution des méthodes scientifiques, le rôle d'un data scientist et l'importance des données en tant que nouveau pétrole.

Big Data: Traitement et dimensions

Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.

Cadres de données Spark

Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.

Science collaborative des données : outils et techniques

Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.

Gestion des données : problèmes et distributions

Couvre les problèmes de données courants et les distributions importantes, ainsi que l'analyse des corrélations et des dépendances.

L'essentiel de la science des données

Couvre l'essentiel de la science des données, y compris le traitement, la visualisation et l'analyse des données, en mettant l'accent sur les compétences pratiques et l'engagement actif.

Gêne de données: Transformer les données pour l'analyse

Couvre le processus de collecte de données, en mettant l'accent sur la transformation et la préparation des données pour l'analyse.

Introduction aux systèmes de bases de données

Couvre les fondements des systèmes de base de données, y compris la modélisation des données, le traitement de l'information et les défis de la gestion d'importants volumes de données.

Systèmes d'information distribués : aperçu et modèles

Couvre les systèmes d'information distribués, les tâches clés, les méthodes, les projets, l'évaluation et le soutien aux examens.

Formats de données et brouillage de données avec Hadoop

Explore Apache Hive pour l'entreposage de données, les formats de données et la partition, avec des exercices pratiques dans la requête et la connexion à Hive.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.