Cours

COM-490: Large-scale data science for real-world data

Séances de ce cours (41)

Introduction à l'architecture d'exécution Spark

Présente Apache Spark, qui couvre ses principales caractéristiques, son histoire, ses RDD, son architecture et son framework informatique distribué.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Introduction au traitement du flux de données

Couvre les bases du traitement des flux de données, y compris des outils comme Apache Storm et Kafka, des concepts clés tels que le temps d'événement et les opérations de fenêtre, et les défis du traitement des flux.

Data Wrangling avec Hadoop : Techniques avancées

Couvre les techniques avancées de disputes de données à l'aide d'Hadoop, en se concentrant sur l'intégration de Hive et HBase.

Introduction à l'architecture Spark Runtime

Couvre l'architecture d'exécution Spark, y compris les RDD, les transformations, les actions et la mise en cache pour l'optimisation des performances.

Cadres de données Spark: Vue d'ensemble et analyse des performances

Couvre Spark Data Frames, leurs avantages de performance, Catalyst Optimizer, l'intégration de PySpark et l'analyse de corpus de Gutenberg.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Concepts avancés de traitement du flux de données

Explore les concepts avancés de traitement de flux de données, y compris Kafka, Spark stream, jointures et modèles de planification d'itinéraire.

Sans titre

Spark avancé: partitionnement et optimisation

Explore les sujets avancés de Spark comme les stratégies de partitionnement, l'optimisation de la mémoire et les opérations de shuffle pour une exécution efficace des tâches.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Sans titre

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Éléments de la collaboration dans le domaine de la science des données

Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.

Introduction au traitement du flux de données

Couvre les fondamentaux du traitement des flux de données, y compris les informations en temps réel, les applications de l'industrie, et les exercices pratiques sur Kafka et Spark Streaming.

Concepts avancés de traitement du flux de données

Explore le temps de l'événement par rapport au temps de traitement, les opérations de traitement de flux, les jointures de flux et le traitement des données en retard ou hors-commande dans le traitement de flux de données.

L'essentiel de la science des données : Python, Numpy, Pandas et Scikit-learn

Couvre l'essentiel de Data Science en utilisant Python, Numpy, Pandas et Scikit-learn, y compris l'analyse et la classification des séquences d'ADN.

Introduction au traitement des flux de données: concepts et applications

Couvre les principes du traitement des flux de données et de ses applications dans l'analyse de données en temps réel.

Introduction au traitement des flux de données: concepts et applications

Couvre les concepts de traitement de flux de données, en se concentrant sur l'intégration Apache Kafka et Spark Streaming, la gestion du temps des événements et les directives de mise en œuvre du projet.