Séance de cours

Sans titre

Séances de cours associées (32)

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Introduction à la science des données

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Cadres de données Spark

Couvre les cadres de données Spark, les collections distribuées de données organisées en colonnes nommées, et les avantages de les utiliser sur les DDR.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Classification de l'arbre de décision

Couvre la classification de l'arbre de décision à l'aide de KNIME Analytics Platform pour le prétraitement des données et la création de modèles.

Structures et mécanismes : ouvrir une boîte

Explore l'analyse des structures et des mécanismes à travers un problème d'échantillon d'ouverture d'une boîte avec un couvercle à cordes.

Optimisation avancée de l'étincelle

Déplacez-vous dans les techniques avancées d'optimisation Spark, en mettant l'accent sur la partition des données, les opérations de shuffle et la gestion de la mémoire.

Fonctions avancées des pandas

Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.

Listes de Python : Manipulation et Compréhension

Couvre la manipulation et la compréhension de la liste Python, mettant l'accent sur la représentation de la mémoire et la mutabilité.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Spark DataFrames : bases et optimisation

Couvre les bases de Spark DataFrames, leurs avantages, la comparaison des performances avec les RDD et les démonstrations pratiques.

Séance de balayage de pierre 3D

Introduit un système de mesure 3D « professionnel » pour l'analyse des pierres et l'extraction des caractéristiques à l'aide de la photogrammétrie stéréo et des technologies de lumière structurée.

Représentation des connaissances : sémantique et structures de données

Explore la représentation des connaissances, les structures de données, la sémantique et les défis de la recherche de données sur le Web.

Techniques avancées d'optimisation des sparks : gestion du Big Data

Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.

Introduction au traitement du flux de données

Couvre les bases du traitement des flux de données, y compris des outils comme Apache Storm et Kafka, des concepts clés tels que le temps d'événement et les opérations de fenêtre, et les défis du traitement des flux.