Séance de cours

La collaboration dans le domaine de la science des données

Séances de cours associées (32)

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Introduction à la science des données

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Agent Gitlab pour Kubernetes (agentk)

Couvre la configuration d'un agent Gitlab pour Kubernetes, en mettant l'accent sur l'installation, le contrôle de version et le dépannage.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

Science collaborative des données : outils et techniques

Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.

Éléments de la collaboration dans le domaine de la science des données

Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Classification de l'arbre de décision

Couvre la classification de l'arbre de décision à l'aide de KNIME Analytics Platform pour le prétraitement des données et la création de modèles.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Études de données critiques: Reproductibilité et Renku

Explore l'importance de la reproductibilité dans la science des données et présente Renku, une plate-forme pour la gestion de projets axés sur les données.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.

L'essentiel de la science des données : Python, Numpy, Pandas et Scikit-learn

Couvre l'essentiel de Data Science en utilisant Python, Numpy, Pandas et Scikit-learn, y compris l'analyse et la classification des séquences d'ADN.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Visite des services d'hébergement Web Legacy

Couvre une visite des anciens services d'hébergement Web et des discussions sur le stockage futur des services.

Collaborative Data Science : outils et flux de travail Git

Explore des outils tels que Git et Docker pour des projets collaboratifs de science des données.

HTTPie : Client HTTP en ligne de commande

Couvre des sujets DevOps tels que l'hébergement, le DNS, le déploiement d'OS, les applications, SSL et l'utilitaire Httpie.

Contrôle de version avec Git

Introduit le contrôle de version avec Git, en mettant l'accent sur la configuration du dépôt, l'engagement de changements et la collaboration.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.