Séance de cours

Science collaborative des données : outils et techniques

Séances de cours associées (32)

Couvre la configuration d'un agent Gitlab pour Kubernetes, en mettant l'accent sur l'installation, le contrôle de version et le dépannage.

Collaborative Data Science : outils et flux de travail Git

Explore des outils tels que Git et Docker pour des projets collaboratifs de science des données.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Contrôle de version avec Git

Introduit le contrôle de version avec Git, en mettant l'accent sur la configuration du dépôt, l'engagement de changements et la collaboration.

Éléments de la collaboration dans le domaine de la science des données

Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.

Écosystèmes Big Data : technologies et défis

Couvre les fondamentaux des écosystèmes de big data, en se concentrant sur les technologies, les défis et les exercices pratiques avec le HDFS d'Hadoop.

Visite des services d'hébergement Web Legacy

Couvre une visite des anciens services d'hébergement Web et des discussions sur le stockage futur des services.

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Fonctions avancées des pandas

Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.

Data Science: Python pour les ingénieurs - Partie II

Explore les data wrangling, le traitement numérique des data, et la visualisation scientifique en utilisant Python pour les ingénieurs.

Programmation scientifique pour les ingénieurs: introduction à GIT

Couvre les bases de la programmation scientifique pour les ingénieurs, en soulignant l'importance de GIT pour le travail collaboratif et en fournissant un aperçu des défis du développement de logiciels scientifiques.

Essai de python: Introduction

Introduit Python et Git pour analyser les données d'humidité du sol dans un verger.

Introduction à Renku

Introduit Renku, une plateforme pour la science collaborative des données, mettant l'accent sur la reproductibilité, la shareability, la réutilisabilité et la sécurité.

Big Data: Meilleures pratiques et lignes directrices

Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.

Science des données pour les ingénieurs: Partie 2

Explore la manipulation, l'exploration et la visualisation de données dans des projets de science des données en utilisant Python.

Système de contrôle de version: Bases et flux de travail

Introduit les bases des systèmes de contrôle de version, en mettant l'accent sur les opérations Git et les stratégies de branchement.

La collaboration dans le domaine de la science des données

Couvre les outils collaboratifs de science des données, les concepts de big data, Spark, et le traitement du flux de données, avec des conseils pour le projet final.

Présentation de Jupyter Notebook

Présente la configuration de l'environnement, les bases Git et les fonctionnalités Jupyter Notebook avec des exemples pratiques.

Introduction à la science des données

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.