Séance de cours

L'essentiel de la science des données : Python, Numpy, Pandas et Scikit-learn

Séances de cours associées (32)

Visualisation de la science des données avec Pandas

Couvre la manipulation et l'exploration de données à l'aide de Python en mettant l'accent sur les techniques de visualisation.

Introduction générale à la science des données

Offre une introduction complète à la science des données, couvrant Python, Numpy, Pandas, Matplotlib et Scikit-learn, en mettant l'accent sur les exercices pratiques et le travail collaboratif.

Introduction à la science des données

Introduit les bases de la science des données, couvrant les arbres de décision, les progrès de l'apprentissage automatique et l'apprentissage par renforcement profond.

Classification de l'arbre de décision

Couvre la classification de l'arbre de décision à l'aide de KNIME Analytics Platform pour le prétraitement des données et la création de modèles.

Études de données critiques: Reproductibilité et Renku

Explore l'importance de la reproductibilité dans la science des données et présente Renku, une plate-forme pour la gestion de projets axés sur les données.

Introduction générale aux données massives

Couvre les outils de science des données, Hadoop, Spark, les écosystèmes des lacs de données, le théorème CAP, le traitement par lots vs. flux, HDFS, Hive, Parquet, ORC, et l'architecture MapReduce.

L'échange de données avec Hadoop

Couvre les techniques de manipulation des données à l'aide de Hadoop, en se concentrant sur les bases de données axées sur les lignes et les colonnes, les formats de stockage populaires et l'intégration HBase-Hive.

Data Wrangling avec Hadoop : formats de stockage et ruche

Explore les querelles de données avec Hadoop, en mettant l'accent sur les formats de stockage et Hive pour le traitement des données volumineuses.

Éléments de la collaboration dans le domaine de la science des données

Présente des outils collaboratifs de science des données comme les carnets Jupyter, Docker et Git, mettant l'accent sur la version des données et la conteneurisation.

Renku : Science collaborative des données

Renku est une plate-forme pour la science des données collaborative permettant la reproductibilité et la promotion de la réutilisation du code et des données.

La collaboration dans le domaine de la science des données

Couvre les outils collaboratifs de science des données, les concepts de big data, Spark, et le traitement du flux de données, avec des conseils pour le projet final.

Analyse des données au repos et des données en mouvement

Explore la combinaison de données au repos avec des données en mouvement, en mettant l'accent sur les complexités de l'architecture Lambda et l'évaluation de la qualité des flux et des lots.

Agent Gitlab pour Kubernetes (agentk)

Couvre la configuration d'un agent Gitlab pour Kubernetes, en mettant l'accent sur l'installation, le contrôle de version et le dépannage.

Listes de Python : Manipulation et Compréhension

Couvre la manipulation et la compréhension de la liste Python, mettant l'accent sur la représentation de la mémoire et la mutabilité.

Régression logistique : Fondements et applications

Explore les fondamentaux de régression logistique, y compris les fonctions de coût, la régularisation et les limites de classification, avec des exemples pratiques utilisant scikit-learn.

Science collaborative des données : outils et techniques

Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.

Data Wrangling avec Hive : gérer efficacement le Big Data

Couvre les techniques de querelles de données en utilisant Apache Hive pour une gestion efficace des big data.

Arbres de décision: Classification

Explore les arbres de décision pour la classification, l'entropie, le gain d'information, l'encodage à chaud, l'optimisation de l'hyperparamètre et les forêts aléatoires.

Structures et mécanismes : ouvrir une boîte

Explore l'analyse des structures et des mécanismes à travers un problème d'échantillon d'ouverture d'une boîte avec un couvercle à cordes.

Fonctions avancées des pandas

Se concentre sur les fonctions avancées de pandas pour la manipulation, l'exploration et la visualisation des données avec Python, en soulignant l'importance de la compréhension et de la préparation des données.