Présente la structure du cours et les concepts fondamentaux de l'apprentissage automatique, y compris l'apprentissage supervisé et la régression linéaire.
Couvre l'introduction et les défis des entrepôts de données, y compris l'intégration des données, la gestion des métadonnées et l'optimisation des performances des requêtes.
Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.
Couvre l'analyse des données sur la pollution atmosphérique, en se concentrant sur les bases de R, en visualisant des séries chronologiques et en créant des résumés des concentrations de polluants.
Introduit le cours sur les systèmes d'information, couvrant sa structure, ses objectifs et ses concepts fondamentaux essentiels à la compréhension de la gestion des données et de la prise de décision.
Introduit des outils collaboratifs de science des données comme Git et Docker, en mettant l'accent sur le travail d'équipe et les exercices pratiques pour un apprentissage efficace.
Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.
Explore l'extraction de texte de données à longue queue dans les neurosciences et la connectivité cérébrale, y compris la reconnaissance d'entités nommées, l'extraction de la concentration de protéines et la comparaison des matrices de connectivité.