Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.
Introduit les bases de l'apprentissage automatique, couvrant l'apprentissage supervisé et non supervisé, la régression linéaire et la compréhension des données.
Explore les défis du big data, les caractéristiques, les techniques de dégroupage et les stratégies de gestion des défaillances dans le traitement et la gestion des données.
Examine les défis que posent les hypothèses de données, les biais et d'autres aspects de la recherche, y compris les écritures incomplètes et les frustrations des nouveaux arrivants.
Plonge dans les humanités numériques, en se concentrant sur la définition des grands ensembles de données culturelles et les différentes dimensions de la bigness des données.
Explore les possibilités de transformation numérique, les mégadonnées, l'analyse et les innovations technologiques dans le domaine des affaires et de la recherche.
Couvre les principes fondamentaux de la science des données, l'évolution des méthodes scientifiques, le rôle d'un data scientist et l'importance des données en tant que nouveau pétrole.
Explore la production, le stockage, le traitement et les dimensions de Big Data, ainsi que les défis en matière d'analyse de données, d'élasticité de l'informatique en nuage et de sécurité.
Couvre l'intégration du stockage de données évolutives et de la carte réduisent le traitement à l'aide de Hadoop, y compris HDFS, Hive, Parquet, ORC, Spark et HBase.