Introduit le cours d'analyse des données appliquées à l'EPFL, couvrant un large éventail de sujets d'analyse des données et mettant l'accent sur l'apprentissage continu en sciences des données.
Couvre les meilleures pratiques et les lignes directrices pour les mégadonnées, y compris les lacs de données, l'architecture, les défis et les technologies comme Hadoop et Hive.
Détails d'un projet de stage axé sur l'amélioration de la précision de la génération de code en utilisant de grands modèles de langage et un nouveau cadre appelé EPIGEN.
Explore les données sur la consommation d'eau à Genève, y compris les graphiques sur la consommation et les pertes, les ensembles de données disponibles et les phases de traitement des données.
Introduit les principes fondamentaux du traitement des données, soulignant l'importance des Pandas et de la modélisation des données pour une analyse efficace.
Examine les défis que posent les hypothèses de données, les biais et d'autres aspects de la recherche, y compris les écritures incomplètes et les frustrations des nouveaux arrivants.
Explore les mécanismes de synchronisation évolutive pour de nombreux systèmes d'exploitation de base, en mettant l'accent sur les défis de la gestion de la croissance des données et des régressions dans le système d'exploitation.
Explore l'évolution de l'analyse des données à l'IA et au ML, en mettant l'accent sur les mégadonnées, l'apprentissage automatique et l'interaction avec les médias sociaux.
Déplacez-vous dans le « virage numérique » de l'histoire, en examinant la recherche historique à l'aide de journaux numérisés et en explorant la réutilisation du texte, l'intégration des mots et la visualisation des données.
Discute des techniques avancées d'optimisation Spark pour gérer efficacement les Big Data, en se concentrant sur la parallélisation, les opérations de mélange et la gestion de la mémoire.
Introduit LabVIEW pour le traitement et la visualisation des données, couvrant des sujets tels que la synchronisation des formes d'onde et les tables de recherche couleur.
Explore l'importance de la synchronisation sans verrouillage pour obtenir une faible latence dans les systèmes distribués et discute des solutions pratiques pour la génération d'identificateurs uniques et les files d'attente de messagerie.
Présentation d'Apache Spark, couvrant son architecture, ses RDD, ses transformations, ses actions, sa tolérance aux pannes, ses options de déploiement et ses exercices pratiques dans les blocs-notes Jupyter.
Explore les possibilités de transformation numérique, les mégadonnées, l'analyse et les innovations technologiques dans le domaine des affaires et de la recherche.