Big Data – Les techniques d’analyse et de visualisation
Code stage
BIGDATATECHNIQUES01
Durée
35 heures | 5 jours
Certification
non
Objectifs pédagogiques
- Charger et analyser des données de diverses sources avec Hadoop, NiFi, Kafka et Spark
- Restituer ces données avec Kibana.
Niveau requis
Avoir des connaissances en langage Python pour l'analyse de données via Spark. Maîtriser le langage de requêtage SQL. Avoir des connaissances en ETL et en BI est un plus.
Public concerné
Data Engineers, Data Scientists, Data Analysts, ingénieurs DevOps, développeurs, architectes Big Data, chefs de projets.
Programme
Jour 1
- Vue d’ensemble du Big Data
- Introduction au Big Data : de quoi s’agit-il ?
- Perspectives offertes par le Big Data
- Les acteurs du Big Data
- Exemples pratiques
- Démystification du Big Data
- Big Data et Cloud SaaS, PaaS et FaaS
- Les différents métiers du Big Data
- Data Lakes vs Data Warehouses vs Lakehouses
- Aspects économiques :
- TCO (Total Cost of Ownership)
- Opportunity Cost (coût d’opportunité)
- ROI (retour sur investissement)
- Travaux pratiques sur Hadoop
- Aspects réglementaires (RGPD) et éthiques
- Architecture Hadoop
- Les outils de stockage
- Les exigences de stockage
- Le théorème de CAP
- Le NoSQL
- L’écosystème Hadoop
- HDFS
- MapReduce
- Tez
- Les outils d’ingestion et d’analyse de données
- Spark
Jour 2
- Les outils d’ingestion et d’analyse de données (suite)
- Pig
- Hive
- Impala
- La mise en qualité
- Le stockage de données
- Exemple de travaux pratiques (à titre indicatif)
- Création d’un pipeline simple sur Hadoop
- Fondamentaux du Data Engineering
- Définition du Data Engineering
- Cycle de vie et workflow du Data Engineering
- Technologies du Data Engineering
- Evolution du métier de Data Engineer
- Compétences, activités et responsabilités du Data Engineer : Type A vs Type B
- Le Data Engineer au sein d’une Data Team
- Parties prenantes : producteurs upstream, consommateurs downstream
- Data Maturity d’une organisation
- Data Engineering, Agilité, DevOps et DataOps
- Gouvernance et qualité des données
- Nouvelles tendances du Data Engineering: Lakehouse, orchestration, Pipelines as Code
Exemple de travaux pratiques (à titre indicatif)
Mise en pratique par des études de cas
Jour 3
- NiFi
- Ingestion des données avec NiFi
- Différence entre données froides et données chaudes
- Présentation des outils et technologies du Big Data
- Installation et configuration de NiFi
- Vue d’ensemble de l’architecture NiFi
- Approches de développement
- Outils de développement d’applications et état d’esprit
- Extraction, transformation et chargement (ETL) des outils et de la mentalité
- Exemple de travaux pratiques (à titre indicatif)
- Mise en oeuvre de NiFi
- Visualisation des données avec Kibana
- Préparer les données pour Elasticsearch
- Construire un tableau de bord Kibana
- Créer des visualisations
Exemple de travaux pratiques (à titre indicatif)
Ingestion de données avec NiFi
Jour 4
- Streaming des données avec Kafka
- Comprendre comment Kafka utilise des logs
- Les « Topics »
- Les producteurs Kafka
- Les « Brokers »
- Les consommateurs Kafka
- Différences entre traitement batch et traitement en streaming
Exemples de travaux pratiques (à titre indicatif)
Construire et tester un cluster Kafka et Zookeeper
Jour 5
- Traitement des données avec Spark
- Introduction à Apache Spark
- Architecture de Spark
- Apache Spark MLlib
- Apache Spark Streaming
- Apache Spark SQL
- Apache Spark GraphX
Exemple de travaux pratiques (à titre indicatif)
Construire un pipeline en temps réel avec Kafka et Spark