Hadoop Cloudera développeur, préparation à la certification (CCA175)
Code stage
HADOOPDEV01
Durée
28 heures | 4 jours
Certification
oui
Objectifs pédagogiques
- Découvrir l’écosystème Hadoop
- Comprendre le système de fichiers distribué HDFS et maitriser le traitement MapReduce et l’écriture de code
- Connaître les bonnes pratiques de développement et d’implémentation des algorithmes courants
- Optimiser les configurations et améliorer les performances
- Utiliser Hive, Pig, Flume, Mahout et Sqoop pour les projets de l’écosystème Hadoop
- Préparer la certification Cloudera
Niveau requis
Connaissances de base dans un langage de programmation objet.
Public concerné
Chefs de projets, développeurs, data scientists, et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l'environnement Hadoop.
Programme
Hadoop, HDFS et traitement distribué sur un cluster Hadoop
Introduction générale à Hadoop et à son écosystème.
Traitement de données.
HDFS : le système de fichiers Hadoop.
Les composants d’un cluster hadoop.
L’architecture d’HDFS. Utiliser HDFS.
L’architecture de YARN et travailler avec YARN.
Les bases de Spark
Introduction à Spark.
Démarrer et utiliser la console Spark.
Introduction aux Datasets et DataFrames Spark.
Les opérations sur les DataFrames.
Manipulation des dataframes, des schémas, analyse des données avec requête
Créer des DataFrames depuis diverses sources de données.
Sauvegarder des DataFrames. Les schémas des DataFrames.
Exécution gloutonne et paresseuse de Spark.
Requêter des DataFrames avec des expressions sur les colonnes nommées.
Les requêtes de groupement et d’agrégation.
Les jointures.
Les RDD et requêtage de tables et de vues avec Spark SQL
Structure fondamentale de Spark.
Transformer les données avec des RDD.
Agrégation des données avec les RDD de paires.
Requêter des tables en Spark en utilisant SQL.
Requêter des fichiers et des vues.
L’API catalogue de Spark.
Travailler avec Spark
Travailler avec les Datasets Spark en Scala. Les différences entre Datasets et DataFrames.
Créer, charger et sauvegarder des Datasets. Les opérations sur les Datasets.
Écrire, configurer et lancer des applications Spark.
Écrire une application Spark. Compiler et lancer une application. Le mode de déploiement d’une application.
L’interface utilisateur web des applications Spark. Configurer les propriétés d’une application.
Le traitement distribué avec Spark. Rappels sur les fonctionnements de Spark avec YARN.
Le partitionnement des données dans les RDD, dans les requêtes, jobs, étapes et tâches.
Persistance de la donnée distribuée
La persistance des DataFrames et des Datasets.
Les niveaux de persistances.
Les RDD persistés
Les algorithmes itératifs avec Spark et introduction à Spark streaming
D’autres cas d’usages courants de Spark.
Les algorithmes itératifs en Spark. Machine learning avec Spark.
Introduction à Spark streaming. Créer des streaming DataFrames.
Transformer des DataFrames. Exécuter des requêtes de streaming.
Structured streaming avec Kafka et opérations sur des streaming Dataframes
Introduction. Recevoir et envoyer des messages Kafka.
Agrégation et jointure sur des streaming DataFrames.
Certification
À la suite de la formation, il sera possible de passer l’examen « Cloudera Certified Associate Spark and Hadoop Developer (CCA175) ». Cet examen se déroule en dehors du temps de la formation. L’objectif est de devenir expert certifié Cloudera dans son entreprise. Inscriptions sur www.examslocal.com.