Hadoop – HBase, mise en œuvre et administration
Code stage
HADOOPADM01
Durée
14 heures | 2 jours
Certification
non
Objectifs pédagogiques
- Appréhender l’écosystème Hadoop
- Comprendre l’architecture et le fonctionnement de HBase
- Identifier les apports d’HBase en termes de stockage distribué des données
- Mener à bien l’installation du système
- Savoir mettre en place une configuration distribuée
Niveau requis
Avoir des connaissances des principes de base Hadoop et des bases de données.
Public concerné
Chefs de projet, administrateurs
Programme
Présentation de l’écosystème d’Hadoop
L’architecture Hadoop.
Description des principaux composants de la plateforme Hadoop.
Rappels MapReduce.
Le système de fichiers distribué HDFS (Hadoop Distributed File System) d’Hadoop.
Présentation de HBase, ses apports, lien avec HDFS.
Format des données dans HBase.
Fonctionnalités : failover automatique, sharding, interface avec des jobs MapReduce.
Echanges
Le stockage distribué de données et les apports d’HBase.
Architecture HBase
Terminologie de HBase : table, région, ligne, famille de colonnes, cellules, espace de nommage…
Les 3 composants principaux : HMaster, Region Server, Zookeeper.
Rôle de Zookeeper.
Le schéma des données. Les différents scénarios de schémas.
Installation
Installation et configuration dans le fichier conf/hbase-site.xml.
Installation en mode distribué.
Gestion des connexions avec hbase shell.
Travaux pratiques
Installation, configuration, test de connexion et interrogations depuis le serveur http intégré.
Base utilisation : Shell
Les différentes interfaces disponibles.
Commandes de base, syntaxe, variables, manipulation des données : create, list, put, scan, get.
Programmation de scripts.
Activer/désactiver une table, effacer une table : enable/disable, drop…
Principe des filtres. Mise en œuvre de filtres de recherche.
Paramètres des tables.
Les espaces de nommage.
Travaux pratiques
Ecriture de scripts Hase Schell.
Cluster HBase
Rappels : préparation et configuration du cluster Hadoop, principe de fonctionnement de HDFS.
Fonctionnement en mode distribué.
Fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper).
Mise en œuvre avec HDFS dans un environnement distribué.
Travaux pratiques
Mise en œuvre des splits dans des tables réparties.
Développement
Les APIs (REST, Avro, Thrift, Java, Ruby, Spark, …).
La surveillance des applications.
Exemple de programmation d’un client.
Gestion des tables.
Map/reduce.
Démonstration
Détail de programmes et lancement
Modalités pratiques
Ce cours, interactif, s’appuie sur de nombreux exercices et travaux pratiques
Modalités d’évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.