loader image

Hadoop – HBase, mise en œuvre et administration

Code stage

HADOOPADM01

Durée

14 heures | 2 jours

Z

Certification

non

Objectifs pédagogiques

  • Appréhender l’écosystème Hadoop
  • Comprendre l’architecture et le fonctionnement de HBase
  • Identifier les apports d’HBase en termes de stockage distribué des données
  • Mener à bien l’installation du système
  • Savoir mettre en place une configuration distribuée

Niveau requis

Avoir des connaissances des principes de base Hadoop et des bases de données.

Public concerné

Chefs de projet, administrateurs

Programme

Présentation de l’écosystème d’Hadoop
L’architecture Hadoop.
Description des principaux composants de la plateforme Hadoop.
Rappels MapReduce.
Le système de fichiers distribué HDFS (Hadoop Distributed File System) d’Hadoop.
Présentation de HBase, ses apports, lien avec HDFS.
Format des données dans HBase.
Fonctionnalités : failover automatique, sharding, interface avec des jobs MapReduce.
Echanges
Le stockage distribué de données et les apports d’HBase.

Architecture HBase
Terminologie de HBase : table, région, ligne, famille de colonnes, cellules, espace de nommage…
Les 3 composants principaux : HMaster, Region Server, Zookeeper.
Rôle de Zookeeper.
Le schéma des données. Les différents scénarios de schémas.

Installation
Installation et configuration dans le fichier conf/hbase-site.xml.
Installation en mode distribué.
Gestion des connexions avec hbase shell.
Travaux pratiques
Installation, configuration, test de connexion et interrogations depuis le serveur http intégré.

Base utilisation : Shell
Les différentes interfaces disponibles.
Commandes de base, syntaxe, variables, manipulation des données : create, list, put, scan, get.
Programmation de scripts.
Activer/désactiver une table, effacer une table : enable/disable, drop…
Principe des filtres. Mise en œuvre de filtres de recherche.
Paramètres des tables.
Les espaces de nommage.
Travaux pratiques
Ecriture de scripts Hase Schell.

Cluster HBase
Rappels : préparation et configuration du cluster Hadoop, principe de fonctionnement de HDFS.
Fonctionnement en mode distribué.
Fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper).
Mise en œuvre avec HDFS dans un environnement distribué.
Travaux pratiques
Mise en œuvre des splits dans des tables réparties.

Développement
Les APIs (REST, Avro, Thrift, Java, Ruby, Spark, …).
La surveillance des applications.
Exemple de programmation d’un client.
Gestion des tables.
Map/reduce.
Démonstration
Détail de programmes et lancement

Modalités pratiques
Ce cours, interactif, s’appuie sur de nombreux exercices et travaux pratiques

Modalités d’évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.