loader image

Big Data – Architecture et infrastructure Hadoop On-Premise et sur le Cloud

Code stage

BIGDATAARCH01

Durée

35 heures | 5 jours

Z

Certification

non

Objectifs pédagogiques

  • Exploiter les architectures Big Data Hadoop On-Premise et Cloud
  • Mettre en place des socles techniques complets pour des projets Big Data.

Niveau requis

Avoir une connaissance pratique du Shell Linux, des bases du réseau, des bases de données relationnelles.

Public concerné

Administrateurs systèmes, développeurs, architectes et chefs de projets techniques, consultants en Business Intelligence.

Programme

Jour 1

  • Présentation du Big Data et d’Hadoop
  • Introduction au Big Data : de quoi s’agit-il ?
  • Perspectives offertes par le Big Data
  • Les acteurs du Big Data
  • Exemples pratiques
  • Démystification du Big Data
  • Les technologies concernées
  • Les outils Hadoop
  • Les différents métiers du Big Data
  • Les distributions Big Data
  • Démonstration de traitements avec Hadoop

Jour 2

  • Solutions Big Data avec Hadoop
  • Projets, applications, plateformes
  • Solutions de stockage des données
  • Considérations Hardware
  • Stockage
  • CPU
  • Mémoire
  • Réseau
  • Systèmes distribués
  • La science et l’art de l’analyse prédictive
  • Aspects économiques (OPEX, CAPEX, TRI)

Jour 3

  • Architecture cluster applicative et technique avec Hadoop
  • Les différentes étapes de gestion des données
  • Les outils du marché
  • L’ingestion
  • Le stockage
  • La transformation
  • La restitution et la visualisation

Jour 4

  • Installation et configuration d’un cluster Hadoop On-Premise et sur le Cloud Hadoop
  • Installation d’une plateforme Hadoop
  • Définir l’architecture
  • Installation d’Hadoop / HDFS et d’autres composants
  • Installation des principaux composants (Hive, Pig, Impala…)
  • Configuration de l’environnement
  • Etude des fichiers de configuration
  • Modes de configuration (ligne de commandes, API Rest, serveur HTTP intégré, API natives)
  • Configuration des services (HDFS, YARN, logs…)
  • Configuration des droits d’accès
  • Configuration d’un cluster hybride On-Premise / Cloud
  • Configuration d’Hadoop
  • Configuration de l’infrastructure Cloud

Jour 5

  • Administration d’un cluster Hadoop
  • Gestion des ressources (noeuds, disques, CPU, mémoire, réseau…)
  • Administration de HDFS
  • Administration de MapReduce
  • Infrastructure physique des centres de données, serveurs, racks, réseaux
  • Optimisation au niveau du cluster (HDFS, MapReduce), noeuds / OS et réseau (binding, jumbo frames)
  • Planification des stratégies de sécurité et de récupération des données et de reprise sur panne