Big Data – Architecture et infrastructure Hadoop On-Premise et sur le Cloud
Code stage
BIGDATAARCH01
Durée
35 heures | 5 jours
Certification
non
Objectifs pédagogiques
- Exploiter les architectures Big Data Hadoop On-Premise et Cloud
- Mettre en place des socles techniques complets pour des projets Big Data.
Niveau requis
Avoir une connaissance pratique du Shell Linux, des bases du réseau, des bases de données relationnelles.
Public concerné
Administrateurs systèmes, développeurs, architectes et chefs de projets techniques, consultants en Business Intelligence.
Programme
Jour 1
- Présentation du Big Data et d’Hadoop
- Introduction au Big Data : de quoi s’agit-il ?
- Perspectives offertes par le Big Data
- Les acteurs du Big Data
- Exemples pratiques
- Démystification du Big Data
- Les technologies concernées
- Les outils Hadoop
- Les différents métiers du Big Data
- Les distributions Big Data
- Démonstration de traitements avec Hadoop
Jour 2
- Solutions Big Data avec Hadoop
- Projets, applications, plateformes
- Solutions de stockage des données
- Considérations Hardware
- Stockage
- CPU
- Mémoire
- Réseau
- Systèmes distribués
- La science et l’art de l’analyse prédictive
- Aspects économiques (OPEX, CAPEX, TRI)
Jour 3
- Architecture cluster applicative et technique avec Hadoop
- Les différentes étapes de gestion des données
- Les outils du marché
- L’ingestion
- Le stockage
- La transformation
- La restitution et la visualisation
Jour 4
- Installation et configuration d’un cluster Hadoop On-Premise et sur le Cloud Hadoop
- Installation d’une plateforme Hadoop
- Définir l’architecture
- Installation d’Hadoop / HDFS et d’autres composants
- Installation des principaux composants (Hive, Pig, Impala…)
- Configuration de l’environnement
- Etude des fichiers de configuration
- Modes de configuration (ligne de commandes, API Rest, serveur HTTP intégré, API natives)
- Configuration des services (HDFS, YARN, logs…)
- Configuration des droits d’accès
- Configuration d’un cluster hybride On-Premise / Cloud
- Configuration d’Hadoop
- Configuration de l’infrastructure Cloud
Jour 5
- Administration d’un cluster Hadoop
- Gestion des ressources (noeuds, disques, CPU, mémoire, réseau…)
- Administration de HDFS
- Administration de MapReduce
- Infrastructure physique des centres de données, serveurs, racks, réseaux
- Optimisation au niveau du cluster (HDFS, MapReduce), noeuds / OS et réseau (binding, jumbo frames)
- Planification des stratégies de sécurité et de récupération des données et de reprise sur panne