Big Data – Gestion de référentiels de données
Code stage
BIGDATAREF01
Durée
14 heures | 2 jours
Certification
non
Objectifs pédagogiques
- Développer des applications de Machine Learning et d’IA (Intelligence Artificielle) avec Spark et Python
- Utiliser la programmation parallèle sur un cluster
- Développer et optimiser des algorithmes standards de Machine Learning et d’IA
- Utiliser les bibliothèques Python pour le Machine Learning et d’IA
- Décrire le cycle de vie d’un projet Data Science
Niveau requis
Avoir des connaissances générales en architecture SI.
Public concerné
Architectes SI, chefs de projets, Data Stewards et/ou Data Governors.
Programme
Introduction
- Présentation du cours
- Concepts et glossaire des données de référence
- Rappel sur l’architecture des référentiels SI
- Les données de référence
- Définition des données de référence (Master Data)
- Types et nature des données de référence
- Les principaux référentiels du SI
- Architecture applicative d’un référentiel
- Master Data Management (MDM)
Définition du MDM
- Qu’est-ce que le MDM ?
- Les sources de MDM
- Les conséquences d’un MDM faible
- Pourquoi le MDM est-il difficile ?
- Les différents types de MDM
- Aperçu du marché des solutions de MDM
- Les données ambiguës
- L’importance de connaître les données ambiguës
Les risques de l’engagement « Business »
- Les « Business Cases » faibles
- Excès d’ambitions
- L’ignorance de la qualité des données
- MDM n’est pas une cible mais un process
- Architecture et technologie
- Architectures MDM
- Vue simpliste du scope MDM
- MDM dans les entreprises multinationales
Les styles de MDM
- Opérationnel vs analyse MDM
- Chevauchement de styles
- Le taux de succès
- La question de fédération
- La fédération en pratique
- La gouvernance des données
Rôle de la gouvernance
- Aspects de la gouvernance de données
- Cycle de vie de la donnée
- Niveau d’intérêt dans la gouvernance de données
- Organisation de la gouvernance de données
- Zones de mise en valeur
- Le coût de la faible qualité des données
- Data gouvernance (comité et staff)
- Les 5 niveaux de maturité
- Les principaux drivers pour la gouvernance de données
- La qualité des données
- La qualité des données et le MDM
- Les dimensions de la qualité des données
- L’utilité de la qualité des données
- Les technologies utilisées dans la qualité des données
- La perception des éditeurs dans la qualité des données
Le contenu de ce programme peut faire l’objet d’adaptation selon les niveaux, prérequis et besoins des apprenants.