loader image

Big Data – Développement d’applications de Machine Learning et d’IA

Code stage

BIGDATADEVAPP01

Durée

35 heures | 5 jours

Z

Certification

non

Objectifs pédagogiques

  • Exploiter les architectures Big Data Hadoop On-Premise et Cloud
  • Mettre en place des socles techniques complets pour des projets Big Data

Niveau requis

Avoir des connaissances en mathématiques algébriques pour pouvoir interpréter les algorithmes à mettre en oeuvre, et connaître le langage Python (des rappels seront faits pendant la formation).

Public concerné

Toute personne souhaitant acquérir des compétences dans le développement d'applications de Machine Learning et d'IA (Intelligence Artificielle).

Programme

Jour 1

  • Vue d’ensemble du Big Data, du Machine Learning et de l’IA
  • Introduction au Big Data et à l’IA (Intelligence Artificielle) : de quoi s’agit-il ?
  • Perspectives offertes par le Big Data et l’IA
  • Les acteurs du Big Data et de l’IA
  • Exemples pratiques
  • Les technologies concernées
  • Les différents métiers
  • Aspects économiques (OPEX, CAPEX, TRI) du Cloud vs On-Premise
  • Démonstration d’applications
  • Rappels sur la Data Science
  • Les bases du langage Python
  • Modélisation des problématiques grâce à des vecteurs et matrices
  • Probabilités, statistiques, statistiques descriptives, statistiques explicatives
  • Entropie, gain d’information
  • Compromis biais-complexité
  • La malédiction de la dimension
  • Matrice de confusion
  • Gérer les valeurs manquantes MCAR / MAR / MNAR
  • Validation croisée
  • Courbe d’apprentissage
  • Fondamentaux du nettoyage des données
  • Réduction de la dimension par sélection de variables et par transformation de variables
  • Métriques de performance d’un modèle :
  • Accuracy
  • Prrécision et rappel (recall)
  • F1-score
  • AUC
  • P-valeur

Jour 2

  • Machine Learning et IA : algorithmes
  • Les concepts du Machine Learning et de l’IA
  • Les données supervisées ou non supervisées : quelles différences ?
  • Les librairies :
  • Scikit-learn
  • Tensorflow
  • PyTorch
  • Keras
  • Régression
  • Modèles linéaires
  • Classification
  • Naive Bayes
  • K-NN
  • K-Means clustering

Jour 3

  • Machine Learning et IA : algorithmes (suite)
  • DBScan
  • Arbres de décision et de régression
  • Support Vector Machines (SVM)
  • Réseaux de neurones et apprentissage profond (Deep Learning)
  • Réseaux convolutifs, réseaux récurrents

Jour 4

  • Développer avec Spark
  • Introduction à Apache Spark
  • Faire du Machine Learning avec Apache Spark MLlib
  • Traiter les données en temps réel avec Apache Spark Streaming
  • Faire des requêtes au format SQL avec Apache Spark SQL
  • Modélisation de réseaux sociaux grâce à des graphes avec Apache Spark GraphFrames
  • Démonstration du travail collaboratif avec MLFlow

Jour 5

  • Outil de visualisation des données (ou Dataviz)
  • Définition de la Dataviz
  • Les acteurs de la Dataviz
  • Principes de la Dataviz
  • Exemples d’analyse (sous forme de démo) :
  • Bibliothèques de Dataviz de Python
  • Tableau Desktop / Public
  • Microsoft Power BI
  • Introduction à MLOps et aux architectures serverless
  • Les approches DevOps et GitOps
  • Bases de la conteneurisation et de l’automatisation
  • Les architectures serverless
  • Développer et déployer des applications MLOps en production (démo)
  • Monitoring et amélioration continue des applications MLOps (démo)

Examen M2i (en option)

Prévoir l’achat de l’examen en supplément
L’examen (en français) sera passé le dernier jour, à l’issue de la formation et s’effectuera en ligne
Il s’agit d’un QCM dont la durée moyenne est d’1h30 et dont le score obtenu attestera d’un niveau de compétence
L’examen n’est pas éligible au CPF, mais permettra néanmoins de valider vos acquis
Le contenu de ce programme peut faire l’objet d’adaptation selon les niveaux, prérequis et besoins des apprenants.