Accueil > Big Data, IA > PySpark : traitement des données
Formation #BSI20

Formation PySpark : traitement des données

Durée : 4 jours

Code : BSI20


Prochaines dates programmées :

Du 28 au 31 Mai 2024

Du 09 au 12 Juil. 2024

Du 10 au 13 Sept. 2024

Du 12 au 15 Nov. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Comprendre le principe de fonctionnement de Spark
  • Utiliser l'API PySpark pour interagir avec Spark en Python
  • Utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
  • Traiter les flux de données avec Spark Streaming
  • Manipuler les données avec Spark SQL
Programme
1/ Introduction à Hadoop
  • Big Data
  • Architecture et composants de la plateforme Hadoop
  • L’architecture d’HDFS
  • Prise en main des concepts de base de l’architecture Hadoop (NameNode, DataNode, ResourceManager…)
  • YARN et MapReduce : comprendre les principes de fonctionnement
2/ Introduction à Spark
  • Présentation Spark, origine du projet
  • Apports, principe de fonctionnement (RDD, DataFrames, Data Sets)
  • Spark vs Mapreduce
  • Comparaison avec l'environnement Apache Hadoop
  • Les différents modules de Spark
  • Comment interagir avec Spark ?
  • PySpark : programmer avec Spark en Python
3/ Installation de Spark
  • Sur une infrastructure distribuée
  • En local
  • En Cloud (présentation avec Amazon AWS et Microsoft Azure)
4/ Spark pour la manipulation des données - SparkSQL
  • SparkSQL et DataFrames pour manipuler des données
  • Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON…
  • Transformer des données (création de DataFrames, ajout de colonnes, filtres…)
5/ L'utilisation de spark.ml pour le machine learning
  • Apprentissage supervisé
  • Forêts aléatoires avec Spark
  • Mise en place d'un outil de recommandation
  • Traitement de données textuelles
  • Automatiser vos analyses avec des pipelines
6/ Apache spark streaming
  • Introduction à Spark Streaming
  • La notion de "DStream"
  • Principales sources de données
  • Utilisation de l'API
  • Manipulation des données
7/ Dataframe et apache spark sql
  • Apache Spark SQL et le SQL Context
  • Création de DataFrames
  • Transformer et requêter un Dataframe
  • Dataframes et RDD
  • Comparaison entre Spark SQL, Impala et Hive On Spark
  • Chargement et stockage de données (avec Hive, JSON…)
8/ GraphX et graphframes
  • Présentation de GraphX
  • Principe de création des graphes
  • API GraphX
  • Présentation de GraphFrames
  • GraphX vs GraphFrames
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Statisticiens
  • Consultants Big Data
  • Data analysts
  • Data scientists
Dates

Dates

  • Du 28 au 31 Mai 2024
  • Du 09 au 12 Juil. 2024
  • Du 10 au 13 Sept. 2024
  • Du 12 au 15 Nov. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.