Accueil > Big Data, IA > Hadoop : présentation de l’écosystème
Formation #BSI24

Formation Hadoop : présentation de l’écosystème

Durée : 3 jours

Code : BSI24


Prochaines dates programmées :

Du 29 au 31 Mai 2024

Du 03 au 05 Juil. 2024

Du 04 au 06 Sept. 2024

Du 27 au 29 Nov. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Apprendre à élaborer une architecture Hadoop
  • Connaître les différents éléments de l'écosystème Hadoop et leurs rôles respectifs
  • Configurer et superviser les services
  • Identifier et manipuler les outils de développement et de supervision Hadoop
  • Exploiter et orchestrer les développements
Programme
1/ Introduction à l'écosystème Hadoop
  • Rappels sur NoSQL
  • Le théorème CAP
  • Historique du projet Hadoop
  • Fonctionnalités : stockage, outils d'extraction, de conversion, ETL, analyse, ...
  • Exemples de cas d'utilisation sur des grands projets
  • Les principaux composants : HDFS pour le stockage et YARN pour les calculs
  • Les distributions et leurs caractéristiques (HortonWorks, Cloudera, MapR, EMR, Apache, ...)
2/ De projet et les modules
  • Hadoop Common, HDFS, YARN, MapReduce Oozie, Pig, Hive, HBase
  • Les fonctionnalités du framework Hadoop
  • Les différentes versions
  • Les principales distributions et leurs spécificités : Apache, Cloudera, Hortonworks, EMR, MapR
  • Architecture et principe de fonctionnement
  • Terminologie : NameNode, DataNode, ResourceManager, NodeManager
  • Rôle des différents composants
  • Présentation des outils d'infrastructure : ambari, avro, zookeeper
  • Présentation des outils d'interfaçage avec les applications GIS
  • Présentation des outils de restitution et requêtage : webhdfs, hive, hawq, impala, drill, stinger, tajo, mahout, lucene, elasticSearch, Kibana
  • Les architectures connexes : spark, cassandra
3/ Administration Hadoop
  • Etude des fichiers de configuration core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
  • Gestion des utilisateurs pour les daemons hdfs et yarn
  • Droits d'accès sur les exécutables et répertoires
  • Architecture et gestion des services généraux Hadoop des utilisateurs pour les daemons hdfs et yarn
  • HDFS
  • YARN
  • MapReduce
  • HBase
  • Monitoring du cluster Hadoop
  • Suivi de charges
  • Journaux (jConsole)
  • Gestion des nœuds
  • Accès JMX
  • Mise en œuvre d'un client JMX
  • Administration HDFS
  • Stockage des fichiers : fsck, dfsadmin
  • Gestion centralisée de caches avec Cacheadmin
  • Sécurité
  • Activation de la sécurité avec Kerberos dans core-site.xml, et hdfs-site.xml pour les NameNode et DataNode
  • Gestion de la sécurité avec Apache Sentry
  • Exploitation
  • Supervision des éléments par le NodeManager
  • Monitoring graphique avec Ambari, Kibana, Cloudera Manager
  • Visualisation des alertes en cas d'indisponibilité d'un nœud
  • Configuration des logs avec log4j
4/ Développement Hadoop
  • HDFS
  • Architecture
  • Commandes SHELL
  • MapReduce
  • Architecture de MapReduce
  • Exécuter un code MapReduce
  • Hue
  • Introduction
  • Fonctionnalités et utilisation
  • HBase
  • Architecture
  • Commandes SHELL de création et d'interrogation de données
  • Hive
  • Architecture
  • Création de bases de données, tables, vues
  • Requêtes grâce au HiveSQL
  • Manipulations de fonctions définies par l’utilisateur (UDF)
  • Gestion des droits utilisateurs
  • Exploration de l’outil Apache Pig
  • Introduction à Pig
  • Caractéristiques du langage : latin
  • Installation / lancement
  • Ecriture d'un script Pig
  • Les fonctions de bases
  • Ajouts de fonctions personnalisées
  • Les UDF
  • Mise en oeuvre
  • Communication entre Pig et Hive
  • Sqoop
  • Introduction
  • Usages
  • Méthodes d'utilisation
  • Import et export des données
  • Oozie
  • Comment planifier ses travaux
  • Utilisation de workflows, coordinateurs, bundles
5/ Applications
  • Cas d'usages de Hadoop
  • Calculs distribués sur des clusters Hadoop
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Chefs de projets
  • Développeurs
  • Toute personne souhaitant comprendre les mécanismes Hadoop et le rôle de chaque composant
Dates

Dates

  • Du 29 au 31 Mai 2024
  • Du 03 au 05 Juil. 2024
  • Du 04 au 06 Sept. 2024
  • Du 27 au 29 Nov. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.