Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)
Comprendre les spécificités propres aux projets Big Data
Présentation du Cloud Computing
Clouds publics et privés
Les architectures Big Data à base du projet Hadoop
2/ Collecte de données et application de MapReduce
Analyse des flux de données dans l'entreprise
Données structurées et non structurées
Principe et objectifs du modèle de programmation MapReduce
La granularité de cohérence des données
Principe et objectifs du modèle de programmation MapReduce
Fonctions "map" et "reduce"
Couples (clés, valeurs)
Implémentation par le framework Hadoop
Etude de la collection d'exemples
3/ MapReduce / Yarn: principe et développement java
Le paradigme MapReduce et l’utilisation à travers Yarn
Implémentation de problématiques réelles avec le paradigme MapReduce
Implémentation de problématiques plus complexes
Utilisation des combinateurs et partitionners
Les bonnes pratiques pour le développement des applications MapReduce
Rédaction d'un premier programme et exécution avec Hadoop
4/ Programmation
Configuration des jobs
Notion de configuration
Les interfaces principales : Mapper, Reducer
La chaîne de production
Entrées
Input splits
Mapper
Combiner
Shuffle / sort
Reducer
Sortie
Partitioner
OutputCollector
Codecs
Compresseurs
Format des entrées et sorties d'un job MapReduce
InputFormat
OutputFormat
Type personnalisé : création d'un Writable spécifique
Utilisation
Contraintes
5/ Outils complémentaires
Introduction à Spring et Spring Data
Le namespace Hadoop pour Spring
Utiliser Spring pour simplifier la configuration Hadoop
Mise en oeuvre du cache distribué
Paramétrage d'un job : ToolRunner, transmission de propriétés
Accès à des systèmes externes : S3, hdfs, har, ...
6/ Streaming
Définition du streaming map/reduce
Création d'un job map/reduce en python
Répartition sur la ferme
Avantage et inconvénients
Liaisons avec des systèmes externes
Introduction au pont HadoopR
7/ PIG
Pattern et best practices MapReduce
Introduction à Pig
Caractéristiques du langage : latin
Installation / lancement
Ecriture d'un script Pig
Les fonctions de bases
Ajouts de fonctions personnalisées
Les UDF
Mise en oeuvre
8/ HIVE
Simplification du requêtage
Syntaxe de base
Création de tables
Ecriture de requêtes
Comparaison Pig / Hive
9/ Le stockage des données sur HDFS
Patterns d'usages et application au Cloud
Architecture et installation d'un système HDFS, journal, NameNode, DataNode
Opérations, commandes et gestion des commandes
L'API HDFS Java
Analyse de données avec Apache Pig
Le langage Pig Latin
Utiliser Apache Pig avec Java
Requêtage avec Apache Hive
Réplication de données
Partage de données sur une architecture HDFS
10/ Sécurité en environnement Hadoop
Configuration des ACLs
Gestion de l’authentification
Approche Pédagogique
Approche Pédagogique
Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
Cas pratiques
Remise d’outils
Echanges d’expériences
Public cible
Public cible
Concepteurs
Développeurs
Dates
Dates
Du 20 au 24 Mai 2024
Du 15 au 19 Juil. 2024
Du 23 au 27 Sept. 2024
Du 11 au 15 Nov. 2024
Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.