Accueil > Big Data, IA > Big Data : mise en œuvre
Formation #BSI11

Formation Big Data : mise en œuvre

Durée : 5 jours

Code : BSI11


Prochaines dates programmées :

Du 08 au 12 Avril 2024

Du 03 au 07 Juin 2024

Du 05 au 09 Août 2024

Du 07 au 11 Oct. 2024

Du 09 au 13 Déc. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Comprendre les spécificités propres aux projets Big Data
  • Savoir piloter le cycle de vie des données (collecte, exploitation, analyse, visualisation)
  • Mettre en œuvre une plateforme complète pour gérer vos données
  • Travailler avec Hadoop, Spark et Talend pour la datavisualisation
Programme
1/ Introduction
  • Les enjeux et perspectives du Big Data
  • Marché data au niveau mondial
  • Différents types de données
  • Structures de données
  • Sources de données
  • Big Data : solutions et acteurs du marché
  • Nouveaux métiers du Big Data
2/ Comprendre le Big Data
  • Définitions et concepts clés
  • Les dimensions en V du Big Data
  • Les architectures Big Data orientées stockage, calcul, temps réel…
  • Le cadre juridique des données
  • Cycle de vie de la donnée
  • La qualité des données
  • Vue d’ensemble d’un processus de Data Science
3/ Projet Big Data : méthodologie et démarche de l’implémentation
  • Les besoins métiers et objectifs d’un projet
  • Spécificités d’un projet Big Data
  • Les bons outils
  • Poser les bonnes questions
  • Obtenir les données
  • Explorer et prétraiter les données
  • Analyser les données : planifier et construire un modèle viable
  • Communiquer les résultats
  • Transformer les résultats en décisions et en actions
4/ Technologies et outils associées au Big Data
  • Architecture et composants de la plateforme Hadoop 2
  • Les modes de stockage (NoSQL, HDFS)
  • Fonctionnement de MapReduce et Yarn…
  • Principales distributions Hadoop : Hortonworks, Cloudera, MapR…
  • Les technologies émergentes : Spark, Storm, Machine Learning Azure…
  • Installation d'une plateforme Hadoop
  • Déférentes des solutions de datavisualisation pour le Big Data (Talend, Tableau, Qlikview…)
5/ La collecte, le stockage des données et traitement des données
  • Sources
  • Analyser les caractéristiques d’un jeu de données
  • Principes ETL (Extract Transform Load)
  • Données structurées, semi structurées et non structurées
  • Rappels des principes du stockage distribué
  • Intérêt et vue d’ensemble des bases de données NoSQL (Cassandra, Neo4j, MongoDB…)
  • Prise en main d’HDFS et du modèle MapReduce
  • Utiliser les fonctionnalités de Pig et Hive pour requêter et traiter les données
  • ElasticSearch pour l’indexation et la recherche de données
6/ Outils et techniques pour l’analyse de données massives
  • Différentes méthodes et techniques d’analyse
  • Définition de l’analyse statistique
  • Analyser un ensemble de données avec l’environnement Apache Spark
  • L'Intelligence Artificielle dans l'analyse prédictive
  • Introduction aux principes de Machine Learning
  • Les différentes familles de modèles : régression, classification, clustering, reinforcement learning, NLP
  • Technique de feature engineering pour préparer les données
  • Sélectionner, entraîner et tester un algorithme de Machine Learning
  • Principes du Deep Learning : apprentissage profond et réseaux neuronaux
7/ La visualisation des données (DATAVIZ)
  • Enjeux et objectifs d’une bonne communication
  • Parler les données, principes fondamentaux et objectifs de la dataviz
  • Limites des outils et méthodes traditionnels (Excel, BusinessObjects, etc)
  • Principes fondamentaux de la représentation visuelle
  • La Datavisualisation tout au long du processus Big Data
  • Techniques et outils principaux pour la visualisation de données (Tableau, Qlik, etc)
  • Sélectionner une solution de datavisualisation selon l’objectif recherché
  • Les bonnes pratiques de Dataviz
  • Visualisation interactive
8/ Démonstration d’un environnement distribué HADOOP
  • Les moteurs de recherche de grande envergure
  • Présentation Lucene, Solr
  • Mécanisme de traitement
  • Gestion des journaux applicatifs
  • Mécanismes et architecture Apache Flume
  • La relation entre Cloud et Big Data
  • Motivation entre clouds publics et privés
  • Les clouds de stockage
  • Se reconcentrer sur les problématiques métiers, grâce aux services managés
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Chefs de projet
  • Data Scientists
  • Data Analysts
  • Développeurs
  • Analystes et statisticien
  • Toute personne en charge de la mise en oeuvre opérationnelle d’un projet Big Data en environnement Hadoop
Dates

Dates

  • Du 08 au 12 Avril 2024
  • Du 03 au 07 Juin 2024
  • Du 05 au 09 Août 2024
  • Du 07 au 11 Oct. 2024
  • Du 09 au 13 Déc. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.