BigData Hadoop

BigData Hadoop

Acquérir une première expérience du Big Data et utiliser la plateforme Hadoop


Référence ISD-BIDH-F
Durée 5 jour(s)

Pour une session intra ou sur mesure

Demander un devis
Débutant Bases de données Science des données

Hadoop est une des principales plateformes de Big Data. Elle permet d’assurer le stockage et le traitement d’immenses volumes de données. Cette formation vous permettra de comprendre son architecture et d’acquérir les compétences nécessaires pour installer, configurer et administrer un cluster Hadoop.

Objectifs pédagogiques

Les objectifs pour un candidat ayant suivi cette formation sont :

  • Etre capable de définir l’architecture d’une solution Hadoop.
  • Installer et configurer un cluster Hadoop.
  • Configurer et personnaliser un environnement Hadoop pour optimiser la disponibilité et le débit des données.

Public concerné

Administrateur Système et toute personne souhaitant mettre en œuvre un système Hadoop. 

Prérequis

Connaissance systèmes Unix/Linux.

Programme de la formation

Le Big Data

  • Définition du périmètre du Big Data.
  • Le rôle du projet Hadoop.
  • Les concepts de base des projets Big Data.
  • Hadoop V1 s V2.
  • Les architectures Big Data à base du projet Hadoop.
  • Le Hadoop Distributed File System (HDFS).
  • Introduction aux données dans HDFS.
  • MapReduce Framework et YARN.

Le stockage des données sur HDFS

  • Architecture et installation d'un système HDFS, journal, NameNode, DataNode.
  • Opérations, commandes et gestion des commandes.
  • L'API HDFS Java.
  • Analyse de données avec Apache Pig.
  • Le langage Pig Latin. Utiliser Apache Pig avec Java.
  • Réplication de données. Partage de données sur une architecture HDFS.
  • Sécurité:  Activation de la sécurité avec Kerberos.

Collecte de données et application de Map Reduce

  • Introduction à MapReduce
    • Vue d'ensemble de MapReduce.
    • Mappers.
    • Reducers.
  • Développement d'un programme MapReduce en Java
    • Concepts fondamentaux de l'API MapReduce.
    • Développement de drivers MapReduce, Mappers et Reducers en Java.
    • Accéleration du développement en utilisant Eclipse.
    • Différences entre les anciennes et nouvelles APIs MapReduce.
  • Tests unitaires avec MapReduce
    • Tests unitaires.
    • Les frameworks de tests JUnit et MRunit.
    • Exécution de tests unitaires.
  • Entrées et sorties de données
    • Implémentation personnalisée de Writable et Writable-Comparable.
    • Enregistrement de données binaires en utilisant SequenceFile et Avro.
    • Considérations sur la compression de fichiers.
    • Implémentation de InputFormats et OutputFormats personnalisés.

Cassandra et les Bases de données NoSQL

  • Les cas d'utilisation typiques de Cassandra.
  • Différences entre SGBDR et Cassandra.
  • Architecture et fonctionnement de Cassandra.
  • Modèle de données.
    • Colonne.
    • Ligne.
    • Famille de colonnes (Column Family).
    • Keyspace.
  • Installation et configuration.
  • Cassandra Query Langage (CQL).
  • Les API Cliente.
  • IV-D-1. Hector.
    • Déclarer une dépendance Hector.
    • Créer un cluster , un Keyspace, un ColumnFamilyTemplate.
    • Insérer un nouvel objet "Product".
    • Récupérer un objet par sa clé.
    • Modifier un objet Product.
    • Supprimer un objet Product.
  • Les tests d'intégration avec Cassandra.
  • Outils de supervision.
    • nodetool
      • Afficher des informations.
      • Créer et supprimer un snapshot.
      • Provoquer un flush.
    • JConsole.
    • OpsCenter.

introduction a Spark 

  • Présentation d'Apache Spark.
    • Historique du Framework.
    • Les différentes versions de Spark (Scala, Python et Java).
    • Comparaison avec l'environnement Apache Hadoop.
    • Les différents modules de Spark.
  • Programmer avec les Resilient Distributed Dataset (RDD)
    • Présentation des RDD.
    • Créer, manipuler et réutiliser des RDD.
    • Accumulateurs et variables broadcastées.
    • Utiliser des partitions.
  • Manipuler des données structurées avec Spark SQL.
    • SQL, DataFrames et Datasets.
    • Les différents types de sources de données.
    • Interopérabilité avec les RDD.
    • Performance de Spark SQL.
    •  JDBC/ODBC server et Spark SQL CLI.

Moyens pédagogiques

Démonstrations, cas pratiques.