Big Data : les fondamentaux

Big Data : les fondamentaux

Familiarisez-vous avec les concepts du big Data

Référence ISD-BIDF-F
Durée 3 jour(s)

Pour une session intra ou sur mesure

Demander un devis
Débutant Bases de données Science des données

Le Big data désigne les stratégies et technologies mises en œuvre pour rassembler, mettre en place une solution de stockage permettant d'organiser un très grand volume d'information, initialiser et organiser pour réaliser des programmes qui, convertis en tâches, permettent d'agréger et de filtrer les données pour finalement les analyser. Cette formation permet d’apporter une première approche de la mise en oeuvre d'une solution de Big Data en environnement Hadoop, solution phare pour les traitements Big Data, ce programme reprend le cheminement logique d'un projet d'analyse de données.

Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :

  • Présenter les grands enjeux du Big Data avec le vocabulaire approprié.
  • Contribuer utilement à un projet Big Data et mobiliser les expertises techniques appropriées.
  • Proposer des innovations liées au Big Data et décrire les conditions de sa mise en application.
  • Connaitre les outils et leurs usages.

Public concerné

Cette formation s'adresse principalement aux MOA, chef de projet, analystes, développeurs, Futurs data scientists, data analysts et data stewards, etc.

Prérequis

  • Aucun prérequis. 
  • Une connaissance de SQL serait un plus.

Programme de la formation

Le Big Data

  • Définition du périmètre du Big Data.
  • Les enjeux du Big Data.
  • Les 5V du Big data.

Exemples d’applications pour l’entreprise.

  • Les concepts de base des projets Big Data.
  • Le rôle du projet Hadoop.
  • L’écosystème Hadoop.
  • Principales distributions du marché.
  • Les architectures Big Data à base du projet Hadoop.

Stockage des données 

  • Patterns d'usages et application au Cloud.
  • Architecture et installation d'un système HDFS, journal, NameNode, DataNode.
  • Opérations, commandes et gestion des commandes.
  • Les API HDFS.
  • Bases de données NoSql.
  • Principes et intérêts. 
  • Les Technologies. 

Exemple de Hive

  • Plusieurs types de base de données XML.
  • Patterns d'usages et application au Cloud.
  • Application de Hadoop database au sein d'un workflow.
  • Utilisation des projets Hive/Pig.

Exemple de Cassandra 

  • Les cas d'utilisation typiques de Cassandra.
  • Différences entre SGBDR et Cassandra.
  • Architecture et fonctionnement de Cassandra.
  • Modèle de données
    • Installation et configuration.
    • Cassandra Query Langage (CQL).

Traitement des données: Map Reduce & Spark

  • Analyse des flux de données dans l'entreprise.
  • Données structurées et non-structurées.
  • Les principes de l'analyse sémantique des données d'entreprise.
  • Graphe des tâches à base de MapReduce.
  • Introduction à MapReduce.
  • Vue d'ensemble de MapReduce.
    • Mappers.
    • Reducers.
  • Transfert de données depuis un système de persistance dans Hadoop.
  • Transfert de données d'un Cloud dans Hadoop.
  • Présentation de Apache Spark.
  • Historique du Framework.
  • Les différentes versions de Spark (Scala, Python et Java).
  • Comparaison avec l' environnement Apache Hadoop.
  • Les différents modules de Spark.
  • Programmer avec les Resilient Distributed Dataset (RDD).
  • Présentation des RDD.
  • Créer, manipuler et réutiliser des RDD.

Analyse et visualisation des données Big data 

  • Les principes.
  • Les solution du marché.
  • Position de l'intelligence artificielle.
  • Apprentissage automatique. 
  • préparation et pré-traitement des données. 
  • Les modèles d'apprentissage.

Moyens pédagogiques

Travaux pratiques et étude de cas.