Big Data avec Hadoop

Introduction

  • Découvir Hadoop
  • L'écosystème d'Hadoop
  • Intégrité des données

Architechture Hadoop et Hadoop Distributed File System

  • Fonctionnement d'un cluster
  • HDFS: architecture et utilisation
  • Scaling de datanode
  • Namenode secondaire, Federated Namenodes, Namenodes de haute disponibilité

Mape Reduce

  • introduction
  • Maper et reducer
  • Jointures 
  • Limitations

Format des données

  • Choisir le bon format
  • Avro
  • Compression des données

Spark

  • Programmation fonctionelle
  • Utiliser des RDDs
  • Ecrire des applications 
  • Déploiement des applications
  • Programmation parrallèle

Traitement des données

  • Algorithme itératif
  • Machine Learning

Spark SQL

  • Creation et transformation des DataFrames
  • Requete et sauvegarde DataFrames