Au terme de cette formation, le participant aura acquis les compétences nécessaires pour :
- Comprendre le fonctionnement de Spark;
- Développer des applications avec Apache Spark;
- Utiliser Spark SQL et les dataframes;
- Analyser en temps réel avec Spark streaming.
- Ce cours comporte des cours magistraux, des démonstrations et des exercices dirigés pour acquérir les connaissances et les compétences en matière de technologies disponibles, d’architectures et d’environnement.
- Le matériel pédagogique suivant sera fourni : présentations, exercices et laboratoires en format électronique
Pour bien maîtriser les notions enseignées, le participant devrait compléter le cours par la pratique personnelle.
Une attestation de participation est remise aux personnes ayant assisté à plus de 80 % des heures de formation.
SCALE AI, le gouvernement du Québec et le gouvernement du Canada offrent une subvention de 50 % sur le prix avant taxes pour ce cours de perfectionnement.
Pour être admissible à la subvention, il faut :
- Demeurer au Canada
- Être en emploi
- Remplir ce formulaire et le transmettre à formationateliers@cmaisonneuve.qc.ca au moment de l’inscription.
Les étudiants et les personnes sans emploi ne sont pas admissibles à la subvention, mais peuvent s’inscrire à la formation en déboursant le prix courant.
- Définition et provenance de Spark
- Raison de l’utilisation de Spark
- Spark vs MapReduce
- Composants de Spark
- Premiers pas avec Spark
- RDD
- Transformations et actions
- Spark Hello World (wordcount)
- Mise en pratique de « Assurer ses premiers pas avec Apache Spark »
- Fonctions de RDD « cœur »
- Fonctions de RDD paires
- Utilisation de la documentation de Spark
- Mise en pratique de « Utiliser le stockage HDFS »
- Partitionnement, jobs, stage et tasks
- UI de Spark
- Changement du niveau de parallélisation
- Mise en pratique de « Programmation parallèle sur Spark »
- Concepts de Spark SQL
- Création d’une Dataframe
- Sauvegarde d’une Dataframe
- Mise en pratique de « Spark SQL avec Hive »
- Architecture de Spark Streaming
- Vue d’ensemble de Spark Streaming
- Fiabilité des récepteurs et des sources
- Transformations et opérations de sorties
- Mise en pratique de « Wordcount en Spark Streaming »
- Avoir suivi le cours Hadoop – Traitement des données massives ou en maîtriser les notions.
- Connaître le langage de programmation Python.
- Connaître le langage de base de données SQL, environnement Microsoft ou environnement Oracle