Prenez contact avec nous

Plan du cours

Fondamentaux de NiFi et des flux de données

  • Données en mouvement vs données au repos : concepts et défis
  • Architecture de NiFi : nœuds, contrôleur de flux, provenance et bulletins
  • Composants clés : processeurs, connexions, contrôleurs et provenance

Contexte des mégadonnées et intégration

  • Rôle de NiFi dans les écosystèmes de mégadonnées (Hadoop, Kafka, stockage cloud)
  • Aperçu de HDFS, MapReduce et des alternatives modernes
  • Cas d'utilisation : ingestion de flux, envoi de journaux, pipelines d'événements

Installation, configuration et mise en place du cluster

  • Installation de NiFi en mode nœud unique ou cluster
  • Configuration du cluster : rôles des nœuds, ZooKeeper et équilibrage de charge
  • Orchestrer les déploiements de NiFi : utilisation d'Ansible, Docker ou Helm

Conception et gestion des flux de données

  • Routage, filtrage, fragmentation et fusion des flux
  • Configuration des processeurs (InvokeHTTP, QueryRecord, PutDatabaseRecord, etc.)
  • Gestion des schémas, de l'enrichissement et des opérations de transformation
  • Gestion des erreurs, relations de retry et rétroaction (backpressure)

Scénarios d'intégration

  • Connexion aux bases de données, systèmes de messagerie et API REST
  • Diffusion vers des systèmes analytiques : Kafka, Elasticsearch ou stockage cloud
  • Intégration avec Splunk, Prometheus ou pipelines de journalisation

Surveillance, récupération et provenance

  • Utilisation de l'interface web de NiFi, des métriques et du visualiseur de provenance
  • Conception de la récupération autonome et de la gestion élégante des pannes
  • Sauvegarde, versionning des flux et gestion des changements

Réglage des performances et optimisation

  • Réglage de la JVM, de la mémoire heap, des pools de threads et des paramètres de clustering
  • Optimisation de la conception des flux pour réduire les goulots d'étranglement
  • Isolation des ressources, priorisation des flux et contrôle du débit

Meilleures pratiques et gouvernance

  • Documentation des flux, normes de nommage, conception modulaire
  • Sécurité : TLS, authentification, contrôle d'accès, chiffrement des données
  • Contrôle des modifications, versionning, accès basé sur les rôles, traces d'audit

Dépannage et réponse aux incidents

  • Problèmes courants : interblocages (deadlocks), fuites de mémoire, erreurs de processeurs
  • Analyse des journaux, diagnostic des erreurs et investigation des causes racines
  • Stratégies de récupération et annulation des flux (rollback)

Laboratoire pratique : mise en œuvre d'un pipeline de données réaliste

  • Construction d'un flux de bout en bout : ingestion, transformation, livraison
  • Mise en œuvre de la gestion des erreurs, de la rétroaction et de la mise à l'échelle
  • Tests de performance et réglage du pipeline

Résumé et prochaines étapes

Pré requis

  • Expérience avec la ligne de commande Linux
  • Compréhension de base des réseaux et des systèmes de données
  • Connaissance des concepts de streaming de données ou d'ETL

Public cible

  • Administrateurs systèmes
  • Ingénieurs de données
  • Développeurs
  • Professionnels DevOps
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (7)

Cours à venir

Catégories Similaires