Plan du cours

Fondements de NiFi et du flux de données

  • Données en mouvement vs données au repos : concepts et défis
  • Architecture de NiFi : cœurs, contrôleur de flux, provenance et bulletins
  • Composants clés : processeurs, connexions, contrôleurs et provenance

Contexte des Big Data et intégration

  • Rôle de NiFi dans les écosystèmes Big Data (Hadoop, Kafka, stockage cloud)
  • Aperçu de HDFS, MapReduce et alternatives modernes
  • Cas d'utilisation : ingestion de flux, envoi de journaux, pipelines d'événements

Installation, configuration et mise en cluster

  • Installation de NiFi sur un nœud unique et en mode cluster
  • Configuration du cluster : rôles des nœuds, Zookeeper et équilibrage de charge
  • Orchestration des déploiements NiFi : utilisation d'Ansible, Docker ou Helm

Conception et gestion des flux de données

  • Itinéraires, filtrage, fractionnement, fusion de flux
  • Configuration des processeurs (InvokeHTTP, QueryRecord, PutDatabaseRecord, etc.)
  • Gestion des schémas, enrichissement et opérations de transformation
  • Gestion des erreurs, relations de réessai et backpressure

Scénarios d'intégration

  • Connexion aux bases de données, systèmes de messagerie, API REST
  • Streaming vers des systèmes d'analyse : Kafka, Elasticsearch ou stockage cloud
  • Intégration avec Splunk, Prometheus ou pipelines de journalisation

Surveillance, récupération et provenance

  • Utilisation de l'interface utilisateur NiFi, des métriques et du visualiseur de provenance
  • Conception d'une récupération autonome et d'une gestion de la panne élégante
  • Sauvegarde, versionnement des flux et gestion des changements

Ajustement des performances et optimisation

  • Paramétrage du JVM, de la mémoire heap, des pools de threads et des paramètres de cluster
  • Optimisation de la conception des flux pour réduire les goulets d'étranglement
  • Isolement des ressources, priorisation des flux et contrôle du débit

Bonnes pratiques et gouvernance

  • Documentation des flux, normes de nommage, conception modulaire
  • Sécurité : TLS, authentification, contrôle d'accès, chiffrement des données
  • Gestion des changements, versionnement, accès basé sur les rôles, pistes d'audit

Dépannage et réponse aux incidents

  • Problèmes courants : deadlocks, fuites de mémoire, erreurs de processeur
  • Analyse des journaux, diagnostics d'erreur et investigation des causes profondes
  • Stratégies de récupération et de retour en arrière des flux

Laboratoire pratique : mise en œuvre réaliste d'un pipeline de données

  • Construction d'un flux complet : ingestion, transformation, livraison
  • Mise en place de la gestion des erreurs, du backpressure et du scaling
  • Test de performance et optimisation du pipeline

Résumé et étapes suivantes

Pré requis

  • Expérience avec la ligne de commande Linux
  • Compréhension de base des réseaux et des systèmes de données
  • Connaissance des concepts de streaming de données ou d'ETL

Public visé

  • Administrateurs systèmes
  • Ingénieurs en données
  • Développeurs
  • Professionnels DevOps
 21 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (7)

Cours à venir

Catégories Similaires