Formation A Practical Introduction to Stream Processing
Stream Processing fait référence au traitement en temps réel de «données en mouvement», c’est-à-dire à l’exécution de calculs sur les données reçues. Ces données sont lues comme des flux continus à partir de sources de données telles que des événements de capteurs, l’activité des utilisateurs du site Web, des transactions financières, des balayages de carte de crédit, des flux de clics, etc. Stream Processing infrastructures de Stream Processing permettent de lire de grands volumes de données entrantes et fournissent des informations précieuses presque instantanément.
Au cours de cette formation en direct animée par un instructeur (sur site ou à distance), les participants apprendront à configurer et à intégrer différents cadres de Stream Processing avec des systèmes de stockage de données volumineux existants ainsi que des applications logicielles et microservices connexes.
À la fin de cette formation, les participants seront en mesure de:
- Installez et configurez différents frameworks de Stream Processing , tels que Spark Streaming et Kafka Streaming.
- Comprendre et sélectionner le cadre le plus approprié pour le travail.
- Traitement des données en continu, simultanément et enregistrement par enregistrement.
- Intégrez les solutions de Stream Processing continu aux bases de données, aux entrepôts de données, aux lacs de données, etc. existants
- Intégrez la bibliothèque de traitement de flux la plus appropriée aux applications d'entreprise et aux microservices.
Public
- Les développeurs
- Architectes logiciels
Format du cours
- Partie de conférence, partie de discussion, exercices et exercices intensifs
Remarques
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour organiser cela.
Plan du cours
Introduction
- Traitement en flux et traitement par lots
- Traitement en flux axé sur l'analyse
Vue d'ensemble Cadres et Programming Languages
- Spark Streaming (Scala)
- Kafka Streaming (Java)
- Flink
- Storm
- Comparaison des caractéristiques et des points forts de chaque framework
Aperçu des sources de données
- Données en direct sous la forme d'une série d'événements au fil du temps
- Sources de données historiques
Options de déploiement
- Dans le nuage (AWS, etc.)
- Sur site (nuage privé, etc.)
Pour commencer
- Mise en place de l'environnement de développement
- Installation et configuration
- Évaluer vos Data Analysis besoins
Exploiter un cadre de diffusion en continu
- Intégration du cadre de diffusion en continu avec des outils Big Data
- Traitement des événements Stream Processing (ESP) et traitement des événements complexes (CEP)
- Transformer les données d'entrée
- Inspection des données de sortie
- Intégration du cadre Stream Processing aux applications et Microservices outils existants
Dépannage
Résumé et conclusion
Pré requis
- Programming expérience dans n'importe quel langage
- Une compréhension des concepts Big Data (Hadoop, etc.)
Les formations ouvertes requièrent plus de 3 participants.
Formation A Practical Introduction to Stream Processing - Booking
Formation A Practical Introduction to Stream Processing - Enquiry
A Practical Introduction to Stream Processing - Demande d'informations consulting
Demande d'informations consulting
Nos clients témoignent (1)
Une pratique suffisante, le formateur est compétent
Chris Tan
Formation - A Practical Introduction to Stream Processing
Traduction automatique
Cours à venir
Cours Similaires
Administration of Confluent Apache Kafka
21 HeuresConfluent Apache Kafka est une plateforme de flux événementiels distribuée conçue pour les canaux de données à haut débit, tolérants aux pannes et l'analyse en temps réel.
Cette formation en direct dirigée par un formateur (en ligne ou sur site) s'adresse aux administrateurs systèmes intermédiaires et aux professionnels DevOps qui souhaitent installer, configurer, surveiller et dépanner des clusters Confluent Apache Kafka.
À la fin de cette formation, les participants seront capables de :
- Comprendre les composants et l'architecture de Confluent Kafka.
- Déployer et gérer des Kafka brokers, des quorums Zookeeper et des services clés.
- Configurer des fonctionnalités avancées y compris la sécurité, la réplication et l'optimisation des performances.
- Utiliser des outils de gestion pour surveiller et maintenir les clusters Kafka.
Format du cours
- Cours interactif et discussion.
- Multitude d'exercices et de pratiques.
- Mise en œuvre pratique dans un environnement de laboratoire live.
Options de Personnalisation du Cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour faire des arrangements.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HeuresCe cours s'adresse aux développeurs et aux scientifiques des données qui souhaitent comprendre et mettre en œuvre l'IA dans leurs applications. Une attention particulière est accordée à l'analyse des données, à l'IA distribuée et au traitement du langage naturel.
Unified Batch and Stream Processing with Apache Beam
14 HeuresApache Beam est un modèle de programmation unifié et open source permettant de définir et d'exécuter des pipelines de traitement de données parallèles. Sa puissance réside dans sa capacité à exécuter des pipelines en batch et en streaming, l'exécution étant réalisée par l'un des back-ends de traitement distribué pris en charge par Beam : Apache Apex, Apache Flink, Apache Spark et Go ogle Cloud Dataflow. Beam Apache Beam est utile pour les tâches ETL (Extract, Transform, and Load) telles que le déplacement de données entre différents supports de stockage et sources de données, la transformation de données dans un format plus souhaitable, et le chargement de données sur un nouveau système.
Au cours de cette formation en direct (sur site ou à distance), les participants apprendront à mettre en œuvre les SDK Apache Beam dans une application Java ou Python qui définit un pipeline de traitement des données permettant de décomposer un ensemble de données volumineuses en morceaux plus petits pour un traitement indépendant et parallèle.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Apache Beam.
- Utiliser un modèle de programmation unique pour effectuer des traitements par lots et par flux à partir de leur application Java ou Python.
- Exécuter des pipelines dans plusieurs environnements.
Format du cours
- En partie cours magistral, en partie discussion, exercices et pratique intensive.
Remarque
- Ce cours sera disponible Scala dans le futur. Veuillez nous contacter pour convenir d'un rendez-vous.
Building Kafka Solutions with Confluent
14 HeuresCette formation en direct, animée par un instructeur (sur site ou à distance), est destinée aux ingénieurs souhaitant utiliser Confluent (une distribution de Kafka) pour créer et gérer une plate-forme de traitement de données en temps réel pour leurs applications.
À la fin de cette formation, les participants seront en mesure de:
- Installer et configurer le Confluent Platform.
- Utiliser les outils et services de gestion de Confluent pour exécuter Kafka plus facilement.
- Stockez et traitez les données de flux entrantes.
- Optimisez et gérez des clusters Kafka.
- Sécurisez les flux de données.
Format du cours
- Cours interactif et discussion.
- Beaucoup d'exercices et de pratique.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Ce cours est basé sur la version open source de Confluent : Confluent Open Source.
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour en faire la demande.
Apache Flink Fundamentals
28 HeuresCette formation en direct à Canada (en ligne ou sur site) présente les principes et les approches du traitement distribué des données en flux et par lots, et accompagne les participants dans la création d'une application de flux de données en temps réel dans Apache Flink.
A la fin de cette formation, les participants seront capables de :
- Mettre en place un environnement pour développer des applications d'analyse de données.
- Comprendre le fonctionnement de la bibliothèque de traitement de graphes de Apache Flink (Gelly).
- Mettre en place, exécuter et surveiller des applications de streaming de données basées sur Flink et tolérantes aux pannes.
- Gérer diverses charges de travail.
- Effectuer des analyses avancées.
- Mettre en place un cluster Flink à plusieurs nœuds.
- Mesurer et optimiser les performances.
- Intégrer Flink à différents systèmes Big Data.
- Comparer les capacités de Flink avec celles d'autres frameworks de traitement des big data.
Introduction to Graph Computing
28 HeuresAu cours de cette formation en direct à Canada, les participants découvriront les offres technologiques et les approches de mise en œuvre pour le traitement des données graphiques. L'objectif est d'identifier les objets du monde réel, leurs caractéristiques et leurs relations, puis de modéliser ces relations et de les traiter en tant que données à l'aide d'une approche Graph Computing (également connue sous le nom de Graph Analytics). Nous commençons par une vue d'ensemble et nous nous concentrons sur des outils spécifiques à travers une série d'études de cas, d'exercices pratiques et de déploiements en direct.
A la fin de cette formation, les participants seront capables de :
- Comprendre comment les données graphiques sont persistées et parcourues.
- Sélectionner le meilleur framework pour une tâche donnée (des bases de données de graphes aux frameworks de traitement par lots).
- Mettre en œuvre Hadoop, Spark, GraphX et Pregel pour effectuer des calculs de graphes sur de nombreuses machines en parallèle.
- Voir les problèmes de big data du monde réel en termes de graphes, de processus et de traversées.
Apache Kafka for Python Programmers
7 HeuresCette formation en direct avec instructeur dans Canada (en ligne ou sur site) est destinée aux ingénieurs de données, aux scientifiques de données et aux programmeurs qui souhaitent utiliser les fonctionnalités Apache Kafka dans les flux de données avec Python.
À la fin de cette formation, les participants seront en mesure d'utiliser Apache Kafka pour surveiller et gérer les conditions dans les flux de données continus en utilisant la programmation Python.
Stream Processing with Kafka Streams
7 HeuresKafka Streams est une bibliothèque côté client permettant de créer des applications et des microservices dont les données sont transmises depuis et vers un système de messagerie Kafka. Apache Kafka s’appuyait traditionnellement sur Apache Spark ou Apache Storm pour traiter les données entre les producteurs de messages et les consommateurs. En appelant l'API Kafka Streams depuis une application, les données peuvent être traitées directement dans Kafka, ce qui évite d'avoir à les envoyer à un cluster distinct.
Au cours de cette formation en direct animée par un instructeur, les participants apprendront comment intégrer Kafka Streams à un ensemble d’exemples d’applications Java qui transmettent des données depuis et vers Apache Kafka pour le traitement de flux.
À la fin de cette formation, les participants seront en mesure de:
- Comprendre les fonctionnalités et les avantages de Kafka Streams par rapport à d'autres frameworks de traitement de flux
- Traiter des données de flux directement au sein d'un cluster Kafka
- Rédiger une application ou un microservice Java ou Scala qui s'intègre avec Kafka et Kafka Streams
- Rédiger un code concis qui transforme des sujets d'entrée Kafka en sujets de sortie Kafka
- Construire, empaqueter et déployer l’application
Public
- Développeurs
Format du cours
- Mixte de cours magistral, discussions, exercices et pratique intensive
Remarques
- Pour demander une formation sur mesure pour ce cours, veuillez nous contacter pour en faire la demande.
Confluent KSQL
7 HeuresCette formation en direct dans Canada (en ligne ou sur site) est destinée aux développeurs qui souhaitent mettre en œuvre le traitement de flux Apache Kafka sans écrire de code.
A l'issue de cette formation, les participants seront capables de :
- Installer et configurer Confluent KSQL.
- Mettre en place un pipeline de traitement de flux en utilisant uniquement des commandes SQL (pas de codage Java ou Python).
- Effectuer le filtrage des données, les transformations, les agrégations, les jointures, le fenêtrage et la sessionnalisation entièrement en SQL.
- Concevoir et déployer des requêtes interactives et continues pour l'ETL en continu et l'analyse en temps réel.
Apache NiFi for Administrators
21 HeuresAu cours de cette formation en direct, dirigée par un instructeur, à Canada (sur place ou à distance), les participants apprendront à déployer et à gérer Apache NiFi dans un environnement de laboratoire réel.
A la fin de cette formation, les participants seront capables de :
- Installer et configurer Apachi NiFi.
- Rechercher, transformer et gérer des données à partir de sources de données disparates et distribuées, y compris les bases de données et les lacs de données.
- Automatiser les flux de données.
- Permettre l'analyse en continu.
- Appliquer différentes approches pour l'ingestion de données.
- Transformer les données Big Data en informations commerciales.
Apache NiFi for Developers
7 HeuresAu cours de cette formation en direct et dirigée par un instructeur dans Canada, les participants apprendront les principes fondamentaux de la programmation par flux en développant un certain nombre d'extensions, de composants et de processeurs de démonstration à l'aide de Apache NiFi.
A la fin de cette formation, les participants seront capables de :
- Comprendre l'architecture de NiFi et les concepts de flux de données.
- Développer des extensions en utilisant NiFi et des APIs tierces.
- Développer leur propre processeur Apache Nifi.
- Ingérer et traiter des données en temps réel à partir de formats de fichiers et de sources de données disparates et peu communs.
Python and Spark for Big Data (PySpark)
21 HeuresAu cours de cette formation en direct avec instructeur à Canada, les participants apprendront à utiliser Python et Spark ensemble pour analyser les données volumineuses (big data) en travaillant sur des exercices pratiques.
A la fin de cette formation, les participants seront capables de :
- Apprendre à utiliser Spark avec Python pour analyser Big Data.
- Travailler sur des exercices qui imitent des cas réels.
- Utiliser différents outils et techniques pour l'analyse des big data en utilisant PySpark.
Spark Streaming with Python and Kafka
7 HeuresCette formation en direct avec instructeur dans Canada (en ligne ou sur site) est destinée aux ingénieurs de données, aux scientifiques de données et aux programmeurs qui souhaitent utiliser les fonctionnalités de Spark Streaming dans le traitement et l'analyse de données en temps réel.
À la fin de cette formation, les participants seront en mesure d'utiliser Spark Streaming pour traiter des flux de données en temps réel et les utiliser dans des bases de données, des systèmes de fichiers et des tableaux de bord en temps réel.
Apache Spark MLlib
35 HeuresMLlib est la bibliothèque d'apprentissage automatique (ML) de Spark. Son objectif est de rendre l'apprentissage pratique pratique évolutif et facile. Il comprend des algorithmes et des utilitaires d'apprentissage courants, notamment la classification, la régression, la mise en cluster, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que des primitives d'optimisation de niveau inférieur et des API de pipeline de niveau supérieur.
Il se divise en deux paquets:
spark.mllib contient l'API d'origine construite sur les RDD.
spark.ml fournit des API de niveau supérieur construites à partir de DataFrames pour la construction de pipelines ML.
Public
Ce cours s’adresse aux ingénieurs et aux développeurs qui souhaitent utiliser une bibliothèque de machines intégrée à Apache Spark
Stratio: Rocket and Intelligence Modules with PySpark
14 HeuresStratio est une plateforme centrée sur les données qui intègre le big data, l'IA et la gouvernance dans une seule solution. Ses modules Rocket et Intelligence permettent une exploration rapide des données, leur transformation et des analyses avancées dans les environnements d’entreprise.
Cette formation dispensée par un formateur (en ligne ou sur site) s'adresse aux professionnels de niveau intermédiaire en données qui souhaitent utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en se concentrant sur les structures de boucle, les fonctions définies par l'utilisateur et la logique des données avancée.
À la fin de cette formation, les participants pourront :
- Naviguer et travailler au sein de la plateforme Stratio en utilisant les modules Rocket et Intelligence.
- Appliquer PySpark dans le contexte d'ingestion, de transformation et d'analyse des données.
- Utiliser des boucles et une logique conditionnelle pour contrôler les flux de travail des données et les tâches d'ingénierie des fonctionnalités.
- Créer et gérer des fonctions définies par l'utilisateur (UDFs) pour les opérations réutilisables des données dans PySpark.
Format de la Formation
- Cours interactif et discussion.
- De nombreuses exercices et pratiques.
- Implémentation pratique dans un environnement de laboratoire en direct.
Options de Personnalisation du Cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter pour en faire la demande.