Formation Intégration de données massives Talend
Talend Open Studio pour les données massives est un outil ETL open source destiné au traitement des données massives. Il comprend un environnement de développement permettant d'interagir avec les sources et les cibles des données massives, ainsi que d'exécuter des jobs sans écrire de code.
Cette formation en présentiel ou à distance, animée par un instructeur, s'adresse aux personnes techniques souhaitant déployer Talend Open Studio pour les données massives afin de simplifier le processus de lecture et de traitement des données massives.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Talend Open Studio pour les données massives.
- Se connecter à des systèmes de données massives tels que Cloudera, HortonWorks, MapR, Amazon EMR et Apache.
- Comprendre et configurer les composants et les connecteurs des données massives d'Open Studio.
- Configurer les paramètres pour générer automatiquement du code MapReduce.
- Utiliser l'interface de glisser-déposer d'Open Studio pour exécuter des jobs Hadoop.
- Élaborer des prototypes de pipelines de données massives.
- Automatiser les projets d'intégration de données massives.
Format de la formation
- Conférence interactive et discussion.
- De nombreux exercices et mises en pratique.
- Mise en œuvre pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'en convenir.
Plan du cours
Introduction
Aperçu des fonctionnalités et de l'architecture d'« Open Studio pour les données massives »
Mise en place d'Open Studio pour les données massives
Navigation dans l'interface utilisateur
Compréhension des composants et des connecteurs des données massives
Connexion à un cluster Hadoop
Lecture et écriture des données
Traitement des données avec Hive et MapReduce
Analyse des résultats
Amélioration de la qualité des données massives
Construction d'un pipeline de données massives
Gestion des utilisateurs, groupes, rôles et projets
Déploiement d'Open Studio en production
Surveillance d'Open Studio
Dépannage
Résumé et conclusion
Pré requis
- Une compréhension des bases de données relationnelles.
- Une compréhension de l'entrepôt de données.
- Une compréhension des concepts ETL (Extraction, Transformation, Chargement).
Public cible
- Professionnels de l'intelligence économique (BI).
- Professionnels de la base de données.
- Développeurs SQL.
- Développeurs ETL.
- Architectes de solutions.
- Architectes de données.
- Professionnels de l'entrepôt de données.
- Administrateurs système et intégrateurs.
Cours à partir de 4 + personnes. Pour un entraînement individuel ou en petit groupe, veuillez demander un devis.
Formation Intégration de données massives Talend - Réservation
Formation Intégration de données massives Talend - Demande de renseignements
Intégration de données massives Talend - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Apache Iceberg avancé
21 HeuresCette formation en présentiel ou en ligne, animée par un formateur, est dispensée à <lieu> et s'adresse aux professionnels des données de niveau avancé souhaitant optimiser leurs flux de traitement des données, garantir l'intégrité des données et mettre en œuvre des solutions de lakehouse robustes capables de gérer les complexités des applications modernes de données massives.
À l'issue de cette formation, les participants seront capables de :
- Acquérir une compréhension approfondie de l'architecture d'Iceberg, y compris la gestion des métadonnées et la disposition des fichiers.
- Configurer Iceberg pour une performance optimale dans divers environnements et l'intégrer avec plusieurs moteurs de traitement de données.
- Gérer des tables Iceberg à grande échelle, effectuer des modifications de schéma complexes et gérer l'évolution des partitions.
- Maîtriser les techniques d'optimisation des performances des requêtes et de l'efficacité des scans de données pour les grands ensembles de données.
- Mettre en œuvre des mécanismes pour assurer la cohérence des données, gérer les garanties transactionnelles et gérer les échecs dans les environnements distribués.
Analyse des données massives avec Google Colab et Apache Spark
14 HeuresCette formation animée par un instructeur en <lieu> (en ligne ou en présentiel) s'adresse aux data scientists et ingénieurs de niveau intermédiaire qui souhaitent utiliser Google Colab et Apache Spark pour le traitement et l'analyse de données massives.
À la fin de cette formation, les participants seront capables de :
- Mettre en place un environnement de données massives à l'aide de Google Colab et Spark.
- Traiter et analyser efficacement de grands ensembles de données avec Apache Spark.
- Visualiser les données massives dans un environnement collaboratif.
- Intégrer Apache Spark à des outils basés sur le cloud.
Apache NiFi pour les administrateurs
21 HeuresApache NiFi est une plateforme open source d'intégration de données et de traitement d'événements basée sur des flux. Elle permet le routage, la transformation et la médiation entre systèmes en temps réel et automatisés, grâce à une interface web et un contrôle fin des opérations.
Cette formation en présentiel ou à distance, animée par un formateur expert, s'adresse aux administrateurs et ingénieurs de niveau intermédiaire souhaitant déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À l'issue de cette formation, les participants seront en mesure de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de diverses sources et destinations.
- Mettre en œuvre l'automatisation des flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et résoudre les problèmes.
Format de la formation
- Conférence interactive avec discussions sur des architectures réelles.
- Laboratoires pratiques : construction, déploiement et gestion des flux.
- Exercices scénarisés dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'organiser cela.
PySpark et apprentissage automatique
21 HeuresCette formation offre une introduction pratique à la création de pipelines de traitement de données et d'apprentissage automatique évolutifs à l'aide de PySpark. Les participants apprennent le fonctionnement d'Apache Spark au sein des écosystèmes modernes de Big Data et les méthodes pour traiter efficacement de grands ensembles de données en appliquant les principes du calcul distribué.
Fondamentaux d'Apache Spark
21 HeuresCette formation en direct, dirigée par un instructeur en <lieu> (en ligne ou sur site), s'adresse aux ingénieurs qui souhaitent mettre en place et déployer un système Apache Spark pour traiter de très grands volumes de données.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark.
- Traiter et analyser rapidement de très grands ensembles de données.
- Comprendre la différence entre Apache Spark et Hadoop MapReduce, ainsi que les contextes d'utilisation de chacun.
- Intégrer Apache Spark à d'autres outils d'apprentissage automatique.
Administration d'Apache Spark
35 HeuresCette formation en direct, animée par un formateur, à Canada (en ligne ou en présentiel), s'adresse aux administrateurs système de niveau débutant à intermédiaire souhaitant déployer, entretenir et optimiser des clusters Spark.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark dans divers environnements.
- Gérer les ressources du cluster et surveiller les applications Spark.
- Optimiser les performances des clusters Spark.
- Mettre en œuvre des mesures de sécurité et assurer une haute disponibilité.
- Dépanner et corriger les problèmes courants de Spark.
Apache Spark dans le cloud
21 HeuresLa courbe d'apprentissage d'Apache Spark est assez raide au début, car il faut investir beaucoup d'efforts pour obtenir les premiers résultats. Ce cours vise à franchir rapidement cette étape initiale difficile. À l'issue de cette formation, les participants comprendront les bases d'Apache Spark, sauront clairement différencier un RDD d'un DataFrame, maîtriseront les API Python et Scala, et comprendront le rôle des executeurs et des tâches, entre autres. En suivant les meilleures pratiques, ce cours met un accent particulier sur le déploiement dans le cloud, ainsi que sur Databricks et AWS. Les apprenants découvriront également les différences entre AWS EMR et AWS Glue, l'un des derniers services Spark proposés par AWS.
PUBLIC CIBLE :
Ingénieur en données, Développeur DevOps, Data Scientist
Python et Spark pour les mégadonnées (PySpark)
21 HeuresLors de cette formation en présentiel animée par un formateur à Canada, les participants apprendront à utiliser Python et Spark conjointement pour analyser les mégadonnées, tout en réalisant des exercices pratiques.
À la fin de cette formation, les participants seront en mesure de :
- Apprendre à utiliser Spark avec Python pour analyser les mégadonnées.
- Réaliser des exercices qui reproduisent des scénarios du monde réel.
- Utiliser divers outils et techniques d'analyse des mégadonnées avec PySpark.
Python, Spark et Hadoop pour les données massives
21 HeuresCette formation en présentiel ou en ligne, encadrée par un formateur, dans <lieu> s'adresse aux développeurs souhaitant utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données volumineux et complexes.
À l'issue de cette formation, les participants seront capables de :
- Configurer l'environnement nécessaire pour commencer à traiter des données massives avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants clés et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des données massives.
- Explorer les outils de l'écosystème Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop, Kafka et Flume).
- Construire des systèmes de recommandation basés sur le filtrage collaboratif, similaires à ceux utilisés par Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle les algorithmes d'apprentissage automatique.
Apache Spark SQL
7 HeuresSpark SQL est le module d'Apache Spark dédié au traitement des données structurées et non structurées. Il fournit des informations sur la structure des données ainsi que sur les calculs effectués, ce qui permet d'optimiser les performances. On utilise couramment Spark SQL pour deux objectifs principaux :
- exécuter des requêtes SQL.
- lire des données depuis une installation Hive existante.
Lors de cette formation en présentiel ou à distance animée par un instructeur, les participants apprendront à analyser divers types de jeux de données à l'aide de Spark SQL.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Spark SQL.
- Effectuer des analyses de données avec Spark SQL.
- Interroger des jeux de données dans différents formats.
- Visualiser les données et les résultats des requêtes.
Format de la formation
- Cours interactifs et discussions.
- Nombreux exercices et mises en pratique.
- Mises en œuvre concrètes dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'en convenir.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme centrée sur les données qui intègre le big data, l'IA et la gouvernance dans une seule et même solution. Ses modules Rocket et Intelligence permettent d'explorer, de transformer rapidement les données et de réaliser des analyses avancées dans les environnements d'entreprise.
Cette formation en direct, encadrée par un formateur (en ligne ou en présentiel), s'adresse aux professionnels des données de niveau intermédiaire souhaitant utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en mettant l'accent sur les structures itératives, les fonctions définies par l'utilisateur et la logique avancée des données.
À l'issue de cette formation, les participants seront capables de :
- Naviguer au sein de la plateforme Stratio et travailler avec les modules Rocket et Intelligence.
- Appliquer PySpark dans le contexte de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser des boucles et une logique conditionnelle pour contrôler les flux de données et les tâches d'ingénierie des fonctionnalités (feature engineering).
- Créer et gérer des fonctions définies par l'utilisateur (UDF) pour des opérations de données réutilisables dans PySpark.
Format du cours
- Cours interactif et discussions.
- Nombreux exercices et mises en pratique.
- Implémentation pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin de prendre les arrangements nécessaires.
Talend Administration Center (TAC)
14 HeuresCette formation en direct avec instructeur en Canada (en ligne ou sur site) s'adresse aux administrateurs système, aux scientifiques des données et aux analystes commerciaux qui souhaitent mettre en place Talend Administration Center pour déployer et gérer les rôles et tâches de l'organisation.
À la fin de cette formation, les participants seront en mesure de :
- Installer et configurer Talend Administration Center.
- Comprendre et mettre en œuvre les fondamentaux de la gestion Talend.
- Créer, déployer et exécuter des projets ou tâches commerciales dans Talend.
- Surveiller la sécurité des ensembles de données et développer des routines commerciales basées sur le cadre du TAC.
- Obtenir une compréhension plus approfondie des applications big data.
Talend Data Stewardship
14 HeuresCette formation en direct animée par un formateur à <lieu> (en ligne ou sur site) s'adresse aux analystes de données de niveau débutant à intermédiaire souhaitant approfondir leur compréhension et leurs compétences en matière de gestion et d'amélioration de la qualité des données grâce à Talend Data Stewardship.
À l'issue de cette formation, les participants seront en mesure de :
- Acquérir une compréhension complète du rôle de la gouvernance des données dans le maintien de la qualité des données.
- Utiliser Talend Data Stewardship pour gérer les tâches liées à la qualité des données.
- Créer, affecter et gérer des tâches au sein de Talend Data Stewardship, y compris la personnalisation des flux de travail.
- Utiliser les capacités de rapport et de surveillance de l'outil pour suivre les efforts liés à la qualité des données et à la gouvernance des données.
Talend Open Studio pour ESB
21 HeuresLors de cette formation en présentiel et encadrée par un instructeur à <lieu>, les participants apprendront à utiliser Talend Open Studio pour ESB afin de créer, connecter, médier et gérer les services ainsi que leurs interactions.
À l'issue de cette formation, les participants seront capables de
- Intégrer, améliorer et déployer des technologies ESB sous forme de packages uniques dans divers environnements de déploiement.
- Comprendre et utiliser les composants les plus couramment employés de Talend Open Studio.
- Intégrer n'importe quelle application, base de données, API ou service Web.
- Intégrer sans faille des systèmes et applications hétérogènes.
- Inclure des bibliothèques de code Java existantes pour étendre les projets.
- Exploiter les composants et le code communautaires pour étendre les projets.
- Intégrer rapidement des systèmes, des applications et des sources de données dans un environnement Eclipse par glisser-déposer.
- Réduire le temps de développement et les coûts de maintenance grâce à la génération de code optimisé et réutilisable.