Formation Fondamentaux d'Apache Iceberg
Apache Iceberg est un format de table open-source conçu pour les ensembles de données à grande échelle, apportant la fiabilité et la simplicité des tables SQL aux données massives (big data). Il a été conçu pour résoudre les défis liés à la gestion des big data dans les lacs de données (data lakes), qui impliquent souvent la manipulation de schémas complexes, de fichiers volumineux et de sources de données variées.
Cette formation en direct animée par un formateur (en ligne ou sur site) s'adresse aux professionnels des données de niveau débutant qui souhaitent acquérir les connaissances et les compétences nécessaires pour utiliser efficacement Apache Iceberg dans la gestion d'ensembles de données à grande échelle, garantir l'intégrité des données et optimiser les flux de traitement des données.
À l'issue de cette formation, les participants seront en mesure de :
- Comprendre en profondeur l'architecture, les fonctionnalités et les avantages d'Apache Iceberg.
- Apprendre les formats de tables, le partitionnement, l'évolution des schémas et les capacités de voyage dans le temps.
- Installer et configurer Apache Iceberg dans différents environnements.
- Créer, gérer et manipuler des tables Iceberg.
- Comprendre le processus de migration des données depuis d'autres formats de tables vers Iceberg.
Format du cours
- Conférence interactive et discussion.
- De nombreux exercices et pratiques.
- Mise en œuvre concrète dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'organiser cela.
Plan du cours
Introduction à Apache Iceberg
- Vue d'ensemble d'Apache Iceberg.
- Importance et cas d'utilisation dans l'architecture des données moderne.
- Fonctionnalités et avantages clés.
Concepts de base
- Format et architecture des tables Iceberg.
- Comparaison avec d'autres formats de tables.
- Partitionnement et évolution des schémas.
- Voyage dans le temps et versioning des données.
Configuration d'Apache Iceberg
- Installation et configuration.
- Intégration d'Iceberg avec divers moteurs de traitement de données.
- Mise en place d'un environnement Iceberg sur une machine locale.
Opérations de base
- Création et gestion des tables Iceberg.
- Écriture et lecture dans les tables Iceberg.
- Opérations CRUD de base.
Migration et intégration des données
- Migration des données depuis Hive et d'autres systèmes vers Iceberg.
- Intégration avec des outils de BI.
- Migration d'un jeu de données d'exemple vers Iceberg.
Optimisation des performances
- Techniques d'ajustement des performances.
- Optimisation des requêtes et des scans de données.
- Optimisation des performances dans Iceberg.
Vue d'ensemble des fonctionnalités avancées
- Évolution des partitions et partitionnement caché.
- Évolution des tables et modifications de schéma.
- Fonctionnalités de voyage dans le temps et de rollback (annulation).
- Mise en œuvre des fonctionnalités avancées dans Iceberg.
Résumé et prochaines étapes
Pré requis
- Familiarité avec des concepts tels que les tables, les schémas, les partitions et l'ingestion de données.
- Connaissances de base en SQL.
Public cible
- Ingénieurs des données.
- Architectes des données.
- Analystes des données.
- Développeurs de logiciels.
Cours à partir de 4 + personnes. Pour un entraînement individuel ou en petit groupe, veuillez demander un devis.
Formation Fondamentaux d'Apache Iceberg - Réservation
Formation Fondamentaux d'Apache Iceberg - Demande de renseignements
Fondamentaux d'Apache Iceberg - Demande d'informations consulting
Nos clients témoignent (1)
Exercices pratiques. La formation aurait dû durer 5 jours, mais les 3 jours ont permis de clarifier beaucoup de questions que je me posais déjà en travaillant avec NiFi.
James - BHG Financial
Formation - Apache NiFi for Administrators
Traduction automatique
Cours à venir
Cours Similaires
Apache Iceberg avancé
21 HeuresCette formation en présentiel ou en ligne, animée par un formateur, est dispensée à <lieu> et s'adresse aux professionnels des données de niveau avancé souhaitant optimiser leurs flux de traitement des données, garantir l'intégrité des données et mettre en œuvre des solutions de lakehouse robustes capables de gérer les complexités des applications modernes de données massives.
À l'issue de cette formation, les participants seront capables de :
- Acquérir une compréhension approfondie de l'architecture d'Iceberg, y compris la gestion des métadonnées et la disposition des fichiers.
- Configurer Iceberg pour une performance optimale dans divers environnements et l'intégrer avec plusieurs moteurs de traitement de données.
- Gérer des tables Iceberg à grande échelle, effectuer des modifications de schéma complexes et gérer l'évolution des partitions.
- Maîtriser les techniques d'optimisation des performances des requêtes et de l'efficacité des scans de données pour les grands ensembles de données.
- Mettre en œuvre des mécanismes pour assurer la cohérence des données, gérer les garanties transactionnelles et gérer les échecs dans les environnements distribués.
Analyse des données massives avec Google Colab et Apache Spark
14 HeuresCette formation animée par un instructeur en <lieu> (en ligne ou en présentiel) s'adresse aux data scientists et ingénieurs de niveau intermédiaire qui souhaitent utiliser Google Colab et Apache Spark pour le traitement et l'analyse de données massives.
À la fin de cette formation, les participants seront capables de :
- Mettre en place un environnement de données massives à l'aide de Google Colab et Spark.
- Traiter et analyser efficacement de grands ensembles de données avec Apache Spark.
- Visualiser les données massives dans un environnement collaboratif.
- Intégrer Apache Spark à des outils basés sur le cloud.
Business Intelligence Big Data pour les organismes gouvernementaux
35 HeuresLes avancées technologiques et l'augmentation massive des données transforment la façon dont les affaires sont menées dans de nombreux secteurs, y compris le gouvernement. La génération de données gouvernementales et les taux d'archivage numérique sont en hausse en raison de la croissance rapide des appareils mobiles et des applications, des capteurs et dispositifs intelligents, des solutions de cloud computing et des portails destinés aux citoyens. À mesure que l'information numérique s'étend et devient plus complexe, la gestion, le traitement, le stockage, la sécurité et la disposition des informations deviennent également plus complexes. De nouveaux outils de capture, de recherche, de découverte et d'analyse aident les organisations à extraire des insights de leurs données non structurées. Le marché gouvernemental est à un point de bascule, prenant conscience que l'information est un atout stratégique, et que le gouvernement doit protéger, exploiter et analyser les informations structurées et non structurées pour mieux servir et répondre aux exigences de sa mission. Alors que les dirigeants gouvernementaux s'efforcent d'évoluer vers des organisations axées sur les données pour accomplir avec succès leur mission, ils jettent les bases pour corrélater les dépendances entre les événements, les personnes, les processus et les informations.
Des solutions gouvernementales à haute valeur seront créées à partir d'un mashup des technologies les plus disruptives :
- Appareils mobiles et applications
- Services cloud
- Technologies et réseaux d'affaires sociaux
- Big Data et analyse
Le Big Data est l'une des solutions intelligentes pour les secteurs d'activité et permet au gouvernement de prendre de meilleures décisions en agissant sur des modèles révélés par l'analyse de grands volumes de données — liés ou non, structurés et non structurés.
Mais accomplir ces prouesses nécessite bien plus que simplement accumuler de grandes quantités de données. « Tirer le sens de ces volumes de Big Data nécessite des outils et technologies de pointe capables d'analyser et d'extraire des connaissances utiles à partir de flux d'information vastes et diversifiés », ont écrit Tom Kalil et Fen Zhao du Bureau de la Politique de Science et Technologie de la Maison Blanche dans un article sur le blog de l'OSTP.
La Maison Blanche a fait un pas vers l'aide des agences à trouver ces technologies lorsqu'elle a établi l'Initiative nationale de recherche et développement sur le Big Data en 2012. L'initiative comprenait plus de 200 millions de dollars pour tirer le meilleur parti de l'explosion du Big Data et des outils nécessaires pour l'analyser.
Les défis posés par le Big Data sont presque aussi ardues que sa promesse est encourageante. Le stockage efficace des données est l'un de ces défis. Comme toujours, les budgets sont serrés, donc les agences doivent minimiser le prix par mégaoctet du stockage et maintenir les données facilement accessibles pour que les utilisateurs puissent les obtenir quand ils le veulent et comme ils en ont besoin. La sauvegarde de grandes quantités de données intensifie le défi.
L'analyse efficace des données est un autre défi majeur. De nombreuses agences utilisent des outils commerciaux qui leur permettent de passer en revue les montagnes de données, repérant des tendances qui peuvent les aider à fonctionner plus efficacement. (Une étude récente de MeriTalk a révélé que les dirigeants informatiques fédéraux pensent que le Big Data pourrait aider les agences à économiser plus de 500 milliards de dollars tout en accomplissant leurs objectifs de mission.).
Des outils Big Data développés sur mesure permettent également aux agences de répondre au besoin d'analyser leurs données. Par exemple, le groupe d'analytics computationnels du Laboratoire national d'Oak Ridge a mis à disposition de autres agences son système d'analyse de données Piranha. Le système a aidé les chercheurs médicaux à trouver un lien qui peut alerter les médecins des anévrismes aortiques avant qu'ils ne surviennent. Il est également utilisé pour des tâches plus banales, telles que le tri des CV pour connecter les candidats à l'emploi avec les gestionnaires de recrutement.
Une introduction pratique à l'analyse de données et au Big Data - 3 jours
21 HeuresLes participants qui complètent cette formation en présentiel animée par un instructeur à Canada acquerront une compréhension pratique et concrète du Big Data, ainsi que des technologies, méthodologies et outils qui lui sont associés.
Les participants auront l'occasion de mettre ces connaissances en pratique grâce à des exercices pratiques. Les interactions en groupe et les commentaires de l'instructeur constituent un élément important de la formation.
Le cours débute par une introduction aux concepts fondamentaux du Big Data, puis aborde les langages de programmation et les méthodologies utilisés pour réaliser des analyses de données. Enfin, nous discutons des outils et de l'infrastructure qui permettent le stockage du Big Data, le traitement distribué et la scalabilité.
Big Data et Analyse Avancée
42 HeuresLa Big Data et l'analyse avancée consistent à appliquer des techniques et des outils sophistiqués pour analyser de grands ensembles de données complexes, afin d'en extraire des informations exploitables et de soutenir la prise de décision stratégique.
Cette formation en présentiel, animée par un formateur (en ligne ou sur site), s'adresse aux professionnels de la data de niveau avancé souhaitant exploiter des méthodes analytiques de pointe et les technologies du Big Data pour mener des analyses prédictives, prescriptives et en temps réel.
À l'issue de cette formation, les participants seront capables de :
- Concevoir et mettre en œuvre des pipelines de traitement de données à grande échelle pour des données structurées et non structurées.
- Appliquer des techniques avancées d'apprentissage automatique (machine learning) et d'apprentissage profond (deep learning) à des ensembles de données massifs.
- Exploiter des frameworks de calcul distribué pour l'analyse en temps réel et le streaming de données.
- Intégrer l'analyse Big Data dans les systèmes de business intelligence (BI) et de prise de décision.
Format de la formation
- Cours interactif et discussions.
- De nombreux exercices et pratiques.
- Implémentation pratique dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin de convenir des détails.
Apache NiFi pour les administrateurs
21 HeuresApache NiFi est une plateforme open source d'intégration de données et de traitement d'événements basée sur des flux. Elle permet le routage, la transformation et la médiation entre systèmes en temps réel et automatisés, grâce à une interface web et un contrôle fin des opérations.
Cette formation en présentiel ou à distance, animée par un formateur expert, s'adresse aux administrateurs et ingénieurs de niveau intermédiaire souhaitant déployer, gérer, sécuriser et optimiser les flux de données NiFi dans des environnements de production.
À l'issue de cette formation, les participants seront en mesure de :
- Installer, configurer et maintenir des clusters Apache NiFi.
- Concevoir et gérer des flux de données provenant de diverses sources et destinations.
- Mettre en œuvre l'automatisation des flux, le routage et la logique de transformation.
- Optimiser les performances, surveiller les opérations et résoudre les problèmes.
Format de la formation
- Conférence interactive avec discussions sur des architectures réelles.
- Laboratoires pratiques : construction, déploiement et gestion des flux.
- Exercices scénarisés dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'organiser cela.
PySpark et apprentissage automatique
21 HeuresCette formation offre une introduction pratique à la création de pipelines de traitement de données et d'apprentissage automatique évolutifs à l'aide de PySpark. Les participants apprennent le fonctionnement d'Apache Spark au sein des écosystèmes modernes de Big Data et les méthodes pour traiter efficacement de grands ensembles de données en appliquant les principes du calcul distribué.
Fondamentaux d'Apache Spark
21 HeuresCette formation en direct, dirigée par un instructeur en <lieu> (en ligne ou sur site), s'adresse aux ingénieurs qui souhaitent mettre en place et déployer un système Apache Spark pour traiter de très grands volumes de données.
À la fin de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark.
- Traiter et analyser rapidement de très grands ensembles de données.
- Comprendre la différence entre Apache Spark et Hadoop MapReduce, ainsi que les contextes d'utilisation de chacun.
- Intégrer Apache Spark à d'autres outils d'apprentissage automatique.
Administration d'Apache Spark
35 HeuresCette formation en direct, animée par un formateur, à Canada (en ligne ou en présentiel), s'adresse aux administrateurs système de niveau débutant à intermédiaire souhaitant déployer, entretenir et optimiser des clusters Spark.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Apache Spark dans divers environnements.
- Gérer les ressources du cluster et surveiller les applications Spark.
- Optimiser les performances des clusters Spark.
- Mettre en œuvre des mesures de sécurité et assurer une haute disponibilité.
- Dépanner et corriger les problèmes courants de Spark.
Apache Spark dans le cloud
21 HeuresLa courbe d'apprentissage d'Apache Spark est assez raide au début, car il faut investir beaucoup d'efforts pour obtenir les premiers résultats. Ce cours vise à franchir rapidement cette étape initiale difficile. À l'issue de cette formation, les participants comprendront les bases d'Apache Spark, sauront clairement différencier un RDD d'un DataFrame, maîtriseront les API Python et Scala, et comprendront le rôle des executeurs et des tâches, entre autres. En suivant les meilleures pratiques, ce cours met un accent particulier sur le déploiement dans le cloud, ainsi que sur Databricks et AWS. Les apprenants découvriront également les différences entre AWS EMR et AWS Glue, l'un des derniers services Spark proposés par AWS.
PUBLIC CIBLE :
Ingénieur en données, Développeur DevOps, Data Scientist
Python et Spark pour les mégadonnées (PySpark)
21 HeuresLors de cette formation en présentiel animée par un formateur à Canada, les participants apprendront à utiliser Python et Spark conjointement pour analyser les mégadonnées, tout en réalisant des exercices pratiques.
À la fin de cette formation, les participants seront en mesure de :
- Apprendre à utiliser Spark avec Python pour analyser les mégadonnées.
- Réaliser des exercices qui reproduisent des scénarios du monde réel.
- Utiliser divers outils et techniques d'analyse des mégadonnées avec PySpark.
Python, Spark et Hadoop pour les données massives
21 HeuresCette formation en présentiel ou en ligne, encadrée par un formateur, dans <lieu> s'adresse aux développeurs souhaitant utiliser et intégrer Spark, Hadoop et Python pour traiter, analyser et transformer des ensembles de données volumineux et complexes.
À l'issue de cette formation, les participants seront capables de :
- Configurer l'environnement nécessaire pour commencer à traiter des données massives avec Spark, Hadoop et Python.
- Comprendre les fonctionnalités, les composants clés et l'architecture de Spark et Hadoop.
- Apprendre à intégrer Spark, Hadoop et Python pour le traitement des données massives.
- Explorer les outils de l'écosystème Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop, Kafka et Flume).
- Construire des systèmes de recommandation basés sur le filtrage collaboratif, similaires à ceux utilisés par Netflix, YouTube, Amazon, Spotify et Google.
- Utiliser Apache Mahout pour mettre à l'échelle les algorithmes d'apprentissage automatique.
Apache Spark SQL
7 HeuresSpark SQL est le module d'Apache Spark dédié au traitement des données structurées et non structurées. Il fournit des informations sur la structure des données ainsi que sur les calculs effectués, ce qui permet d'optimiser les performances. On utilise couramment Spark SQL pour deux objectifs principaux :
- exécuter des requêtes SQL.
- lire des données depuis une installation Hive existante.
Lors de cette formation en présentiel ou à distance animée par un instructeur, les participants apprendront à analyser divers types de jeux de données à l'aide de Spark SQL.
À l'issue de cette formation, les participants seront capables de :
- Installer et configurer Spark SQL.
- Effectuer des analyses de données avec Spark SQL.
- Interroger des jeux de données dans différents formats.
- Visualiser les données et les résultats des requêtes.
Format de la formation
- Cours interactifs et discussions.
- Nombreux exercices et mises en pratique.
- Mises en œuvre concrètes dans un environnement de laboratoire en direct.
Options de personnalisation de la formation
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin d'en convenir.
Stratio : Modules Rocket et Intelligence avec PySpark
14 HeuresStratio est une plateforme centrée sur les données qui intègre le big data, l'IA et la gouvernance dans une seule et même solution. Ses modules Rocket et Intelligence permettent d'explorer, de transformer rapidement les données et de réaliser des analyses avancées dans les environnements d'entreprise.
Cette formation en direct, encadrée par un formateur (en ligne ou en présentiel), s'adresse aux professionnels des données de niveau intermédiaire souhaitant utiliser efficacement les modules Rocket et Intelligence de Stratio avec PySpark, en mettant l'accent sur les structures itératives, les fonctions définies par l'utilisateur et la logique avancée des données.
À l'issue de cette formation, les participants seront capables de :
- Naviguer au sein de la plateforme Stratio et travailler avec les modules Rocket et Intelligence.
- Appliquer PySpark dans le contexte de l'ingestion, de la transformation et de l'analyse des données.
- Utiliser des boucles et une logique conditionnelle pour contrôler les flux de données et les tâches d'ingénierie des fonctionnalités (feature engineering).
- Créer et gérer des fonctions définies par l'utilisateur (UDF) pour des opérations de données réutilisables dans PySpark.
Format du cours
- Cours interactif et discussions.
- Nombreux exercices et mises en pratique.
- Implémentation pratique dans un environnement de laboratoire en direct.
Options de personnalisation du cours
- Pour demander une formation personnalisée pour ce cours, veuillez nous contacter afin de prendre les arrangements nécessaires.