Plan du cours
Introduction
Installation et configuration de Dataiku Data Science Studio (DSS)
- Configuration système requise pour Dataiku DSS
- Configuration des intégrations Apache Hadoop et Apache Spark
- Configuration de Dataiku DSS avec des proxys web
- Migration d'autres plateformes vers Dataiku DSS
Aperçu des fonctionnalités et de l'architecture de Dataiku DSS
- Objets et graphiques fondamentaux de Dataiku DSS
- Qu'est-ce qu'une recette dans Dataiku DSS ?
- Types de jeux de données pris en charge par Dataiku DSS
Création d'un projet Dataiku DSS
Définition de jeux de données pour se connecter à des ressources de données dans Dataiku DSS
- Utilisation des connecteurs et formats de fichiers DSS
- Formats DSS standard vs. formats spécifiques à Hadoop
- Téléchargement de fichiers pour un projet Dataiku DSS
Aperçu du système de fichiers serveur dans Dataiku DSS
Création et utilisation de dossiers gérés
- Recette Dataiku DSS pour fusionner des dossiers
- Dossiers gérés locaux vs. non-locaux
Création d'un jeu de données système de fichiers à partir du contenu de dossiers gérés
- Réalisation de nettoyages avec une recette de code DSS
Travailler avec des jeux de données de métriques et des jeux de données internes de statistiques
Mise en œuvre de la recette de téléchargement DSS pour un jeu de données HTTP
Relocalisation des jeux de données SQL et HDFS à l'aide de Dataiku DSS
Ordonnancement des jeux de données dans Dataiku DSS
- Ordonnancement par le writer vs. ordonnancement au moment de la lecture
Exploration et préparation de visualisations de données pour un projet Dataiku DSS
Aperçu des schémas, types de stockage et significations dans Dataiku
Réalisation de scripts de nettoyage, normalisation et enrichissement des données dans Dataiku DSS
Travailler avec l'interface de graphiques Dataiku DSS et les types d'agrégations visuelles
Utilisation de la fonctionnalité de statistiques interactives de DSS
- Analyse univariée vs. analyse bivariée
- Utilisation de l'outil d'analyse en composantes principales (PCA) de DSS
Aperçu du machine learning avec Dataiku DSS
- Machine learning supervisé vs. non-supervisé
- Références pour les algorithmes de ML et la gestion des caractéristiques dans DSS
- Deep Learning avec Dataiku DSS
Aperçu du flux dérivé des jeux de données et recettes DSS
Transformation de jeux de données existants dans DSS à l'aide de recettes visuelles
Utilisation de recettes DSS basées sur un code défini par l'utilisateur
Optimisation de l'exploration et de l'expérimentation du code avec les cahiers de code DSS
Écriture de visualisations avancées DSS et de fonctionnalités de front-end personnalisées avec des webapps
Travailler avec la fonctionnalité de rapports de code Dataiku DSS
Partage d'éléments de projet de données et familiarisation avec le tableau de bord DSS
Conception et empaquetage d'un projet Dataiku DSS en tant qu'application réutilisable
Aperçu des méthodes avancées dans Dataiku DSS
- Mise en œuvre de partitionnement optimisé des jeux de données à l'aide de DSS
- Exécution de parties spécifiques du traitement DSS via des calculs dans des conteneurs Kubernetes
Aperçu de la collaboration et du contrôle de version dans Dataiku DSS
Mise en œuvre de scénarios d'automatisation, métriques et contrôles pour le test des projets DSS
Déploiement et mise à jour d'un projet avec le nœud d'automatisation et les bundles DSS
Travailler avec des API en temps réel dans Dataiku DSS
- API supplémentaires et API REST dans DSS
Analyse et prévision de séries temporelles Dataiku DSS
Sécurisation d'un projet dans Dataiku DSS
- Gestion des autorisations du projet et des autorisations du tableau de bord
- Mise en œuvre d'options de sécurité avancées
Intégration de Dataiku DSS avec le cloud
Dépannage
Résumé et conclusion
Pré requis
- Expérience avec les langages de programmation Python, SQL et R
- Connaissances de base du traitement des données avec Apache Hadoop et Spark
- Compréhension des concepts d'apprentissage automatique et des modèles de données
- Formation en analyses statistiques et concepts de science des données
- Expérience dans la visualisation et la communication des données
Audience
- Ingénieurs
- Scientifiques des données
- Analystes de données