Plan du cours
Introduction à l'apprentissage automatique
- Types d'apprentissage automatique – supervisé vs non supervisé
- Du apprentissage statistique à l'apprentissage automatique
- Le flux de travail de l'exploration de données : compréhension des besoins métier, préparation des données, modélisation, déploiement
- Choix du bon algorithme pour la tâche
- Surajustement et compromis biais-variance
Aperçu des bibliothèques Python et ML
- Pourquoi utiliser des langages de programmation pour le ML
- Choisir entre R et Python
- Cours accéléré Python et cahiers Jupyter
- Bibliothèques Python : pandas, NumPy, scikit-learn, matplotlib, seaborn
Test et évaluation des algorithmes ML
- Généralisation, surajustement et validation du modèle
- Stratégies d'évaluation : échantillon de retenue, validation croisée, bootstrap
- Métriques pour la régression : ME, MSE, RMSE, MAPE
- Métriques pour la classification : précision, matrice de confusion, classes déséquilibrées
- Visualisation des performances du modèle : courbe de profit, courbe ROC, courbe de levier
- Sélection de modèle et recherche en grille pour le réglage
Préparation des données
- Importation et stockage des données en Python
- Analyse exploratoire et statistiques descriptives
- Gestion des valeurs manquantes et des valeurs aberrantes
- Standardisation, normalisation et transformation
- Recodage des données qualitatives et nettoyage des données avec pandas
Algorithmes de classification
- Classification binaire vs multiclasse
- Régression logistique et fonctions de discrimination
- Naïve Bayes, k-plus proches voisins
- Arbres de décision : CART, Arbres aléatoires, Bagging, Boosting, XGBoost
- Machines à vecteurs de support et noyaux
- Techniques d'apprentissage par ensembles
Régression et prédiction numérique
- Méthode des moindres carrés et sélection des variables
- Méthodes de régularisation : L1, L2
- Régression polynomiale et modèles non linéaires
- Arbres de régression et splines
Apprentissage non supervisé
- Techniques de regroupement : k-moyennes, k-médoïdes, regroupement hiérarchique, cartes auto-organisatrices (SOM)
- Réduction de dimensionnalité : ACP, analyse factorielle, SVD
- Mise à l'échelle multidimensionnelle
Fouille de textes
- Prétraitement des textes et tokenisation
- Sac de mots, racinisation et lemmatisation
- Analyse des sentiments et fréquence des mots
- Visualisation des données textuelles avec des nuages de mots
Systèmes de recommandation
- Recommandation collaborative basée sur les utilisateurs et basée sur les éléments
- Conception et évaluation des moteurs de recommandation
Fouille de motifs d'association
- Ensembles fréquents et algorithme Apriori
- Analyse des paniers d'achat et ratio de levier
Détection des valeurs aberrantes
- Analyse des valeurs extrêmes
- Méthodes basées sur la distance et la densité
- Détection des valeurs aberrantes dans les données à haute dimension
Étude de cas sur l'apprentissage automatique
- Compréhension du problème métier
- Prétraitement des données et ingénierie des fonctionnalités
- Sélection du modèle et réglage des paramètres
- Évaluation et présentation des résultats
- Déploiement
Résumé et prochaines étapes
Pré requis
- Compréhension de base des statistiques et de l'algèbre linéaire
- Connaissance des concepts d'analyse de données ou d'intelligence économique
- Une certaine familiarité avec la programmation (de préférence Python ou R) est recommandée
- Intérêt pour l'apprentissage de l'apprentissage automatique appliqué pour des projets pilotés par les données
Public
- Analystes de données et scientifiques des données
- Statisticiens et professionnels de la recherche
- Développeurs et professionnels de l'informatique explorant les outils d'apprentissage automatique
- Toute personne impliquée dans des projets de science des données ou d'analyse prédictive
Nos clients témoignent (3)
Même en ayant dû manquer un jour à cause des réunions avec les clients, je me sens beaucoup plus clair sur les processus et techniques utilisés dans l'apprentissage automatique, ainsi que sur le moment où j'opterais pour une approche plutôt qu'une autre. Notre défi maintenant est de mettre en pratique ce que nous avons appris et de commencer à l'appliquer à notre domaine de problème.
Richard Blewett - Rock Solid Knowledge Ltd
Formation - Machine Learning – Data science
Traduction automatique
J'ai apprécié que la formation soit axée sur des exemples et de la programmation. Je pensais qu'il était impossible de condenser autant de contenu en trois jours de formation, mais j'avais tort. La formation a abordé de nombreux sujets et tout a été traité de manière très détaillée (en particulier l'ajustement des paramètres du modèle - je ne m'attendais pas à ce qu'il y ait du temps pour cela et j'ai été agréablement surpris).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Formation - Machine Learning – Data science
Traduction automatique
Il présente de nombreuses méthodes avec des scripts préparés - des matériaux très bien préparés et faciles à suivre.
Kamila Begej - GE Medical Systems Polska Sp. Zoo
Formation - Machine Learning – Data science
Traduction automatique