Plan du cours

Préparation des modèles d'apprentissage automatique pour le déploiement

  • Emballage des modèles avec Docker
  • Exportation des modèles de TensorFlow et PyTorch
  • Considérations sur la versionning et le stockage

Service de modèles sur Kubernetes

  • Aperçu des serveurs d'inférence
  • Déploiement de TensorFlow Serving et TorchServe
  • Configuration des points de terminaison de modèles

Techniques d'optimisation de l'inférence

  • Stratégies de batch
  • Gestion des requêtes concurrentes
  • Ajustement de la latence et du débit

Auto-échelonnage des charges de travail ML

  • Horizontal Pod Autoscaler (HPA)
  • Vertical Pod Autoscaler (VPA)
  • Kubernetes Event-Driven Autoscaling (KEDA)

Provisionnement et gestion des ressources GPU

  • Configuration des nœuds GPU
  • Vue d'ensemble du plugin de dispositif NVIDIA
  • Demandes et limites de ressources pour les charges de travail ML

Stratégies de déploiement et de mise en production des modèles

  • Déploiements bleu/vert
  • Modèles de déploiement canary
  • Tests A/B pour l'évaluation des modèles

Surveillance et observabilité de l'IA en production

  • Métriques pour les charges de travail d'inférence
  • Pratiques de journalisation et de traçage
  • Tableaux de bord et alertes

Considérations sur la sécurité et la fiabilité

  • Sécurisation des points de terminaison de modèles
  • Politiques réseau et contrôle d'accès
  • Assurance de la haute disponibilité

Résumé et étapes suivantes

Pré requis

  • Une compréhension des flux de travail d'applications conteneurisées
  • Une expérience avec les modèles d'apprentissage automatique basés sur Python
  • Une familiarité avec les principes fondamentaux de Kubernetes

Public cible

  • Ingénieurs en apprentissage automatique (ML)
  • Ingénieurs DevOps
  • Équipes d'ingénierie de plateforme
 14 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (5)

Cours à venir

Catégories Similaires