Prenez contact avec nous

Plan du cours

Introduction à la mise à l'échelle d'Ollama

  • Architecture d'Ollama et considérations relatives à la mise à l'échelle
  • Goulots d'étranglement courants dans les déploiements multi-utilisateurs
  • Meilleures pratiques pour la préparation de l'infrastructure

Allocation des ressources et optimisation du GPU

  • Stratégies d'utilisation efficace du CPU/GPU
  • Considérations relatives à la mémoire et à la bande passante
  • Contraintes de ressources au niveau des conteneurs

Déploiement avec des conteneurs et Kubernetes

  • Conteneurisation d'Ollama avec Docker
  • Exécution d'Ollama dans des clusters Kubernetes
  • Équilibrage de charge et découverte de services

Auto-mise à l'échelle et groupement par lots

  • Conception de politiques d'auto-mise à l'échelle pour Ollama
  • Techniques de groupement par lots pour l'optimisation du débit
  • Compromis entre latence et débit

Optimisation de la latence

  • Analyse des performances d'inférence
  • Stratégies de mise en cache et réchauffement des modèles
  • Réduction de la surcharge d'E/S et de communication

Surveillance et observabilité

  • Intégration de Prometheus pour les métriques
  • Création de tableaux de bord avec Grafana
  • Gestion des alertes et réponse aux incidents pour l'infrastructure Ollama

Gestion des coûts et stratégies de mise à l'échelle

  • Allocation des GPU consciente des coûts
  • Considérations relatives au déploiement dans le cloud versus sur site
  • Stratégies pour une mise à l'échelle durable

Résumé et prochaines étapes

Pré requis

  • Expérience en administration système sous Linux
  • Compréhension de la conteneurisation et de l'orchestration
  • Connaissance du déploiement de modèles d'apprentissage automatique

Public cible

  • Ingénieurs DevOps
  • Équipes en charge de l'infrastructure ML
  • Ingénieurs de la fiabilité des sites (SRE)
 21 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires