Plan du cours

Introduction à l'échelle d'Ollama

  • Architecture et considérations sur l'échelle d'Ollama
  • Bottlenecks courants dans les déploiements multi-utilisateurs
  • Méthodes recommandées pour la préparation de l'infrastructure

Allouer des ressources et optimiser le GPU

  • Stratégies efficaces d'utilisation CPU/GPU
  • Considérations sur la mémoire et la bande passante
  • Contraintes de ressources au niveau des conteneurs

Déploiement avec des conteneurs et Kubernetes

  • Conteneurisation d'Ollama avec Docker
  • Exécution d'Ollama dans les clusters Kubernetes
  • Balancing de charge et découverte de service

Autoscaling et Batching

  • Définir des politiques d'auto-échelle pour Ollama
  • Techniques d'inférence en lots pour l'optimisation du débit
  • Courbes de latence contre débit

Optimisation de la Latence

  • Profiling des performances d'inférence
  • Stratégies de mise en cache et préchauffage du modèle
  • Réduction des surcoûts I/O et de communication

Surveillance et Observabilité

  • Intégration de Prometheus pour les métriques
  • Création de tableaux de bord avec Grafana
  • Alertes et gestion des incidents pour l'infrastructure Ollama

Gestion des Coûts et Stratégies d'échelle

  • Allouer le GPU en fonction des coûts
  • Considérations entre déploiement dans le cloud et sur site
  • Stratégies pour un échelonnement durable

Récapitulation et Étapes Suivantes

Pré requis

  • Expérience de l'administration du système Linux
  • Compréhension de la conteneurisation et de l'orchestration
  • Familiarité avec le déploiement des modèles d'apprentissage automatique

Public cible

  • Ingénieurs DevOps
  • Équipes d'infrastructure ML
  • Ingénieurs de fiabilité des sites
 21 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires