Plan du cours

Introduction et fondations diagnostiques

  • Aperçu des modes de défaillance dans les systèmes LLM et problèmes spécifiques à Ollama courants
  • Établissement d'expériences reproductibles et d'environnements contrôlés
  • Outil de débogage : journaux locaux, captures requête/réponse et encadrement (sandboxing)

Réplication et isolation des échecs

  • Techniques pour créer des exemples minimales échouant et des graines
  • Interactions avec ou sans état : isolement des bugs liés au contexte
  • Déterminisme, aléatoire et contrôle du comportement non déterministe

Évaluation comportementale et métriques

  • Métriques quantitatives : précision, variantes ROUGE/BLEU, calibration et proxies de perplexité
  • Évaluations qualitatives : notation avec l'homme dans la boucle et conception des grilles d'évaluation (rubrics)
  • Vérifications spécifiques à la tâche et critères d'acceptation

Tests automatisés et régression

  • Tests unitaires pour les prompts et composants, tests de scénarios et bout en bout (end-to-end)
  • Création de batteries de tests de régression et de bases d'exemples idéaux (golden examples)
  • Intégration CI/CD pour la mise à jour des modèles Ollama et les portes de validation automatisées

Observabilité et surveillance

  • Journaux structurés, traces distribuées et ID de corrélation
  • Métriques opérationnelles clés : latence, utilisation des tokens, taux d'erreur et signaux de qualité
  • Alertes, tableaux de bord et SLIs/SLOs pour les services basés sur le modèle

Analyse avancée de la cause racine (root cause analysis)

  • Tracing à travers des prompts graphiques, appels d'outils et flux multi-tours
  • Diagnostics A/B comparatifs et études ablatives
  • Ouverture de données, débogage de jeux de données et résolution des échecs induits par les jeux de données

Sécurité, robustesse et stratégies de remédiation

  • Mitigations : filtrage, ancrage (grounding), augmentation par recherche et structure d'incitation (prompt scaffolding)
  • Stratégies de retrait, canari et déploiements en phases pour les mises à jour des modèles
  • Analyse post-mortem, leçons apprises et boucles d'amélioration continue

Récapitulation et prochaines étapes

Pré requis

  • Expérience solide en création et déploiement d'applications de modèles à grande échelle (LLM)
  • Familiarité avec les workflows Ollama et l'hébergement de modèles
  • Confort avec Python, Docker et outils de base d'observabilité

Public cible

  • Ingénieurs IA
  • Professionnels ML Ops
  • Équipes QA responsables des systèmes LLM en production
 35 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires