Plan du cours

Fondements du Débogage et de l'Évaluation Mastra

  • Comprendre les modèles de comportement des agents et les modes d'échec
  • Principes fondamentaux du débogage au sein de Mastra
  • Évaluer les actions déterministes et non déterministes des agents

Configuration des Environnements pour le Test des Agents

  • Configurer des bac à sable de test et des espaces d'évaluation isolés
  • Capturer des journaux, des traces et des données de télémétrie pour une analyse détaillée
  • Préparer des ensembles de données et des prompts pour des tests structurés

Débogage du Comportement des Agents IA

  • Traquer les chemins de décision et les signaux de raisonnement internes
  • Identifier les hallucinations, les erreurs et les comportements non désirés
  • Utiliser des tableaux de bord d'observabilité pour l'enquête sur la cause première

Métriques d'Évaluation et Cadres de Benchmarking

  • Définir des métriques quantitatives et qualitatives d'évaluation
  • Mesurer la précision, la cohérence et le respect du contexte
  • Appliquer des ensembles de données de référence pour une évaluation reproductible

Ingénierie de Fiabilité pour les Agents IA

  • Concevoir des tests de fiabilité pour les agents en fonctionnement continu
  • Détecter le décalage et la dégradation des performances des agents
  • Mettre en œuvre des garde-fous pour les workflows critiques

Processus de Contrôle de Qualité et d'Automatisation

  • Construire des pipelines QA pour une évaluation continue
  • Automatiser les tests de régression pour les mises à jour des agents
  • Intégrer le QA avec CI/CD et les workflows d'entreprise

Techniques Avancées de Réduction des Hallucinations

  • Stratégies de prompting pour réduire les sorties non désirées
  • Boucles de validation et mécanismes d'autovérification
  • Expérimenter avec des combinaisons de modèles pour améliorer la fiabilité

Rapports, Surveillance et Amélioration Continue

  • Élaborer des rapports QA et des bulletins de notation d'agents
  • Surveiller le comportement à long terme et les modèles d'erreur
  • Itérer sur les cadres d'évaluation pour des systèmes en évolution

Résumé et Étapes Suivantes

Pré requis

  • Une compréhension du comportement des agents IA et des interactions de modèles
  • Une expérience en débogage ou en test de systèmes logiciels complexes
  • Une familiarité avec les outils d'observabilité ou de journalisation

Public cible

  • Ingénieurs QA
  • Ingénieurs de fiabilité IA
  • Développeurs responsables de la qualité et des performances des agents
 21 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires