Prenez contact avec nous

Plan du cours

Fondamentaux du déploiement de Tencent Hunyuan en production

  • Aperçu des scénarios de service des modèles Tencent Hunyuan.
  • Caractéristiques de production des modèles volumineux et à experts moindres (MoE).
  • Goulots d'étranglement courants en matière de latence, de débit et de coûts.
  • Définition des objectifs de niveau de service (SLA) pour les charges de travail d'inférence.

Architecture de déploiement et flux de service

  • Composants clés d'une pile d'inférence en production.
  • Choix entre les modèles de déploiement conteneurisé, sur site et cloud.
  • Chargement des modèles, routage des requêtes et allocation des GPU de base.
  • Conception pour la fiabilité et la simplicité opérationnelle.

Optimisation de la latence en pratique

  • Utilisation de moteurs d'inférence optimisés tels que TensorRT, lorsque cela est applicable.
  • Concepts du cache KV et ajustement pratique du cache.
  • Réduction des délais de démarrage, de préchauffement (warmup) et de réponse.
  • Mesure du temps de génération du premier jeton et de la vitesse de génération des jetons.

Débit, regroupement (batching) et efficacité des GPU

  • Stratégies de regroupement continu et de regroupement des requêtes.
  • Gestion de la concurrence et du comportement des files d'attente.
  • Amélioration de l'utilisation des GPU sans nuire à l'expérience utilisateur.
  • Gestion des requêtes à contexte long et des charges de travail mixtes.

Quantification et contrôle des coûts

  • Importance de la quantification pour le service en production.
  • Compromis pratiques entre les options de précision courantes telles que FP16, INT8, etc.
  • Équilibre entre la qualité du modèle, la latence et le coût de l'infrastructure.
  • Élaboration d'une liste de vérification simple pour l'optimisation des coûts.

Opérations, surveillance et examen de la préparation

  • Déclencheurs d'autoscaling pour les services d'inférence.
  • Surveillance de la latence, du débit, de l'utilisation du cache et de l'état des GPU.
  • Bases de la journalisation, de l'alerte et de la réponse aux incidents.
  • Examen d'un déploiement de référence et création d'un plan d'amélioration.

Pré requis

  • Compréhension de base du déploiement et des flux de travail d'inférence des grands modèles de langage.
  • Expérience avec les conteneurs, l'infrastructure cloud ou sur site et les services basés sur des API.
  • Connaissance pratique de Python ou des tâches d'ingénierie système.

Public cible

  • Ingénieurs ML déployant des LLM en environnement de production.
  • Ingénieurs plateforme responsables des services d'inférence basés sur des GPU.
  • Architectes solutions concevant des plateformes de service d'IA évolutives.
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires