Plan du cours

Aperçu des capacités d'optimisation de CANN

  • Comment la performance d'inférence est gérée dans CANN
  • Objectifs d'optimisation pour les systèmes IA embarqués et intégrés
  • Compréhension de l'utilisation du AI Core et de l'allocation mémoire

Utilisation du Graph Engine pour l'analyse

  • Introduction au Graph Engine et à la pipeline d'exécution
  • Visualisation des graphes d'opérateurs et des métriques de runtime
  • Modification des graphes de calcul pour l'optimisation

Outils de profilage et métriques de performance

  • Utilisation de l'outil de profilage CANN (profiler) pour l'analyse des charges de travail
  • Analyse du temps d'exécution des noyaux et des goulots d'étranglement
  • Profilage des accès mémoire et stratégies de tiling

Développement d'opérateurs personnalisés avec TIK

  • Aperçu de TIK et du modèle de programmation des opérateurs
  • Implémentation d'un opérateur personnalisé en utilisant le DSL TIK
  • Test et benchmarking des performances des opérateurs

Optimisation avancée des opérateurs avec TVM

  • Introduction à l'intégration de TVM dans CANN
  • Stratégies d'auto-tuning pour les graphes de calcul
  • Quand et comment basculer entre TVM et TIK

Techniques d'optimisation mémoire

  • Gestion du layout mémoire et du placement des tampons
  • Techniques pour réduire la consommation de mémoire sur puce
  • Bonnes pratiques pour l'exécution asynchrone et le réutilisation

Déploiement réel et études de cas

  • Étude de cas : optimisation des performances d'un pipeline de caméras intelligentes pour les villes intelligentes
  • Étude de cas : optimisation de la pile d'inférence pour les véhicules autonomes
  • Lignes directrices pour le profilage itératif et l'amélioration continue

Résumé et prochaines étapes

Pré requis

  • Compréhension approfondie des architectures de modèles d'apprentissage profond et des flux de travail d'entraînement
  • Expérience du déploiement de modèles avec CANN, TensorFlow ou PyTorch
  • Familiarité avec l'interface de ligne de commande Linux, la programmation de scripts shell et Python

Publique visé

  • Ingénieurs en performance IA
  • Spécialistes d'optimisation d'inférence
  • Développeurs travaillant avec l'IA embarquée ou les systèmes temps réel
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires