Prenez contact avec nous

Plan du cours

Introduction aux modèles de vision-language

  • Aperçu des VLM et de leur rôle dans l'IA multimodale
  • Architectures populaires : CLIP, Flamingo, BLIP, etc.
  • Cas d'utilisation : recherche, légendage, systèmes autonomes, analyse de contenu

Préparation de l'environnement d'ajustement fin

  • Configuration d'OpenCLIP et d'autres bibliothèques VLM
  • Formats de jeux de données pour les paires image-texte
  • Pipelines de prétraitement pour les entrées visuelles et linguistiques

Ajustement fin de CLIP et de modèles similaires

  • Perte contrastive et espaces d'intégration conjoints
  • Pratique : ajustement fin de CLIP sur des jeux de données personnalisés
  • Gestion de données spécifiques à un domaine et multilingues

Techniques avancées d'ajustement fin

  • Utilisation de LoRA et de méthodes basées sur des adaptateurs pour l'efficacité
  • Réglage des prompts et injection de prompts visuels
  • Compromis entre évaluation zéro-shot et ajustement fin

Évaluation et mise en référence (benchmarking)

  • Métriques pour les VLM : précision de récupération, BLEU, CIDEr, rappel
  • Diagnostique d'alignement visuel-texte
  • Visualisation des espaces d'intégration et des erreurs de classification

Déploiement et utilisation dans des applications réelles

  • Exportation de modèles pour l'inférence (TorchScript, ONNX)
  • Intégration des VLM dans des pipelines ou des API
  • Considérations sur les ressources et mise à l'échelle des modèles

Études de cas et scénarios appliqués

  • Analyse des médias et modération de contenu
  • Recherche et récupération dans le commerce électronique et les bibliothèques numériques
  • Interaction multimodale dans la robotique et les systèmes autonomes

Résumé et prochaines étapes

Pré requis

  • Une compréhension de l'apprentissage profond pour la vision et le TALN (traitement automatique du langage naturel)
  • De l'expérience avec PyTorch et les modèles basés sur des transformateurs
  • Une familiarité avec les architectures de modèles multimodaux

Audience

  • Ingénieurs en vision par ordinateur
  • Développeurs d'IA
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires