Prenez contact avec nous

Plan du cours

Introduction à l'IA multimodale et à Ollama

  • Aperçu de l'apprentissage multimodal
  • Défis clés de l'intégration vision-langage
  • Capacités et architecture d'Ollama

Configuration de l'environnement Ollama

  • Installation et configuration d'Ollama
  • Gestion du déploiement de modèles locaux
  • Intégration d'Ollama avec Python et Jupyter

Travail avec des entrées multimodales

  • Intégration de texte et d'images
  • Incorporation de l'audio et de données structurées
  • Conception de pipelines de prétraitement

Applications de compréhension de documents

  • Extraction d'informations structurées à partir de PDF et d'images
  • Combinaison de la reconnaissance optique de caractères (OCR) avec des modèles de langage
  • Conception de flux de travail intelligents d'analyse documentaire

Réponse aux questions visuelles (VQA)

  • Configuration de jeux de données et de références pour la VQA
  • Entraînement et évaluation des modèles multimodaux
  • Construction d'applications VQA interactives

Conception d'agents multimodaux

  • Principes de conception d'agents avec raisonnement multimodal
  • Combinaison de la perception, du langage et de l'action
  • Déploiement d'agents pour des cas d'usage concrets

Intégration avancée et optimisation

  • Affinement des modèles multimodaux avec Ollama
  • Optimisation des performances d'inférence
  • Considérations relatives à l'évolutivité et au déploiement

Résumé et prochaines étapes

Pré requis

  • Bonne compréhension des concepts d'apprentissage automatique
  • Expérience avec des frameworks d'apprentissage profond tels que PyTorch ou TensorFlow
  • Connaissance du traitement du langage naturel et de la vision par ordinateur

Audience

  • Ingénieurs en apprentissage automatique
  • Chercheurs en IA
  • Développeurs de produits intégrant des flux de travail combinant vision et texte
 21 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires