Prenez contact avec nous

Plan du cours

Introduction aux modèles multimodaux Mistral

  • Aperçu de Mistral Medium et des capacités multimodales.
  • Modèles d’OCR/documents et cas d’usage.
  • Intégration aux écosystèmes open source.

Pipelines d’OCR et de vision

  • Fondamentaux de l’OCR avec les modèles Mistral.
  • Prétraitement des images et des documents numérisés.
  • Extraction de texte structuré à partir d’images.

Compréhension de documents

  • Conception de pipelines NLP pour les documents.
  • Reconnaissance d’entités, résumés et classification.
  • Correspondance intermodalité entre textes et données visuelles.

Applications de recherche et de connaissances

  • Systèmes de recherche texte-visuelle.
  • Conception de recherche sémantique à partir de sorties d’OCR.
  • Répositoires de documents professionnels.

Applications assistives et interactives

  • Conception d’interfaces utilisateur pour assistants multimodaux.
  • Applications d’accessibilité (par exemple, conversion de la vision en texte).
  • Outils de productibilité en conditions réelles.

Performance et optimisation

  • Montée en charge des pipelines multimodaux.
  • Optimisation des performances d’inférence.
  • Évaluation des compromis entre précision et efficacité.

Études de cas et perspectives futures

  • Applications industrielles de l’IA multimodale.
  • Tendances de recherche en OCR et en IA documentaire.
  • Considérations relatives à l’IA responsable dans les tâches texte-visuelles.

Résumé et prochaines étapes

Pré requis

  • Compréhension des concepts de traitement automatique du langage (NLP).
  • Expérience avec Python et les frameworks d’apprentissage automatique (ML).
  • Connaissance des bases de la vision par ordinateur.

Public cible

  • Équipes produit
  • Chercheurs en ML
  • Ingénieurs ML appliqués
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires