Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction aux modèles multimodaux Mistral
- Aperçu de Mistral Medium et des capacités multimodales.
- Modèles d’OCR/documents et cas d’usage.
- Intégration aux écosystèmes open source.
Pipelines d’OCR et de vision
- Fondamentaux de l’OCR avec les modèles Mistral.
- Prétraitement des images et des documents numérisés.
- Extraction de texte structuré à partir d’images.
Compréhension de documents
- Conception de pipelines NLP pour les documents.
- Reconnaissance d’entités, résumés et classification.
- Correspondance intermodalité entre textes et données visuelles.
Applications de recherche et de connaissances
- Systèmes de recherche texte-visuelle.
- Conception de recherche sémantique à partir de sorties d’OCR.
- Répositoires de documents professionnels.
Applications assistives et interactives
- Conception d’interfaces utilisateur pour assistants multimodaux.
- Applications d’accessibilité (par exemple, conversion de la vision en texte).
- Outils de productibilité en conditions réelles.
Performance et optimisation
- Montée en charge des pipelines multimodaux.
- Optimisation des performances d’inférence.
- Évaluation des compromis entre précision et efficacité.
Études de cas et perspectives futures
- Applications industrielles de l’IA multimodale.
- Tendances de recherche en OCR et en IA documentaire.
- Considérations relatives à l’IA responsable dans les tâches texte-visuelles.
Résumé et prochaines étapes
Pré requis
- Compréhension des concepts de traitement automatique du langage (NLP).
- Expérience avec Python et les frameworks d’apprentissage automatique (ML).
- Connaissance des bases de la vision par ordinateur.
Public cible
- Équipes produit
- Chercheurs en ML
- Ingénieurs ML appliqués
14 Heures