Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Aperçu des technologies de reconnaissance vocale
- Histoire et évolution de la reconnaissance vocale
- Modèles acoustiques, modèles linguistiques et décodage
- Architectures modernes : RNN, transformeurs et Whisper
Prétraitement audio et bases de la transcription
- Gestion des formats audio et des taux d’échantillonnage
- Nettoyage, tronçonnage et segmentation de l’audio
- Génération de texte à partir de l’audio : temps réel vs par lots
Prise en main de Whisper et d’autres API
- Installation et utilisation de OpenAI Whisper
- Appel des API cloud (Google, Azure) pour la transcription
- Comparaison des performances, de la latence et des coûts
Langue, accents et adaptation au domaine
- Travail avec plusieurs langues et accents
- Vocabulaires personnalisés et tolérance au bruit
- Traitement des langages juridique, médical ou technique
Formatage de la sortie et intégration
- Ajout d’horodatages, de ponctuation et d’étiquettes de locuteur
- Exportation vers des formats texte, SRT ou JSON
- Intégration des transcriptions dans des applications ou des bases de données
Laboratoires d’implémentation par cas d’utilisation
- Transcription de réunions, d’entrevues ou de podcasts
- Systèmes de commande vocale-à-texte
- Sous-titrage en temps réel pour des flux vidéo/audio
Évaluation, limites et éthique
- Métriques de précision et évaluation des modèles
- Biais et équité dans les modèles de parole
- Considérations relatives à la confidentialité et à la conformité
Résumé et prochaines étapes
Pré requis
- Une compréhension des concepts généraux de l’intelligence artificielle et de l’apprentissage automatique
- Une familiarité avec les formats de fichiers audio ou multimédias et les outils associés
Public cible
- Scientifiques des données et ingénieurs en IA travaillant avec des données vocales
- Développeurs de logiciels créant des applications basées sur la transcription
- Organisations explorant la reconnaissance vocale pour l’automatisation
14 Heures