Prenez contact avec nous

Plan du cours

Aperçu des technologies de reconnaissance vocale

  • Histoire et évolution de la reconnaissance vocale
  • Modèles acoustiques, modèles linguistiques et décodage
  • Architectures modernes : RNN, transformeurs et Whisper

Prétraitement audio et bases de la transcription

  • Gestion des formats audio et des taux d’échantillonnage
  • Nettoyage, tronçonnage et segmentation de l’audio
  • Génération de texte à partir de l’audio : temps réel vs par lots

Prise en main de Whisper et d’autres API

  • Installation et utilisation de OpenAI Whisper
  • Appel des API cloud (Google, Azure) pour la transcription
  • Comparaison des performances, de la latence et des coûts

Langue, accents et adaptation au domaine

  • Travail avec plusieurs langues et accents
  • Vocabulaires personnalisés et tolérance au bruit
  • Traitement des langages juridique, médical ou technique

Formatage de la sortie et intégration

  • Ajout d’horodatages, de ponctuation et d’étiquettes de locuteur
  • Exportation vers des formats texte, SRT ou JSON
  • Intégration des transcriptions dans des applications ou des bases de données

Laboratoires d’implémentation par cas d’utilisation

  • Transcription de réunions, d’entrevues ou de podcasts
  • Systèmes de commande vocale-à-texte
  • Sous-titrage en temps réel pour des flux vidéo/audio

Évaluation, limites et éthique

  • Métriques de précision et évaluation des modèles
  • Biais et équité dans les modèles de parole
  • Considérations relatives à la confidentialité et à la conformité

Résumé et prochaines étapes

Pré requis

  • Une compréhension des concepts généraux de l’intelligence artificielle et de l’apprentissage automatique
  • Une familiarité avec les formats de fichiers audio ou multimédias et les outils associés

Public cible

  • Scientifiques des données et ingénieurs en IA travaillant avec des données vocales
  • Développeurs de logiciels créant des applications basées sur la transcription
  • Organisations explorant la reconnaissance vocale pour l’automatisation
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires