Plan du cours

Aperçu des technologies de reconnaissance vocale

  • Histoire et évolution de la reconnaissance vocale
  • Modèles acoustiques, modèles linguistiques et décodage
  • Architectures modernes : RNNs, transformers et Whisper

Prétraitement audio et bases de la transcription

  • Gestion des formats audio et des taux d'échantillonnage
  • Nettoyage, rognage et segmentation audio
  • Génération de texte à partir de l'audio : en temps réel versus par lots

Manipulation pratique de Whisper et d'autres API

  • Installation et utilisation d'OpenAI Whisper
  • Appel d'API cloud (Google, Azure) pour la transcription
  • Comparaison des performances, de la latence et du coût

Langues, accents et adaptation à un domaine spécifique

  • Travail avec plusieurs langues et accents
  • Vocabulaires personnalisés et tolérance au bruit
  • Gestion des langages juridiques, médicaux ou techniques

Mise en forme de la sortie et intégration

  • Ajout d'horodatage, de ponctuation et de labels de locuteur
  • Exportation au format texte, SRT ou JSON
  • Intégration des transcriptions dans des applications ou des bases de données

Laboratoires d'implémentation de cas d'utilisation

  • Transcription de réunions, d'entretiens ou de podcasts
  • Systèmes de commande vocale vers texte
  • Sous-titres en temps réel pour des flux vidéo/audio

Évaluation, limitations et éthique

  • Métriques de précision et benchmarking des modèles
  • Biais et équité dans les modèles vocaux
  • Considérations sur la confidentialité et la conformité

Résumé et étapes suivantes

Pré requis

  • Une compréhension des concepts généraux de l'IA et de l'apprentissage automatique
  • Familiarité avec les formats et outils audio ou multimédia

Public cible

  • Data scientists et ingénieurs IA travaillant avec des données vocales
  • Développeurs de logiciels construisant des applications basées sur la transcription
  • Organisations explorant la reconnaissance vocale pour l'automatisation
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires