Prenez contact avec nous

Plan du cours

Introduction à la synthèse vocale et au clonage vocal

  • Aperçu de la synthèse de texte en parole (TTS) et de la synthèse vocale neuronale
  • Clonage vocal vs génération de parole : cas d’utilisation et limites
  • Modèles clés : Tacotron, WaveNet, FastSpeech, VITS

Utilisation des plateformes commerciales

  • Utilisation de ElevenLabs et Resemble AI
  • Création, clonage et édition de voix
  • Accès API et flux de travail de synthèse de texte en parole

Développement avec des outils open source

  • Installation et configuration de Coqui TTS
  • Entraînement de voix personnalisées et gestion des ensembles de données
  • Génération de parole avec contrôle fin (hauteur tonale, vitesse, émotion)

Préparation des données et gestion des ensembles de données vocales

  • Collecte et nettoyage des échantillons vocaux
  • Segmentage, étiquetage et alignement des transcriptions
  • Acquisition éthique et consentement pour l’utilisation de la voix

Intégration aux applications

  • Intégration du TTS dans des sites web et des applications
  • Création de systèmes IVR et de chatbots interactifs
  • Génération de dialogues synthétiques pour la vidéo et les jeux vidéo

Évaluation de la qualité et du réalisme

  • MOS (Mean Opinion Score) et tests d’intelligibilité
  • Maîtrise de l’expressivité et de la prosodie
  • Comparaison de la latence, de la fidélité et du réalisme

Considérations éthiques, légales et de gouvernance

  • Risques liés aux deepfakes et utilisation responsable
  • Consentement, attribution et implications en matière de droits d’auteur
  • Réglementations et politiques organisationnelles

Résumé et prochaines étapes

Pré requis

  • Compréhension des fondamentaux de l’apprentissage automatique
  • Familiarité avec les formats de fichiers audio et les outils d’édition
  • Compétences de base en programmation Python

Public cible

  • Développeurs et ingénieurs en IA intéressés par la synthèse vocale
  • Créateurs de contenu et technologistes des médias explorant la génération de voix
  • Équipes de recherche et développement concevant des systèmes audio personnalisés ou dynamiques
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires