Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à la synthèse vocale et au clonage vocal
- Aperçu de la synthèse vocale (TTS) et de la synthèse vocale neuronale
- Clonage vocal vs génération de parole : cas d'usage et limites
- Modèles clés : Tacotron, WaveNet, FastSpeech, VITS
Travailler avec des plateformes commerciales
- Utilisation d'ElevenLabs et Resemble AI
- Création, clonage et édition de voix
- Accès API et workflows de synthèse vocale
Construction avec des outils open source
- Installation et configuration de Coqui TTS
- Formation de voix personnalisées et gestion de jeux de données
- Génération de parole avec un contrôle fin (pitch, vitesse, émotion)
Préparation des données et gestion de jeux de voix
- Collecte et nettoyage d'échantillons vocaux
- Segmentation, étiquetage et alignement des transcriptions
- Sourcing éthique et consentement vocal
Intégration d'applications
- Intégration de TTS dans des sites web et applications
- Création de systèmes IVR et bots interactifs
- Génération de dialogue synthétique pour la vidéo et les jeux
Évaluation de la qualité et du réalisme
- MOS (Mean Opinion Score) et tests d'intelligibilité
- Contrôle de l'expressivité et de la prosodie
- Comparaison de la latence, de la fidélité et du réalisme
Considérations éthiques, légales et de gouvernance
- Risques des deepfakes et utilisation responsable
- Consentement, attribution et implications sur le droit d'auteur
- Réglementations et politiques organisationnelles
Bilan et étapes suivantes
Pré requis
- Compréhension des fondements de l'apprentissage automatique
- Connaissance des formats de fichiers audio et des outils d'édition
- Compétences de base en programmation Python
Public cible
- Développeurs et ingénieurs IA intéressés par la synthèse vocale
- Créateurs de contenu et technologues des médias explorant la génération vocale
- Équipes R&D développant des systèmes audio personnalisés ou dynamiques
14 Heures