Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à la synthèse vocale et au clonage vocal
- Aperçu de la synthèse de texte en parole (TTS) et de la synthèse vocale neuronale
- Clonage vocal vs génération de parole : cas d’utilisation et limites
- Modèles clés : Tacotron, WaveNet, FastSpeech, VITS
Utilisation des plateformes commerciales
- Utilisation de ElevenLabs et Resemble AI
- Création, clonage et édition de voix
- Accès API et flux de travail de synthèse de texte en parole
Développement avec des outils open source
- Installation et configuration de Coqui TTS
- Entraînement de voix personnalisées et gestion des ensembles de données
- Génération de parole avec contrôle fin (hauteur tonale, vitesse, émotion)
Préparation des données et gestion des ensembles de données vocales
- Collecte et nettoyage des échantillons vocaux
- Segmentage, étiquetage et alignement des transcriptions
- Acquisition éthique et consentement pour l’utilisation de la voix
Intégration aux applications
- Intégration du TTS dans des sites web et des applications
- Création de systèmes IVR et de chatbots interactifs
- Génération de dialogues synthétiques pour la vidéo et les jeux vidéo
Évaluation de la qualité et du réalisme
- MOS (Mean Opinion Score) et tests d’intelligibilité
- Maîtrise de l’expressivité et de la prosodie
- Comparaison de la latence, de la fidélité et du réalisme
Considérations éthiques, légales et de gouvernance
- Risques liés aux deepfakes et utilisation responsable
- Consentement, attribution et implications en matière de droits d’auteur
- Réglementations et politiques organisationnelles
Résumé et prochaines étapes
Pré requis
- Compréhension des fondamentaux de l’apprentissage automatique
- Familiarité avec les formats de fichiers audio et les outils d’édition
- Compétences de base en programmation Python
Public cible
- Développeurs et ingénieurs en IA intéressés par la synthèse vocale
- Créateurs de contenu et technologistes des médias explorant la génération de voix
- Équipes de recherche et développement concevant des systèmes audio personnalisés ou dynamiques
14 Heures