Prenez contact avec nous

Plan du cours

Fondements de la classification audio

  • Types d'événements sonores : environnementaux, mécaniques, générés par les humains.
  • Aperçu des cas d'utilisation : surveillance, monitoring, automatisation.
  • Classification audio vs détection vs segmentation.

Données audio et extraction de caractéristiques

  • Types de fichiers audio et formats.
  • Taux d'échantillonnage, fenêtrage, considérations sur la taille des trames.
  • Extraction des MFCC, des caractéristiques chromatiques (chroma) et des mélo-spectrogrammes.

Préparation des données et annotation

  • UrbanSound8K, ESC-50 et ensembles de données personnalisés.
  • Étiquetage des événements sonores et des frontières temporelles.
  • Équilibrage des ensembles de données et augmentation des données audio.

Construction de modèles de classification audio

  • Utilisation des réseaux de neurones convolutionnels (CNN) pour l'audio.
  • Entrée du modèle : onde brute vs caractéristiques.
  • Fonctions de perte, métriques d'évaluation et surapprentissage.

Détection d'événements et localisation temporelle

  • Stratégies de détection par trame et par segment.
  • Post-traitement des détections à l'aide de seuils et de lissage.
  • Visualisation des prédictions sur les chronologies audio.

Sujets avancés et traitement en temps réel

  • Apprentissage par transfert pour les scénarios à faibles données.
  • Déploiement de modèles avec TensorFlow Lite ou ONNX.
  • Traitement du flux audio et considérations sur la latence.

Développement de projets et scénarios d'application

  • Conception d'un pipeline complet : de l'ingestion à la classification.
  • Développement d'un proof-of-concept pour la surveillance, le contrôle qualité ou le monitoring.
  • Journalisation, alertes et intégration avec des tableaux de bord ou des API.

Résumé et prochaines étapes

Pré requis

  • Une compréhension des concepts de l'apprentissage automatique et de l'entraînement des modèles.
  • De l'expérience en programmation Python et en prétraitement des données.
  • Une familiarité avec les fondamentaux de l'audio numérique.

Audience

  • Scientifiques des données.
  • Ingénieurs en apprentissage automatique.
  • Chercheurs et développeurs en traitement du signal audio.
 21 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires