SI350 Indexation Audio - IMT

2y ago
108 Views
2 Downloads
3.80 MB
97 Pages
Last View : 1m ago
Last Download : 3m ago
Upload by : Aiyana Dorn
Transcription

SI350Indexation AudioGaël RICHARDTélécom ParisTechDépartement Traitement des signaux et des imagesJuin 2012

ContenuIntroductionOutils pour l’indexation audio Exemple d’architecture d’un système d’indexation Paramétrisation ClassificationQuelques exemples d’application de l’indexation audio Identification/classification des instruments de musiqueExtraction du rythmeIdentification audioExtraction de fréquences fondamentales multiplesApplications aux signaux percussifs (batterie)ConclusionMerci à Olivier Gillet pour certains transparents2Gaël RICHARDSI350 – Juin 2012

Indexation audio : intérêtsNouveaux challenges pour la société de l’information: Volume considérable de données numériques multimedia disponibles L'accroissement rapide et continu de ces données numériques (qu'ellesse trouvent sur le réseau Internet ou dans des bases personnelles) Généralisation de leur utilisation pour de nombreuses applicationsDiminution de « l’accessibilité » des donnéesUn fort besoin pour de nouvelles méthodes efficaces d'indexation, declassification et d'accès par le contenu.L'indexation automatique vise ainsi à extraire du flux numériquemultimedia des descripteurs de haut niveau permettant de réaliserpar la suite une classification ou un accès à l'information par soncontenu.3Gaël RICHARDSI350 – Juin 2012

Recherche par le contenu .4Gaël RICHARDSI350 – Juin 2012

Pourquoi analyser le signal musical ?Rechercher par le contenuNouvelles applications À partir d’un morceau À partir d’un chantonnement De nouveaux morceaux à partir de ceque j’aime . Une nouvelle version d’un air connu . Une vidéo qui « va bien » avec l’audio Playlist « sémantiques » (jouer desmorceaux de plus en plus rapide ) Karaoké « intelligent »(l’accompagnement suit le chanteur ) Prédire le potentiel succès d’un titre Aide au mixage, Djing, Ecoute active,.Recherche à la voixJogging musicalModifications synchrones5Gaël RICHARDSI350 – Juin 2012Playlist, « espace musical »

L’indexation audio un domaine queAcoustiqueIndexationAudioStatistiquesTraitement de la paroleTraitement du signal6Gaël RICHARDMusiqueSI350 – Juin 2012

Systèmes de classificationPlusieurs problèmes, une même approcheReconnaissance automatique du genre musical.Reconnaissance des instruments utilisés dans un morceau.Classification d’échantillons sonores.Etiquetage d’une bande son (dialogues, scènes d’action,musique, effets spéciaux). Organisation d’une collection musicale selon les habitudesd’écoute. Détection de ”hits” potentiels. 7Gaël RICHARDSI350 – Juin 2012

Exemple d’architecture pour un systèmede classificationFrom G. Richard, S. Sundaram, S. Narayanan, “Perceptually-motivated audio indexing andclassification”, submitted to Proc. of the IEEE.8Gaël RICHARDSI350 – Juin 2012

Architecture (2)Prétraitements pour. Réduire la quantité de données à traiter. Découper le signal en segments uniformes.Paramétrisation Résumer les propriétés perceptuelles du signal en un vecteur deparamètres réels.Classification Supervisée : Attribuer à chaque signal une classe selon unetaxonomie définie à l’avance. Non-supervisée (clustering) : Identifier des groupes disjoints designaux qui se ressemblent.9Gaël RICHARDSI350 – Juin 2012

Quelques dimensions du signal musical Hauteurs, Harmonie,.Timbre, instruments, Tempo, rythme, Polyphonie, mélodie, .

Qu‘est-ce que le “Timbre“Une définition possible: « l’attribut de la sensation auditive quipermet de différencier 2 sons de même hauteur et de mêmeintensité »Lié à l’identification de sources sonoresExamples de sons avec la même hauteur et le même niveausonore (en terme d‘énergie globale) mais avec des timbresdifférents:Quelques thèses récentes sur la reconnaissance desinstruments de musique: [Essid06], [Kitahara-07], [Eronen-09]

Le Timbre „polyphonique“Fait référence au timbre global (the „global sound“) d‘unepièce de musique [Alluri-10]Principalement porté par l‘instrumentationExample“Bohemian rhapsody” par Queen“Bohemian rhapsody” par le London SymphonyOrchestraRetrouver automatiquement le timbre est une tâcheproche de celle pour retrouver le genre musical[Scaringella-06] ou les tags musicaux [Scaringella-06] andmusic tagging [Turnbull-08]

Différentes facettes du timbreLe timbre est un concpet multidimensionelDe nombreux paramètres (spectraux et temporels) sontnécessaires pour le décrireSchouten [1968] avait listé 5 paramètres majeurs:1. Position sur une échelle tonal vs bruité2. Enveloppe spectrale3. Enveloppe temporelle4. Changement dynamique de l’enveloppe spectrale etdu pitch5. Différence entre l’attaque et la partie tenue

Variations temporelles de l‘enveloppeMagnitude (dB)Illustration du timbre (représenté ici comme le niveaud’énergie dans les bandes critiques en fonction dutemps)Flute (Gauche) et violon (droite)Frequency (CB)(CB critical band)Time (s)

Paramètres acoustiques .15Gaël RICHARDSI350 – Juin 2012

PrétraitementsDécouper le signal en segments uniformes(« fenêtrage »)xi(n) x(n ni) . h(n) pour n 1:N17Gaël RICHARDSI350 – Juin 2012

ParamétrisationParamètres temporels Taux de passage par zéroNZcr 0.5 * sign( x[n]) sign( x[n 1])n 1AudioParole18Gaël RICHARDSI350 – Juin 2012

Paramétrisation: Paramètres temporelsEvolution temporelle: Enveloppe de l’attaque est caractéristique du type de son (cordefrottée, frappée, grattée - Paramètres possibles: durée de l’attaque (ou impulsivité de l’attaque)19Gaël RICHARDSI350 – Juin 2012

Paramétrisation: Paramètres temporelsEnveloppe: possibilité d’utiliser un modèle Modèle ADSR Enveloppe peut être obtenue par filtrage passe-bas de l’énergie20Gaël RICHARDSI350 – Juin 2012

Paramétrisation: Paramètres temporelsAutres paramètres temporels utilisés: 21Modulation d’amplitude (4 Hz, ou 10-40 Hz)Facteur crêteImpulsivité du signal (moment d’ordre 4)Période fondamentale (ou inversement fréquence fondamentale) .Gaël RICHARDSI350 – Juin 2012

Paramétrisation: paramètres spectrauxParamétrisation spectrale: analyse d’un signal audio (d’aprèsLaroche)22Gaël RICHARDSI350 – Juin 2012

Paramètres spectrauxReprésentation temps-fréquence : Transformée de Fourier Xk xn23Gaël RICHARDSI350 – Juin 2012Spectrogramme

Représentations du signal audioExemple sur un signal audio: note Do (262 Hz) jouée par unpiano et un violon.Signal temporelSpectrogrammeD’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics ofSignal Processing, oct. 201124Gaël RICHARDSI350 – Juin 2012

Modèle source-filtreenveloppe spectrale, sourcef0M o d è le d eS o u rc eSourcexnM o d è le d uré s o n a te u rF iltr ef0f025Gaël RICHARDSI350 – Juin 2012yn

Paramétrisation spectraleLe Centre de Gravité Spectral (CGS) CGS élevé: son brillant CGS faible: son chaud, rondLe flux spectral (« variation temporelle du contenu spectral »)26Gaël RICHARDSI350 – Juin 2012

Paramétrisation (suite)Rayon de Giration Spectral RGS faible, le timbre est « compact »« Coupure spectrale » (Spectral Roll off) définit la fréquence Rtau dessous de laquelle 85% de la distribution spectrale estconcentrée:27Gaël RICHARDSI350 – Juin 2012

Utiliser un banc de filtres: intérêtDécomposer le signal en bandes de fréquences Signal de musique dans différentes bandes (Fe 16kHz) Bandes 8-16Bande 7Bande 6Bande 5Bande 4Bande 3Bande 2Bande 128Gaël RICHARDSI350 – Juin 2012

ParamétrisationIntérêts d’une analyse par un banc de filtres Permet de séparer les informations localisées en fréquence Permet une réduction de complexité (sous-échantillonnage danschaque bande) Cas particulier: FFT Possibilité d’utiliser des échelles de fréquences « perceptives »- Echelle Mel: Correspond à une approximation de la sensation psychologiquede hauteur d’un son (Tonie)29Gaël RICHARDSI350 – Juin 2012

Filtre en échelle MelFiltrage Mel (d’après Rabiner93)S130Gaël RICHARDSjEnergie dans chaque bandeSI350 – Juin 2012SN

Echelle MelCorrespond à une approximation de la sensationpsychologique de hauteur d’un son (Tonie)Existence de formules analytiques:Exemples: Gamme mel31Gaël RICHARDGamme HertzSI350 – Juin 2012

Représentation cepstraleIntérêt Modèle source filtre de la parole/des signaux musicauxModèle source filtre dans le domaine spectralCepstre (réél): somme de 2 termes32Gaël RICHARDSI350 – Juin 2012

Représentation cepstrale(d’après Furui2001)Exemples: de Spectres à court terme (gauche) et de cepstre c(τ) (droite)τ est homogène à un temps et est appelé quéfrence33Gaël RICHARDSI350 – Juin 2012

Représentation cepstraleSéparation de la contribution du filtre (conduit vocal ouinstrument) et de la source par liftrage34Gaël RICHARDSI350 – Juin 2012

Représentation cepstraleContribution de la sourceContribution du conduit vocal/instrument(hypothèse: filtre causal, stable, minimum de phase)35Gaël RICHARDSI350 – Juin 2012

Représentation cepstraleContribution du conduit vocal/instrumentDéveloppement en série36Gaël RICHARDSI350 – Juin 2012

Représentation cepstraleExemples de liftres (d’après Calliope89)37Gaël RICHARDSI350 – Juin 2012

Paramétrisation (issue de la reconnaissance vocale)Paramétrisation MFCC (Mel-Frequency Cepstral Coefficients )38Gaël RICHARDSI350 – Juin 2012

Lissage cepstralEstimation de l’enveloppe par le cepstre: Calcul du cepstre réel Cn, puis lifrage basses quéfrences Reconstruction de l’enveloppe spectrale d’amplitude E FFT(Cn)Gaël RICHARD – SI350 – Juin 200739

Modélisation « Sinusoïdes bruit »Basé sur le modèle Exponentially Damped Sinusoidal (EDS)avec Original (.wav)40Gaël RICHARDSomme de sinusoïdes Bruit(.wav)SI350 – Juin 2012

Paramétrisation (suite )Séparation harmoniques / bruit

Séparation harmoniques / bruitApproche à partir de la STFT Découpage en fenêtres Calcul de la STFT Localisation et Détection des maxima (« harmoniques »); Synthèse des parties harmoniques et bruit par Overlapand Add Précautions:- Zero padding pour limiter l’effet de la convolution circulaire

Le timbre des instruments de musique« Espace » de timbre43Gaël RICHARDSI350 – Juin 2012

Le timbre des instruments de musiqueEspace 3D (Krumhansl, 1989, McAdams, 1992 )BSN bassonCAN cor anglaisCNT clarinetGTR guitarHRN corHRP harpeTPT trompettePNO pianoVBS vibraphone44Gaël RICHARDSI350 – Juin 2012

Autres paramètres utilisés en indexationaudioWarped Linear prediction Cepstral coefficients« Asynchronie » fréquentielle des attaquesCoefficients d’ondelettesSéparation harmonique-bruitEntropie,Variation de l’entropie, . Pas de réel consensus sur la bonneparamétrisationUne voie de recherche: utiliser un nombreimportant de caractéristiques (features) et utiliserdes algorithmes de sélection de « features »45Gaël RICHARDSI350 – Juin 2012

Eléments de classificationExemple de la reconnaissance automatique des instruments de musiqueObjectif de la classification: Permettre de retrouver la classe (i.e l’instrument) à partir desparamètres extraits du signalPreprocessing46Gaël RICHARDSI350 – Juin 2012

ClassificationQuels sont les paramètres appropriés pour une tâchedonnée? Pas de consensusUne approche possible: Utiliser un nombre important de caractéristiques Utiliser des techniques d’analyse de caractéristiques ou/et de sélectionde caractéristiques pour réduire la dimension des vecteurs decaractéristiques.47Gaël RICHARDSI350 – Juin 2012

Analyse des caractéristiquesPrincipal Component Analysis (PCA) But: « débruiter les données » et « réduire l’espace des paramètres »- Etape 1: Décomposition en valeurs singulières (SVD)Matrice de covarianceMatrice des valeurssingulières- Etape 2: Les modèles sont entraînés sur les données « transformées »:48Gaël RICHARDSI350 – Juin 2012

Sélection de caractéristiquesDe nombreux algorithmes existentUn algorithme simple mais efficace basé sur le discriminant deFisherLe principe est intuitif: « Sélectionner les caractéristiques une par unequi permettent une bonne séparation entre les classes en conservantune dispersion intra-classe minimale». Ainsi, la caractéristique sélectionnée correspond au plus fort ratio:Où Bi est l’inertie entre les classes et Ri le rayon moyen de la dispersion de chaque classe49Gaël RICHARDSI350 – Juin 2012

Principe des systèmes de classificationDéfinition du problème Objets décrits par un vecteur de paramètres x declasse y dans [1,C]. Ensemble d’apprentissage (exemples),et par uneApprentissage Associe à un ensemble d’apprentissage une fonction dedécision- Couvrant les exemples, ie- Généralisant,phénomène que xi.si x est associé au même La fonction de décision f va permettre de classer de nouveauxobjets qui ne figurent pas parmi les exemples.50Gaël RICHARDSI350 – Juin 2012

Algorithme des k-plus proches voisinsChoix d’une distance dans l’espace de description Ex: une distance euclidienneChoix du nombre de voisins K à considérerAlgorithme: Soit xk le vecteur à classer, X l’ensemble desvecteurs de la base d’apprentissage: Chercher p1 . pk les K plus proches voisins de xk La classe reconnue est donnée par:51Gaël RICHARDSI350 – Juin 2012

Les k-plus proches voisinsExemples de Performance (Eronen2001) :- Base de données: 1500 exemples sonores monophoniques- Identification de la famille d ’instruments: 94 %- Identification de l ’instrument 80 % Avantages- Simplicité de mise en œuvre Inconvénients- Pas de généralisation (seulement basée sur une information locale)- Très sensibles aux éléments extrêmes- Nécessitent d’avoir tous les vecteurs d ’entraînement en mémoire etdonc complexes en temps calcul- Pas de mesure de confiance: impossible de savoir si le classifieur estsûr de lui ou non52Gaël RICHARDSI350 – Juin 2012

Classifieurs: Décision bayésienneIdée générale On aimerait pouvoir calculer P(y c x), c’est à dire la probabilité quel’objet à classifier appartienne à une classe donnée c, connaissant sonvecteur de paramètres x. Il serait alors possible d’effectuer une décision avec la règle suivante :on associe la classe la plus probable, conditionnellement auxparamètres observés : Question: Comment calculer P(y c x) ?53Gaël RICHARDSI350 – Juin 2012

Classifieurs: décision bayésiennesRègle de BayesSimplifications Comme on veut maximiser P(y c x) (e.g. maximum a posteriori), onpeut ignorer p(x). Si on suppose les classes équiprobables [P(y c) constante], on seramène au maximum de vraisemblance.- et le problème se résume donc à calculer p(x y c), c’est à direà estimer la densité de probabilité du vecteur de paramètrespour chacune des classes54Gaël RICHARDSI350 – Juin 2012

Classifieurs: approche paramétriqueApproche paramétrique: On suppose que p(x y c) suit une loi connue, dont on va déterminerles paramètres.Loi Gaussienne55Gaël RICHARDSI350 – Juin 2012

Approche par Mélanges de Gaussiennes(Voir Cours O. Cappé http://tsi.enst.fr/ ocappe/em tap.pdf)Modèle de mélangeExemple à 2 dimensions avec1, 2 puis 3 ue56Gaël RICHARDSI350 – Juin 20126180102115

Approche par Mélanges de Gaussiennes(GMM)Exemple de modèles à 2 composantes57Gaël RICHARDSI350 – Juin 2012

Approche par Mélanges de Gaussiennes(GMM)Exemple de modèles à 2 composantes58Gaël RICHARDSI350 – Juin 2012

Identification/classification desinstruments de musiqueClassification bayesienne: mélange de gaussiennes (GMM)Paramétrisation: coefficients cepstraux (MFCC) ou obtenuepar sélection de caractéristiquesModélisation des classes d’instruments: Chaque classe est représentée par un certain nombre de clusters(obtenus par l’algorithme K-means) Chaque classe est représentée par une somme de gaussiennes On peut alors attacher un instrument par classe59Gaël RICHARDSI350 – Juin 2012

Reconnaissance des instruments demusiqueAméliorations possibles et voies de recherche Utilisation de classifieurs à vaste marge (SVM) Utilisation de sélections statistiques des paramètres Modèles paramétriques avancés (décomposition parcimonieuses)Vers la reconnaissance des instruments pour des ensemblesinstrumentaux61Gaël RICHARDSI350 – Juin 2012

Quelques dimensions du signal musical Hauteurs, Harmonie,.Timbre, instruments, Tempo, beat, rythme, Polyphonie, mélodie, .

Extraction du rythme ou du TempoLe rythme: concept musical intuitivement simple àcomprendre mais difficile à définir !!Handel (1989): « The experience of rhythm involves movementregularity, grouping and yet accentuation and differentiation »le rythme d’un signal écouté n’a pas nécessairement uneinterprétation unique !!On définit fréquemment la pulsation (beat en anglais)63Gaël RICHARDSI350 – Juin 2012

Extraction du rythme ou du TempoPrincipe GénéralDescriptionrythmique64Gaël RICHARDSI350 – Juin 2012

Extraction du rythme ou du TempoSuivi du tempo (« tempogramme»)Signal OnsetsAutocorrélation« Fonction de détection »Tempo « à la noire »65Gaël RICHARDSI350 – Juin 2012

Découvrir l’information rythmiqueDécomposer le signal en bandes de fréquences Signal de musique dans différentes bandes (Fe 16kHz) Bandes 8-16Bande 7Bande 6Bande 5Bande 4Bande 3Bande 2Bande 166Gaël RICHARDSI350 – Juin 2012

Extraction du rythme ou du TempoPrincipe de la détection d’événements musicaux A partir du signal audio (dans une bande fréquentielle .) obtenir une fonction de détection67Gaël RICHARDSI350 – Juin 2012

Extraction du rythme ou du TempoPrincipe de l’estimation de périodicité A partir d’une fonction de détection obtenir le tempo (ou « beats »)- Par estimation de la périodicité de cette fonction68Gaël RICHARDSI350 – Juin 2012

Estimation d’une périodicitéUne méthode temporelle Average magnitude difference function (AMDF) De nombreuses méthodes spectrales ou cepstrales existent aussi69Gaël RICHARDSI350 – Juin 2012

Extraction du rythme ou du TempoPrincipe du suivi de périodicités A partir d’une analyse des périodicités au cours du morceau obtenir la variation temporelle du tempo (ou « beats »)- Par exemple par programmation dynamique70Gaël RICHARDSI350 – Juin 2012

Autres améliorationsSuivi dynamique du tempo Utilisation de la programmation dynamique Adaptation pour le suivi de la structure rythmique Utilisation de contraintes de variation71Gaël RICHARDSI350 – Juin 2012

Suivi dynamique du tempo: exemple72Gaël RICHARDSI350 – Juin 2012

Extraction robuste du tempo (From Alonso etal.)Améliorations possibles :En exploitant le fait que le rythme estprincipalement porté par les attaquesEn utilisant une décompositionharmoniques / bruit73Gaël RICHARDSI350 – Juin 2012

Exemples de résultatsEvaluation internationale réalisée à MIREX’06(http://www.music-ir.org/mirex/)video tracking.mp4Demo74Gaël RICHARDSI350 – Juin 2012

Extraction du rythme: Exemple detravaux précurseursApproche par banc de filtres (Scheirer, 1998)75Gaël RICHARDSI350 – Juin 2012

Extraction du rythmeLe rythme: un indice intéressant pour laclassification des styles musicauxHistogramme de la position des attaques sur un signal de musiquetechno (Laroche2001)76Gaël RICHARDSI350 – Juin 2012

Extraction du rythme: un indice intéressantRecherche de musique par similarité (ou classification par genre)genre classification)Recherche de contenus audio adaptés à la vidéoDemoReferenceO. Gillet and G. Richard, « On the Correlation of Automatic Audio and Visual Segmentationsof Music Videos » I EEE Trans. on CSVT, 200777Gaël RICHARDSI350 – Juin 2012

Autres ApplicationsIdentification Audio(Merci à S. Fenêt pour les transparents)78Gaël RICHARDSI350 – Juin 2012

Audio Identification ou AudioIDAudio ID retrouver des métadonnées haut niveau à partird’un son/morceauAudioidentificationInformation surl’extrait (e.g. Pour lamusique: titre, artiste, )Challenges: Efficacité en conditions adverses (distorsion, bruits,.) Passage à l’échelle (bases 100.000 titres) Rapidit

Algorithme des k-plus proches voisins Choix d’une distance dans l’espace de description Ex: une distance euclidienne Choix du nombre de voisins K à considérer 51 Gaël RICHARD SI350 – Juin 2012 Algorithme: Soit xk le vecteur à classer, X l’ensemble

Related Documents:

Il fait l'objet de mises à jour régulières qui sont signalées, comme telles, aux utilisateurs. 1 Le Guide d'indexation RAMEAU . 1.1 Contenu . Le Guide d'indexation RAMEAU contient trois principaux types d'information : une présentation générale du langage et des règles d'indexation intitulée « Principes de RAMEAU » ;

IMT AGM appoints a new Board of Directors. 2011/2013 IMT develops the prototypes for the full range of the AF series drilling rigs with Tier 4 engines, as well as the newly-born A125 and A150 models, mounted on IMT base and powered by CAT. 2014/2015 IMT

765 S MEDIA TECHNOLOGY Designation Properties Page Audio Audio cables with braided shielding 766 Audio Audio cables, multicore with braided shielding 767 Audio Audio cables with foil shielding, single pair 768 Audio Audio cables, multipaired with foil shielding 769 Audio Audio cables, multipaired, spirally screened pairs and overall braided shielding 770 Audio Digital audio cables AES/EBU .

Meritor shoe will fi t onto a IMT brake spider, but the drum will not be able to be in-stalled. The IMT shoe can be installed on a Meritor brake spider, but the drum will not be able to be installed. 4710 IMT shoe only fi ts on a IMT axle. 4710 Meritor shoe only fi ts on a Meritor axle

This volume deals with information applicable to your particular crane. For operating, maintenance and repair instructions, refer to IMT Electric Cranes Operation & Safety (IMT part number 99904381.) We recommend that this volume be kept in a safe place in the office. This manual is provided to assist you with ordering parts for your IMT crane.

This volume deals with information applicable to your particular crane. For operating, maintenance and repair instructions, refer to IMT Electric Cranes Operation & Safety (IMT part number 99904381.) We recommend that this volume be kept in a safe place in the office. This manual is provided to assist you with ordering parts for your IMT crane.

This volume deals with information applicable to your particular crane. For operating, maintenance and repair instructions, refer to IMT Electric Cranes Operation & Safety (IMT part number 99904381.) We recommend that this volume be kept in a safe place in the office. This manual is provided to assist you with ordering parts for your IMT crane.

Conditional Random Fields: An Introduction Hanna M. Wallach February 24, 2004 1 Labeling Sequential Data The task of assigning label sequences to a set of observation sequences arises in many fields, including bioinformatics, computational linguistics and speech recognition [6, 9, 12]. For example, consider the natural language processing