informations

Type
Soutenance de thèse/HDR
Lieu de représentation
Ircam, Salle Igor-Stravinsky (Paris)
durée
03 h 01 min
date
12 avril 2013

Geoffroy PEETERS, de l’équipe Analyse et synthèse des sons, soutient son habilitation à diriger des recherches (HDR) :

“ Indexation automatique de contenus audio musicaux “

devant un jury composé de :
Régine André-Obrecht - Université Paul Sabatier, Toulouse - Rapporteur
François Pachet - Sony CSL, Paris - Rapporteur
Xavier Serra - Universitat Pompeu Fabra, Barcelona - Rapporteur
Jean-Dominique Polack - Université Paris VI , Paris - Examinateur
Gaël Richard - Télécom Paris-Tech, Paris - Examinateur

dont voici le résumé :

Les recherches que j’ai effectuées ou encadrées depuis ma soutenance de thèse en juillet 2001, gravitent autour de l’ “indexation automatique de contenus audio” avec pour une large partie des contenus audio représentant des morceaux de musique mais également des sons d’instruments ou des sons environnementaux.
Je désigne par “indexation audio”, l’ensemble des recherches permettant de repérer des éléments significatifs dans des documents audio ou dans des collections de documents audio. Mes travaux incluent donc (pour l’essentiel) des recherches relatives à la création d’algorithmes visant à repérer automatiquement ces éléments significatifs mais également des recherches relatives à la définition de ces éléments, à la création de données annotées en ces éléments et relatives à l’évaluation des performances des algorithmes repérant ces éléments.

Les systèmes d’indexation audio reposent sur le traitement du signal (afin d’extraire du signal les informations les plus pertinentes et robustes), l’apprentissage machine (afin de permettre la meilleure modélisation mettant en évidence les invariants ou discriminants entre classes) et la formalisation de connaissances a priori (telles des connaissances implicites au domaine musical). Ces systèmes peuvent être “génériques”. Dans ce cas, un même système peut être utilisé pour résoudre plusieurs problèmes de description. C’est souvent le cas quand la connaissance est introduite par des exemples de données décrites (approche dite “machine-learning”). Ces systèmes peuvent également être “spécifiques” à chaque problème. C’est souvent le cas quand la connaissance est modélisée a priori dans le système (approche que nous appelons “human-learning”). Lorsque plusieurs éléments sont estimés, ils peuvent l’être séparément, en cascade ou simultanément.

Au cours de ces années, j’ai été amené à étudier ou à encadrer des recherches dans de nombreuses thématiques relatives à l’indexation audio : la description du son instrumental (ou du timbre), la modification du son par descripteurs de timbre, l’orchestration automatique, les descripteurs audio au sens générique (i.e. sans connaissance a priori du contenu audio), la classification/segmentation automatique au sens générique (impliquant l’étude d’algorithmes de sélection automatique de descripteurs, de transformations de descripteurs, d’algorithmes de représentation des classes), également leur application à des problèmes de reconnaissance d’instruments, de genre, d’humeur musicale ou de segmentation temporelle en catégories parole/musique, la caractérisation de la voix chantée, la recherche par similarité musicale et la recommandation sur la base de celle-ci, l’identification audio par technique de signature, l’estimation de paramètres relatifs au rythme d’un morceau (tempo, métrique, position des battements et des premier temps), l’estimation de paramètres relatifs à son contenu harmonique (tonalité et suite d’accords), l’estimation d’une structure temporelle et la génération de résumés audio.

Ma contribution dans ces domaines se situe au niveau de propositions de nouveaux algorithmes d’analyse du signal, de nouveaux estimateurs, de nouvelles utilisations de modèles probabilistes, de nouveaux modèles de formalisation des connaissances a priori, ainsi que d’estimations jointes de plusieurs paramètres. Les résultats de ces recherches, souvent effectuées dans le cadre de projets nationaux ou européens, ont ensuite été intégrés dans des logiciels, eux-mêmes intégrés dans des applications. Celles-ci proposent aux travers d’interfaces utilisateurs des scénarios d’utilisation évalués lors des tests utilisateurs. J’ai également contribué dans ces trois derniers domaines.

Ces recherches ont fait l’objet de 10 articles de journaux, 3 brevets, plus de 50 articles de conférences, d’articles de vulgarisation ou de communications sur des médias grand public. J’ai co-encadré 3 thèses soutenues à ce jour, 9 stages de Master ainsi que 7 post-doctorants dans le cadre de projets.


Indexation automatique de contenus audio musicaux

Les recherches que j'ai effectuées ou encadrées depuis ma soutenance de thèse en juillet 2001, gravitent autour de l' "indexation automatique de contenus audio" avec pour une large partie des contenus audio représentant des morceaux de musique mais également des sons d'instruments ou des sons environnementaux. Je désigne par "indexation audio", l'ensemble des recherches permettant de repérer des éléments significatifs dans des documents audio ou dans des collections de documents audio. Mes travaux incluent donc (pour l'essentiel) des recherches relatives à la création d'algorithmes visant à repérer automatiquement ces éléments significatifs mais également des recherches relatives à la définition de ces éléments, à la création de données annotées en ces éléments et relatives à l'évaluation des performances des algorithmes repérant ces éléments. Les systèmes d’indexation audio reposent sur le traitement du signal (afin d'extraire du signal les informations les plus pertinentes et robustes), l'apprentissage machine (afin de permettre la meilleure modélisation mettant en évidence les invariants ou discriminants entre classes) et la formalisation de connaissances a priori (telles des connaissances implicites au domaine musical). Ces systèmes peuvent être "génériques". Dans ce cas, un même système peut être utilisé pour résoudre plusieurs problèmes de description. C'est souvent le cas quand la connaissance est introduite par des exemples de données décrites (approche dite "machine-learning"). Ces systèmes peuvent également être "spécifiques" à chaque problème. C'est souvent le cas quand la connaissance est modélisée a priori dans le système (approche que nous appelons "human-learning"). Lorsque plusieurs éléments sont estimés, ils peuvent l’être séparément, en cascade ou simultanément. Au cours de ces années, j'ai été amené à étudier ou à encadrer des recherches dans de nombreuses thématiques relatives à l'indexation audio : la description du son instrumental (ou du timbre), la modification du son par descripteurs de timbre, l'orchestration automatique, les descripteurs audio au sens générique (i.e. sans connaissance a priori du contenu audio), la classification/segmentation automatique au sens générique (impliquant l'étude d'algorithmes de sélection automatique de descripteurs, de transformations de descripteurs, d'algorithmes de représentation des classes), également leur application à des problèmes de reconnaissance d’instruments, de genre, d’humeur musicale ou de segmentation temporelle en catégories parole/musique, la caractérisation de la voix chantée, la recherche par similarité musicale et la recommandation sur la base de celle-ci, l’identification audio par technique de signature, l'estimation de paramètres relatifs au rythme d'un morceau (tempo, métrique, position des battements et des premier temps), l’estimation de paramètres relatifs à son contenu harmonique (tonalité et suite d'accords), l’estimation d’une structure temporelle et la génération de résumés audio. Ma contribution dans ces domaines se situe au niveau de propositions de nouveaux algorithmes d'analyse du signal, de nouveaux estimateurs, de nouvelles utilisations de modèles probabilistes, de nouveaux modèles de formalisation des connaissances a priori, ainsi que d'estimations jointes de plusieurs paramètres. Les résultats de ces recherches, souvent effectuées dans le cadre de projets nationaux ou européens, ont ensuite été intégrés dans des logiciels, eux-mêmes intégrés dans des applications. Celles-ci proposent aux travers d'interfaces utilisateurs des scénarios d'utilisation évalués lors des tests utilisateurs. J'ai également contribué dans ces trois derniers domaines. Ces recherches ont fait l'objet de 10 articles de journaux, 3 brevets, plus de 50 articles de conférences, d'articles de vulgarisation ou de communications sur des médias grand public. J’ai co-encadré 3 thèses soutenues à ce jour, 9 stages de Master ainsi que 7 post-doctorants dans le cadre de projets. devant un jury composé de : Régine André-Obrecht - Université Paul Sabatier, Toulouse - Rapporteur François Pachet - Sony CSL, Paris - Rapporteur Xavier Serra - Universitat Pompeu Fabra, Barcelona - Rapporteur Jean-Dominique Polack - Université Paris VI , Paris - Examinateur Gaël Richard - Télécom Paris-Tech, Paris - Examinateur

intervenants


partager


Vous constatez une erreur ?

IRCAM

1, place Igor-Stravinsky
75004 Paris
+33 1 44 78 48 43

heures d'ouverture

Du lundi au vendredi de 9h30 à 19h
Fermé le samedi et le dimanche

accès en transports

Hôtel de Ville, Rambuteau, Châtelet, Les Halles

Institut de Recherche et de Coordination Acoustique/Musique

Copyright © 2022 Ircam. All rights reserved.