Exploration de DNN pour des tâches d’analyse audio

Au-delà des performances brutes remarquables obtenues par les réseaux de neurones profonds dans des tâches de classification supervisée en audio, l’analyse des représentations qu’ils produisent peut être utile pour des post-traitements ou pour faire de la catégorisation. Par exemple, de nombreuses méthodes ont récemment été proposées pour retrouver des éléments saillants dans les entrées données au modèle. Cela peut permettre de localiser en temps (et en fréquence) les occurrences d’évènements que l’on cherche à détecter.
Dans cette présentation, des résultats en parole, détection de chant d’oiseaux et classification en genres musicaux viendront illustrer ces préoccupations.
biographie :

Depuis septembre 2013, Thomas Pellegrini est maître de conférences en informatique à l'Université de Toulouse III - Paul Sabatier et chercheur de l'équipe SAMoVA de l'Institut de Recherche en Informatique de Toulouse. Diplômé du DEA en acoustique, traitement du signal, informatique, appliqués à la musique (ATIAM) et ingénieur de l'Ecole Supérieure de Physique et Chimie Industrielle de Paris (ESPCI), il a réalisé une thèse sur la transcription automatique de langues peu dotées, encadré par Lori Lamel, LIMSI-CNRS. Puis, de 2008 à 2013, il a été chercheur postdoctoral au laboratoire Spoken Language Systems de l’institut INESC-ID à Lisbonne, au Portugal. Ses recherches portent sur l’analyse et la modélisation de contenus audio, en particulier appliqués au traitement de la parole (transcription automatique, évaluation de la prononciation). Récemment, il s’intéresse aux réseaux de neurones profonds et à l’apprentissage de représentations pour des applications en parole, musique et bruits environnementaux (https://www.irit.fr/~Thomas.Pellegrini/). Il est membre de l’ISCA et membre du bureau de l’AFCP.

résumé:

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-

biographie :

Les médias liés à cet évènement

Mettre en temps une structure musicale : l'activité de composition de Voi(rex) par Philippe Leroux - Nicolas Donin, Jacques Theureau

Mettre en temps une structure musicale : l'activité de composition de Voi(rex) par Philippe Leroux - Nicolas Donin, Jacques Theureau

L'estimation de fréquences fondamentales multiples

La harpe électroacoustique

Utilisation de Modalys pour le projet VoxStruments, lutherie numérique intuitive et expressive - Nicholas Ellis, Joël Bensoam

Présentation des travaux l'équipe PdS dans le cadre du projet européen CLOSED : "Closing the Loop of Sound Evaluation and Design" - Olivier Houix

Sparse overcomplete methods, matching pursuit and basis pursuit - Bob L. Sturm

Transformations de type et de nature de la voix - Snorre Farner, Axel Roebel, Xavier Rodet

Segmentations et reconnaissances automatiques de phonèmes de la voix, temps différé, temps réel - Pierre Lanchantin, Julien Bloit, Xavier Rodet

Synthèse de la parole à partir du texte et construction d'une base de données d'unités de la voix - Christophe Veaux, Grégory Beller, Xavier Rodet

Projet ECOUTE - Jerome Barthelemy, Nicolas Donin, Geoffroy Peeters, Samuel Goldszmidt

Projet MusicDiscover - David Fenech Saint Genieys

Projet CASPAR - Jerome Barthelemy, Alain Bonardi

Projet CONSONNES 1ère partie - René Caussé, Vincent Freour, David Roze

Exploration de DNN pour des tâches d’analyse audio

intervenants

informations

Thomas PELLEGRINI : Exploration de DNN pour des tâches d’analyse audio

IRCAM

heures d'ouverture

accès en transports