Participants
  • Thomas Pellegrini (conférencier)

Au-delà des performances brutes remarquables obtenues par les réseaux de neurones profonds dans des tâches de classification supervisée en audio, l’analyse des représentations qu’ils produisent peut être utile pour des post-traitements ou pour faire de la catégorisation. Par exemple, de nombreuses méthodes ont récemment été proposées pour retrouver des éléments saillants dans les entrées données au modèle. Cela peut permettre de localiser en temps (et en fréquence) les occurrences d’évènements que l’on cherche à détecter.
Dans cette présentation, des résultats en parole, détection de chant d’oiseaux et classification en genres musicaux viendront illustrer ces préoccupations.
biographie :

Depuis septembre 2013, Thomas Pellegrini est maître de conférences en informatique à l'Université de Toulouse III - Paul Sabatier et chercheur de l'équipe SAMoVA de l'Institut de Recherche en Informatique de Toulouse. Diplômé du DEA en acoustique, traitement du signal, informatique, appliqués à la musique (ATIAM) et ingénieur de l'Ecole Supérieure de Physique et Chimie Industrielle de Paris (ESPCI), il a réalisé une thèse sur la transcription automatique de langues peu dotées, encadré par Lori Lamel, LIMSI-CNRS. Puis, de 2008 à 2013, il a été chercheur postdoctoral au laboratoire Spoken Language Systems de l’institut INESC-ID à Lisbonne, au Portugal. Ses recherches portent sur l’analyse et la modélisation de contenus audio, en particulier appliqués au traitement de la parole (transcription automatique, évaluation de la prononciation). Récemment, il s’intéresse aux réseaux de neurones profonds et à l’apprentissage de représentations pour des applications en parole, musique et bruits environnementaux (https://www.irit.fr/~Thomas.Pellegrini/). Il est membre de l’ISCA et membre du bureau de l’AFCP.