• Saison 2019-2020 - None - None > Soutenance de thèse d'Alice Cohen-Hadria
  • Oct. 28, 2019
  • Ircam
Participants
  • Alice Cohen-Hadria (conférencière)
  • Emmanuel Vincent (rapporteur)
  • Simon Dixon (rapporteur)
  • Isabelle Bloch (examinatrice)
  • Jimena Royo Letelier (examinateur)
  • Carlos Amado Agon (examinateur)
  • Juan Pablo Bello (examinateur)
  • Axel Roebel (examinateur)
  • Geoffroy Peeters (directrice de thèse)

Alice Cohen-Hadria soutient en anglais sa thèse de doctorat réalisée au sein de l’équipe Analyse et synthèse des sons (STMS - CNRS/Ircam/Sorbonne Université), intitulée :

"Music and Speech Description Estimation with Deep Learning »
devant le jury composé de :
rapporteurs :
- Emmanuel Vincent / INRIA Nancy
- Simon Dixon / Queen Mary University, Londres

- Isabelle Bloch / Télécom Paris, Paris
- Jimena Royo Letelier / Deezer, Paris
- Carlos Agon / Université Paris VI, Paris
- Juan Pablo Bello / New York University, New York
- Axel Roebel / IRCAM, Paris
- Geoffroy Peeters / Télécom Paris, Paris

Abstract:
In Music Information Retrieval (MIR) and voice processing, the use of machine learning tools has become in the last few years more and more standard. Especially, many state-of-the-art systems now rely on the use of Neural Networks.In this thesis, we propose a wide overview of four different MIR and voice processing tasks, using systems built with neural networks. More precisely, we will use convolutional neural networks, an image designed class neural networks.

The first task presented is music structure estimation. For this task, we will show how the choice of input representation can be critical, when using convolutional neural networks.
The second task is singing voice detection. We will present how to use a voice detection system to automatically align lyrics and audio tracks.With this alignment mechanism, we have created the largest synchronized audio and speech data set, called DALI.
Singing voice separation is the third task.
For this task, we will present a data augmentation strategy, a way to significantly increase the size of a training set.
Finally, we tackle voice anonymization. We will present an anonymization method that both obfuscate content and mask the speaker identity, while preserving the acoustic scene.

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-

"Estimations de descriptions musicales et sonores par apprentissage profond »

Résumé :
En Music Information Retrieval (MIR, ou recherche d'information musicales) et en traitement de la parole, les outils d’apprentissage automatique deviennent de plus en plus standard.
En particulier, de nombreux systèmes état de l'art reposent désormais sur l'utilisation des réseaux de neurones.

Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones
Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l'utilisation a permis de nombreuses avancées notamment en traitement d'image.

La première tâche présentée sera l'estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l’estimation de structure.
La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d’aligner automatiquement des paroles et des pistes audio.
La séparation de voix chantée sera la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d’augmentation de données, un moyen d’augmenter considérablement la taille d’un ensemble d’entraînement.
Enfin, nous aborderons l'anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d'anonymisation qui masque le contenu et floute l'identité du locuteur, tout en préservant la scène acoustique restante.

Soutenance de thèse d'Alice Cohen-Hadria

From the same archive