Vous constatez une erreur ?
NaN:NaN
00:00
Alice Cohen-Hadria soutient en anglais sa thèse de doctorat réalisée au sein de l’équipe Analyse et synthèse des sons (STMS - CNRS/Ircam/Sorbonne Université), intitulée :
“Music and Speech Description Estimation with Deep Learning »
devant le jury composé de :
rapporteurs :
Emmanuel Vincent / INRIA Nancy
Simon Dixon / Queen Mary University, Londres
Isabelle Bloch / Télécom Paris, Paris
Jimena Royo Letelier / Deezer, Paris
Carlos Agon / Université Paris VI, Paris
Juan Pablo Bello / New York University, New York
Axel Roebel / IRCAM, Paris
Geoffroy Peeters / Télécom Paris, Paris
Abstract:
In Music Information Retrieval (MIR) and voice processing, the use of machine learning tools has become in the last few years more and more standard. Especially, many state-of-the-art systems now rely on the use of Neural Networks.In this thesis, we propose a wide overview of four different MIR and voice processing tasks, using systems built with neural networks. More precisely, we will use convolutional neural networks, an image designed class neural networks.
The first task presented is music structure estimation. For this task, we will show how the choice of input representation can be critical, when using convolutional neural networks.
The second task is singing voice detection. We will present how to use a voice detection system to automatically align lyrics and audio tracks.With this alignment mechanism, we have created the largest synchronized audio and speech data set, called DALI.
Singing voice separation is the third task.
For this task, we will present a data augmentation strategy, a way to significantly increase the size of a training set.
Finally, we tackle voice anonymization. We will present an anonymization method that both obfuscate content and mask the speaker identity, while preserving the acoustic scene.
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
“Estimations de descriptions musicales et sonores par apprentissage profond »
Résumé :
En Music Information Retrieval (MIR, ou recherche d’information musicales) et en traitement de la parole, les outils d’apprentissage automatique deviennent de plus en plus standard.
En particulier, de nombreux systèmes état de l’art reposent désormais sur l’utilisation des réseaux de neurones.
Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones
Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l’utilisation a permis de nombreuses avancées notamment en traitement d’image.
La première tâche présentée sera l’estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l’estimation de structure.
La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d’aligner automatiquement des paroles et des pistes audio.
La séparation de voix chantée sera la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d’augmentation de données, un moyen d’augmenter considérablement la taille d’un ensemble d’entraînement.
Enfin, nous aborderons l’anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d’anonymisation qui masque le contenu et floute l’identité du locuteur, tout en préservant la scène acoustique restante.
26 mars 2020 01:32:59
Vous constatez une erreur ?
1, place Igor-Stravinsky
75004 Paris
+33 1 44 78 48 43
Du lundi au vendredi de 9h30 à 19h
Fermé le samedi et le dimanche
Hôtel de Ville, Rambuteau, Châtelet, Les Halles
Institut de Recherche et de Coordination Acoustique/Musique
Copyright © 2022 Ircam. All rights reserved.