• Saison 2020-2021 - None - None > Soutenance de thèse d'Adrien Bitton
  • June 14, 2021
  • Ircam
Participants
  • Adrien Bitton (conférencier)
Consulter le support de présentation

Soutenance de thèse d'Adrien Bitton : Apprentissage de représentations audio pour la synthèse musicale et l'interaction

Composition du jury :

(reviewer) Pr. Philippe PASQUIER, Simon Fraser University, Canada.
(reviewer) Pr. Charalampos SAITIS, Queen Mary University of London, United Kingdom.
Pr. Jean-Pierre BRIOT, Sorbonne Université, France.
Pr. Myriam DESAINTE-CATHERINE, Université de Bordeaux, France.
Pr. Dorien HERREMANS, Singapore University of Technology and Design, Singapore.
Pr. Bob L. T. STURM, Royal Institute of Technology KTH, Sweden.

Invités : Pr. Tatsuya Harada et Pr. Suguru Goto, depuis Tokyo.

Résumé :
La musique assistée par ordinateur fait beaucoup usage de librairies d'échantillons audios et d'instruments numériques qui offrent des possibilités de composition sans précédent. Cependant, l'abondance des matériaux sonores disponibles nécessite de nouvelles méthodes d'interaction en adéquation avec ceux-ci sans quoi le parcours des échantillons et configurations audios est inefficace et arbitraire. En effet, les métadonnées qui structurent traditionnellement ces librairies ne peuvent que traduire grossièrement les caractéristiques acoustiques des différentes catégories sonores. Notamment, les variations continues du timbre musical ne sont pas exprimées alors qu'elles jouent un rôle significatif dans la production et la créativité musicale. La perception du timbre a été étudiée par des testes d'écoute et l'analyse de ces résultats a permis la construction d'espaces de timbre dont les dimensions traduisent la similarité perceptive des différents sons. Cependant, ces espaces ne permettent pas d'analyser de nouveaux échantillons sonores et ils n'offrent aucun mécanisme inverse pour la génération audio.

Les progrès des modèles d'apprentissage génératif ont démontrés des capacités sans précédent pour le traitement des données à grande échelle. Ces méthodes probabilistes permettent la construction d'espaces non supervisés pour la synthèse de données telles que les images, le texte ou le son et ont permis de nouvelles interactions telles que la conversion automatique d'images et la manipulation d'attributs perceptifs et stylistiques. Au cours de cette thèse, nous développons des techniques d'analyse/synthèse efficaces basées sur les modèles auto-encodeurs afin d'apprendre des représentations acoustiques inversibles de basse dimensionnalité pour la manipulation intuitive du timbre musical. En premier lieu, nous adaptons les techniques non supervisées de conversion d'images au transfert de propriétés de timbre. Nous proposons des objectifs alternatifs à l'entrainement par réseaux antagonistes génératifs qui permettent le transfert entre de multiples domaines, tels que des collections d'échantillons audios de différents instruments. Nous référons à cette approche comme une modélisation implicite du timbre qui est définit comme l'ensemble des propriétés qui ne sont pas partagées entre les différents domaines sonores. En suite, nous introduisons de nouveaux modèles pour l'apprentissage explicite de représentations du timbre musical et l'échantillonnage avec contrôle des propriétés acoustiques et sémantiques. Ces modèles s'appuient notamment sur le conditionnement du réseau génératif (décodeur) par des attributs musicaux cibles et l'apprentissage hiérarchique de représentations acoustiques locales et séquentielles à plus long terme. De plus, nous appliquons l'apprentissage de représentation discrète pour la décomposition acoustique du timbre qui permet de quantifier et convertir d'autres sources audios par reconstruction avec les propriétés de timbre apprisent dans le domaine cible. Ce faisant, nous proposons une méthode d'analyse de cette représentation discrète par descripteurs acoustiques qui permet le contrôle direct de la synthèse de variations acoustiques cibles. Enfin, nous avons conduit une étude sur la réduction des modèles d'apprentissage profond pour le traitement et la synthèse audio qui permet de réduire drastiquement la taille et le cout de calcul nécessaires à leur déploiement sur des systèmes grand-public et embarqués. Ainsi, notre discussion et évaluation ne se concentrent pas seulement sur la performance d'apprentissage mais aussi sur les qualités d'interaction et l'efficacité de ces modèles pour un usage avec des ressources de calcul contraintes.

From the same archive