Audio synthesizers are electronic systems capable of generating artificial sounds under a set of parameters dependent on their architecture. Despite various developments transforming synthesizers from mere sonic curiosities in the 1960s and earlier to primary instruments in modern music production, two major challenges remain: developing a synthesis system that aligns with human perception and designing a universal synthesis method capable of modeling any source and surpassing it within an artistic process.
This thesis explores the use and application of Generative Adversarial Networks (GANs) to address the aforementioned challenges. The main objective is to propose a neural synthesizer capable of generating realistic drum sounds and controllable through a set of predefined timbre parameters, as well as offering velocity control of the synthesis.
The initial step in the project involved introducing a GAN-based approach to generate realistic drum sounds. In addition to this neural synthesis method, we incorporated timbre control capabilities by exploring a different path from existing solutions: the use of differentiable descriptors. To provide experimental validation, we conducted evaluation experiments using both statistics-based objective metrics and subjective and psychophysical assessments of perceived quality and control error perception. To offer a synthesizer suitable for musical performances, we have also added dynamic control to the synthesizer control through a new dataset we created for this purpose. The explicit goal was to create a comprehensive foundation of sounds applicable in the vast majority of conditions encountered in the context of music production. From this dataset, we present experimental results related to dynamic control, a key aspect of musical performance.
Soutenance de thèse de Antoine Lavault
Antoine Lavault, ingénieur de recherche au sein d'Apeira Technologies, a effectué une thèse CIFRE intitulée "Réseaux Antagonistes Génératifs pour la synthèse et le contrôle des sons de batterie" sous la direction d'Axel Roebel, Responsable de l'équipe Analyse et synthèse des sons du laboratoire STMS (UMR 9912 - Ircam - Sorbonne Université - CNRS - Ministère de la Culture).
Jury :
- Prof. Philippe Depalle - McGill University (Canada) - Rapporteur
- Prof. Vesa Välimäki - Aalto University (Finlande) - Rapporteur
- Prof. Slim Essid - LTCI - Télécom Paris - Institut Polytechnique de Paris - Examinateur
- Dr. Sølvi Ystad - Laboratoire Prism, Université Aix-Marseille - Examinateur
- Dr. Stefan Lattner - Sony Computer Science Laboratories, Paris - Examinateur
- Dr. Axel Roebel - Directeur de recherche (HDR) - Ircam, STMS Lab - Directeur de Thèse
Résumé :
Les synthétiseurs audio sont des systèmes électroniques capables de générer des sons artificiels sous un ensemble de paramètres dépendants de leur architecture. Quand bien même de multiples évolutions ont transformé les synthétiseurs, de simples curiosités sonores dans les années 60 et précédentes, à des instruments principaux dans les productions musicales modernes, deux grands défis restent à relever : le développement d’un système de synthèse répondant à des paramètres cohérents avec leur perception par un humain et la conception d’une méthode de synthèse universelle, capable de modéliser n’importe quelle source dans le cadre d'un processus artistique.
Cette thèse étudie l’utilisation et la valorisation des réseaux antagonistes génératifs (Generative Adversarial Networks, abrégé en GAN) pour construire un système répondant aux deux problèmes exposés précédemment. L’objectif principal est ainsi de proposer un synthétiseur neuronal capable de générer des sons de batteries réalistes et contrôlable par un ensemble de paramètres de timbres prédéfinis, ainsi que de proposer un contrôle de la vélocité de la synthèse.
La première étape dans le projet a été de proposer une approche basée sur les GAN pour générer des sons de batteries réalistes. A cette méthode de synthèse neuronale, nous avons ajouté des capacités de contrôle du timbre en explorant une voie différente des solutions existantes : l’utilisation de descripteurs différentiables. Pour donner des garanties expérimentales à notre travail, nous avons réalisé des expériences d’évaluation à la fois via des métriques objectives, basées sur les statistiques, mais aussi des évaluations subjectives et psychophysiques sur la qualité perçue et la perception des erreurs de contrôle.
Pour proposer un synthétiseur utilisable pour des performances musicales, nous avons ajouté un contrôle de la dynamique de jeu, grâce à un nouveau jeu de données composé de sons de batteries, dans le but avoué de créer une base exhaustive des sons accessibles dans l’immense majorité des conditions rencontrées dans le contexte de la production musicale. De ce jeu de données, nous présentons des résultats expérimentaux liés au contrôle de la dynamique, un des aspects phares de la performance musicale.