The human voice has been a source of fascination and an object of research for over 100 years, and numerous technologies for voice processing have been developed. In this thesis we are concerned with vocoders, which are methods that provide parametric representations of voice signals, and that can be used for voice transformation. Previous studies have demonstrated important limitations of approaches based on explicit signal models: for realistic sounding transformations the dependencies between different voice properties have to be modelled precisely, but unfortunately none of the models proposed so far has been sufficiently refined to correctly express these dependencies.
Recently deep neural networks have demonstrated impressive success in extracting parameter dependencies from data and this thesis sets out to create a voice transformation framework using these networks. The framework works in two stages: first a neural vocoder establishes an invertible mapping between raw voice signals and a mel-spectrogram representation. Secondly, an auto-encoder that establishes an invertible mapping between the mel spectrogram and the voice representation used for voice transformation. The auto-encoder has the task to create what is called the residual code, following two objectives. First, together with the control parameter the residual code should allow to recreate the original mel spectrogram. Second, the residual code should be independent of (disentangled from) the control parameter. If successful, these objectives will allow creating coherent voice signals from the potentially manipulated target parameter and the residual code.
In the first part of the thesis, we discuss different approaches to neural vocoding and the advantages of using the mel-spectrogram compared to conventional parametric vocoder spaces. In the second part we present the proposed auto-encoder using an information-bottleneck to achieve the disentanglement. We demonstrate experimental results concerning two control parameters: the fundamental frequency and the voice level. Transformation of the fundamental frequency is a task that has been frequently studied in the past that allows comparing our approach to existing techniques and studying how the auto-encoder models the dependency on other properties. For the voice level, we face the problem that annotations hardly exist. Therefore, first we provide a new estimation technique for voice level in large voice databases, and subsequently use the voice level annotations to train a bottleneck auto-encoder that allows changing the voice level.
Soutenance de thèse de Frederik Bous
Frederik Bous a réalisé sa thèse "Un cadre neuronal de transformation de la voix pour la modification de la hauteur et de l'intensité" au sein de l'équipe Analyse et synthèse des sons du Laboratoire STMS (Ircam - CNRS - Sorbonne Université - Ministère de la Culture). Ses recherches ont pu bénéficier d'un financement par une bourse EDITE et par le projet ANR "ARS". Son travail l'a conduit à collaborer en même temps avec l'artiste Judith Deschamps (en Résidence en recherche artistique à l'Ircam) pour recréer la voix de Farinelli.
Composition du jury :
Prof. Thierry Dutoit - Professeur des universités - Université de Mons (Belgique) - Rapporteur
Prof. Yannis Stylianou - Professeur des universités - University of Crete (Grèce) - Rapporteur
Dr. Christophe d'Alessandro - Directeur de recherche (HDR) - Institut Jean-Le-Rond-d'Alembert - Examinateur
Dr. Jordi Bonada - Chargé de recherche - Université Pompeu Fabra (UPF) (Espagne) - Examinateur
Dr. Nathalie Henrich - Directrice de recherche (HDR) - Univiversité Grenoble Alpes, UMR 5216 - Examinatrice
Dr. Axel Roebel - Directeur de recherche (HDR) - Ircam, STMS Lab - Directeur de Thèse
Résumé :
La voix humaine est une source de fascination et un objet de recherche depuis plus de 100 ans, et de nombreuses technologies de traitement de la voix ont été développées. Dans cette thèse, nous nous intéressons aux vocodeurs, qui sont des méthodes fournissant des représentations paramétriques des signaux vocaux, et qui peuvent être utilisés pour la transformation de la voix. Des études antérieures ont démontré les limites importantes des approches basées sur des modèles de signaux explicites : pour des transformations vocales réalistes, les dépendances entre les différentes propriétés de la voix doivent être modélisées avec précision, mais malheureusement, aucun des modèles proposés jusqu'à présent n'a été suffisamment affiné pour exprimer correctement ces dépendances.
Récemment, les réseaux neuronaux profonds ont fait preuve d'un succès impressionnant dans l'extraction de dépendances de paramètres à partir de données et cette thèse vise à créer un système de transformation de la voix en utilisant les réseaux neuronaux profonds. Ce cadre fonctionne en deux étapes : tout d'abord, un vocodeur neuronal établit une correspondance inversible entre les signaux vocaux bruts et une représentation du mel-spectrogramme. Ensuite, un auto-encodeur établit une correspondance inversible entre le spectrogramme mél et la représentation vocale utilisée pour la transformation de la voix. L'auto-encodeur a pour tâche de créer ce que l'on appelle le code résiduel, en suivant deux objectifs. Premièrement, avec le paramètre de contrôle, le code résiduel doit permettre de recréer le spectrogramme mél original. Deuxièmement, le code résiduel doit être indépendant (démêlé) du paramètre de contrôle. Si ces objectifs sont atteints, il sera possible de créer des signaux vocaux cohérents à partir du paramètre cible potentiellement manipulé et du code résiduel.
Dans la première partie de la thèse, nous discutons les différentes approches permettant d’établir un vocodeur neuronal et les avantages de l'utilisation du mel-spectrogramme par rapport aux espaces paramétriques traditionnels. Dans la deuxième partie, nous présentons l'auto-encodeur proposé qui utilise un goulot d'étranglement d'information (information-bottleneck) pour réaliser le démêlage. Nous démontrons des résultats expérimentaux concernant deux paramètres de contrôle : la fréquence fondamentale et le niveau de la voix. La transformation de la fréquence fondamentale est une tâche souvent étudiée qui nous permet de comparer notre approche aux techniques existantes et d'étudier comment l'auto-encodeur modélise la dépendance à d'autres propriétés pour une tâche bien connue. Pour le niveau vocal, nous sommes confrontés au problème de la rareté des annotations. Par conséquent, nous proposons d'abord une nouvelle technique d'estimation du niveau de la voix dans de grandes bases de données vocales, puis nous utilisons les annotations du niveau de la voix pour entraîner un auto-encodeur à goulot d'étranglement qui permet de modifier le niveau de la voix.