informations

Type
Soutenance de thèse/HDR
Lieu de représentation
Ircam, Salle Igor-Stravinsky (Paris)
durée
02 h 14 min
date
9 décembre 2013

La soutenance de thèse se déroule devant un jury composé de :

Rapporteurs :
M. Thierry Dutoit Professeur, Faculté Polytechnique de Mons
M. Xavier Pélorson Directeur de recherche HDR, CNRS, GIPSA-lab

Examinateurs :
M. Philippe Depalle Professeur, Schulich School of Music, McGill University
M. Malte Kob Professeur, Hochscule für Musik Detmold
M. Christophe Vergez Chargé de recherche, HDR, CNRS, LMA

Collaborateur
M. Boris Doval, Maître de conférence, LAM, IJLRA, UPMC
Co-directeur
M. Thomas Hélie, Chargé de recherche, HDR, CNRS, IRCAM
Co-directeur (invité)
M. René Caussé, Directeur de recherche, HDR, IRCAM

Ce travail porte sur l’étude de la production de la voix. L’objectif principal est de proposer des solutions pour son analyse-synthèse qui permettent une large représentation de la diversité des signaux biométriques (observés en pratique) dans le cadre du paradigme source-filtre ou de modèles physiques simplifiés. L’étude est menée selon trois axes : l’exploration de l’activité laryngée, la modélisation de la phonation et l’analyse-synthèse sonore.
Après une description de l’appareil phonatoire et de modèles d’analyse-synthèse actuels, la première partie s’intéresse à l’exploration de signaux biométriques. A partir du recensement des dispositifs actuels, nous proposons un outil de synchronisation qui révèle la complexité du mouvement 3D des plis vocaux. Une étude comparative avec un système acoustique à valve humaine similaire (lèvres d’un tromboniste) est menée et le développement d’un nouvel outil combinant deux techniques récentes d’imagerie électrique est proposé.
Dans la deuxième partie, deux algorithmes d’analyse sont proposés pour un modèle source-filtre fondé sur une représentation tous-pôles causale-anticausale du signal vocal. Un calcul du cepstre complexe est proposé, garantissant l’holomorphie sur une couronne de convergence dans le domaine en Z. Cet outil est alors exploité pour la séparation de la source et du filtre.
Enfin, des représentations paramétriques des signaux d’aire glottique sont exploitées pour piloter des modèles à géométrie forcée. Un modèle de synthèse, inspiré du modèle source-filtre mais intégrant l’effet du couplage entre la glotte et le conduit vocal, et des avancées sur la modélisation de conduit vocal à profil régulier sont présentées.


Abstract:

This work focuses on the study of voice production. The main objective is to propose solutions for its analysis-synthesis which enable a wide representation of the diversity of biometric signals (observed in practice) within the framework of source-filtre paradigm or simplified physical models. The study is conducted according to three axes: exploration of laryngeal activity, modelisation of the phonation and sound analysis-synthesis.
After a description of the vocal apparatus and current analysis-synthesis models, the first part focuses on the exploration of biometric signals. From an inventory of current devices, we propose a synchronisation tool which reveals the complexity ot the 3D motion of vocal folds. A comparative study with a similar human-valve-based sound production system (lips of a tombonist) is conducted and the development of a new tool combining two recent electrical imaging techniques is proposed.
In the second part, two new analysis algorithms are proposed for a source-filter model based on a causal-anticausal all-pole representation of speech signals. A computation method of the complex cepstrum is proposed, which ensures the holomorphy on a convergence domain in the Z plane. This tool is then used for the separation of the source and the filter.
Finally, parametric representations of glottal area waveforms are used to drive models controlled by the geometry. A synthesis model, based on the source-filter model but including the effect of the coupling between the glottis and the vocal tract, and advances in the modeling of the vocal tract with regular profile are presented.


Production de la voix : exploration, modèles et analyse/synthèse

La soutenance de thèse se déroule devant un jury composé de : Rapporteurs : M. Thierry Dutoit Professeur, Faculté Polytechnique de Mons M. Xavier Pélorson Directeur de recherche HDR, CNRS, GIPSA-lab Examinateurs : M. Philippe Depalle Professeur, Schulich School of Music, McGill University M. Malte Kob Professeur, Hochscule für Musik Detmold M. Christophe Vergez Chargé de recherche, HDR, CNRS, LMA Collaborateur M. Boris Doval Maître de conférence, LAM, IJLRA, UPMC Co-directeur M. Thomas Hélie Chargé de recherche, HDR, CNRS, IRCAM Co-directeur (invité) M. René Caussé Directeur de recherche, HDR, IRCAM Ce travail porte sur l'étude de la production de la voix. L'objectif principal est de proposer des solutions pour son analyse-synthèse qui permettent une large représentation de la diversité des signaux biométriques (observés en pratique) dans le cadre du paradigme source-filtre ou de modèles physiques simplifiés. L'étude est menée selon trois axes : l'exploration de l'activité laryngée, la modélisation de la phonation et l'analyse-synthèse sonore. Après une description de l'appareil phonatoire et de modèles d'analyse-synthèse actuels, la première partie s'intéresse à l'exploration de signaux biométriques. A partir du recensement des dispositifs actuels, nous proposons un outil de synchronisation qui révèle la complexité du mouvement 3D des plis vocaux. Une étude comparative avec un système acoustique à valve humaine similaire (lèvres d'un tromboniste) est menée et le développement d'un nouvel outil combinant deux techniques récentes d'imagerie électrique est proposé. Dans la deuxième partie, deux algorithmes d'analyse sont proposés pour un modèle source-filtre fondé sur une représentation tous-pôles causale-anticausale du signal vocal. Un calcul du cepstre complexe est proposé, garantissant l'holomorphie sur une couronne de convergence dans le domaine en Z. Cet outil est alors exploité pour la séparation de la source et du filtre. Enfin, des représentations paramétriques des signaux d'aire glottique sont exploitées pour piloter des modèles à géométrie forcée. Un modèle de synthèse, inspiré du modèle source-filtre mais intégrant l'effet du couplage entre la glotte et le conduit vocal, et des avancées sur la modélisation de conduit vocal à profil régulier sont présentées. * * * * * * * * Abstract: This work focuses on the study of voice production. The main objective is to propose solutions for its analysis-synthesis which enable a wide representation of the diversity of biometric signals (observed in practice) within the framework of source-filtre paradigm or simplified physical models. The study is conducted according to three axes: exploration of laryngeal activity, modelisation of the phonation and sound analysis-synthesis. After a description of the vocal apparatus and current analysis-synthesis models, the first part focuses on the exploration of biometric signals. From an inventory of current devices, we propose a synchronisation tool which reveals the complexity ot the 3D motion of vocal folds. A comparative study with a similar human-valve-based sound production system (lips of a tombonist) is conducted and the development of a new tool combining two recent electrical imaging techniques is proposed. In the second part, two new analysis algorithms are proposed for a source-filter model based on a causal-anticausal all-pole representation of speech signals. A computation method of the complex cepstrum is proposed, which ensures the holomorphy on a convergence domain in the Z plane. This tool is then used for the separation of the source and the filter. Finally, parametric representations of glottal area waveforms are used to drive models controlled by the geometry. A synthesis model, based on the source-filter model but including the effect of the coupling between the glottis and the vocal tract, and advances in the modeling of the vocal tract with regular profile are presented.

intervenants


partager


Vous constatez une erreur ?

IRCAM

1, place Igor-Stravinsky
75004 Paris
+33 1 44 78 48 43

heures d'ouverture

Du lundi au vendredi de 9h30 à 19h
Fermé le samedi et le dimanche

accès en transports

Hôtel de Ville, Rambuteau, Châtelet, Les Halles

Institut de Recherche et de Coordination Acoustique/Musique

Copyright © 2022 Ircam. All rights reserved.