information

Type
Soutenance de thèse/HDR
performance location
Ircam, Salle Igor-Stravinsky (Paris)
duration
01 h 42 min
date
September 12, 2023

Soutenance d'habilitation Ă  diriger des recherches de Nicolas Obin

Nicolas Obin soutient son Habilitation Ă  Diriger des Recherches (HDR) - "De la reprĂ©sentation du signal Ă  l’apprentissage de reprĂ©sentations : modĂ©lisation structurĂ©e de signaux de parole. » Composition du jury • M. Thomas HUEBER, Directeur de recherche CNRS, GIPSA lab, Rapporteur • M. Emmanuel VINCENT, Directeur de recherche INRIA, MultiSpeech, Rapporteur • M. Bjorn SCHULLER, Professeur, Imperial College London, Rapporteur • M. GĂ©rard BIAU, Professeur, Sorbonne UniversitĂ©, Examinateur • M. Jean-François BONASTRE, Directeur de Recherche INRIA, DĂ©fense et SĂ©curitĂ©, Examinateur • Mme Catherine PELACHAUD, Directrice de recherche CNRS, ISIR, Examinatrice • M. Axel ROEBEL, Directeur de recherche, IRCAM, Examinateur • Mme Isabel TRANCOSO, Professeure, INESC - UniversitĂ© de Lisbonne, Examinatrice • Mr Nicolas BECKER, Designer sonore et artiste, Membre InvitĂ© RĂ©sumĂ© « Cette habilitation prĂ©sente mes dix dernières annĂ©es de recherche sur la modĂ©lisation structurĂ©e de signaux de parole. La parole, en tant que langage oral, constitue le système de communication le plus Ă©laborĂ© observĂ© Ă  ce jour, caractĂ©risĂ©e par une multidimensionnalitĂ© Ă  la fois temporelle, paramĂ©trique, et factorielle. Son Ă©tude mobilise de nombreux domaines scientifiques tels que le traitement du signal et de l'information, l’apprentissage machine, la linguistique, la psychologie, la sociologie ou l’anthropologie. Outre ses fonctions linguistiques, la parole rĂ©vèle un grand nombre d'informations sur un individu, de nature biomĂ©trique (identitĂ©), physiologique (genre/âge, poids/taille, santĂ©, etc...), psychologique (Ă©tat Ă©motionnel, attitude sociale, personnalitĂ©, etc...), stylistique (adaptation Ă  l'audience et au canal de communication), et culturelle (origines gĂ©ographiques, statut socioprofessionnel). Le problème principal de la modĂ©lisation de signaux de parole est que les facteurs de variabilitĂ© ne sont pas accessibles directement Ă  l'observation mais sont intriquĂ©s de manière complexe et ambiguĂ« dans le signal de parole. L'enjeu du traitement automatique de la parole consiste donc Ă  pouvoir identifier et dĂ©mĂŞler les facteurs de variabilitĂ© dans les signaux de parole, en particulier par l'observation statistique de rĂ©gularitĂ©s sur des bases de donnĂ©es. Ma recherche s'est concentrĂ©e sur le problème de l'identification et de la modĂ©lisation des facteurs de variabilitĂ© liĂ©s Ă  la stylistique et Ă  l'expressivitĂ© de la communication parlĂ©e. J'ai en particulier explorĂ© l'utilisation de l'apprentissage machine pour analyser, modĂ©liser et gĂ©nĂ©rer des signaux de parole. L’enjeu principal de ma recherche est de rĂ©soudre, par apprentissage Ă  partir d'un nombre limitĂ© de donnĂ©es, les ambiguĂŻtĂ©s dans le signal de parole, en apprenant de manière structurĂ©e les reprĂ©sentations encodant de manière diffĂ©renciĂ©e les informations associĂ©s aux facteurs de variabilitĂ© considĂ©rĂ©s (comme l'identitĂ©, le style, ou l'expressivitĂ©). Cette recherche s'articule autour de trois axes principaux : 1) la cognition, et les reprĂ©sentations mentales de la voix humaine et de leur similaritĂ© ; 2) la perception, et la capacitĂ© de l'ĂŞtre humain Ă  sĂ©parer et localiser des sources sonores ; et enfin 3) la gĂ©nĂ©ration, ou comment crĂ©er ou manipuler l'identitĂ© ou l'expressivitĂ© de voix humaines rĂ©elles ou artificielles. J’exposerai la transition d'un paradigme signal Ă  un paradigme apprentissage : ce phĂ©nomène s’est manifestĂ© dans le domaine de la synthèse de la parole par une Ă©volution en trois temps, depuis la synthèse par sĂ©lection d'unitĂ©s, Ă  la modĂ©lisation statistique multi-paramĂ©trique, et Ă  la gĂ©nĂ©ration neuronale Ă  partir de reprĂ©sentations compressĂ©es et incomplètes. Ce changement de paradigme s'explique par les limitations des modèles de signaux traditionnels pour l'analyse et la synthèse de la parole — en particulier expressive ; et par la limitation historique liĂ©e Ă  la dualitĂ© du modèle de signal et du modèle d'apprentissage en sĂ©parant les modèles de reprĂ©sentation des modèles d’apprentissage. L'apparition des rĂ©seaux de neurones profond a permis de dĂ©passer cette dualitĂ© en apprenant les reprĂ©sentations au cours de l’apprentissage. La question des donnĂ©es est primordiale et conditionne l'ensemble des problèmes de l'apprentissage. A une extrĂ©mitĂ© du spectre, l'abondance des donnĂ©es contrebalance le manque de spĂ©cification de connaissances humaines dans les modèles d'apprentissage ; Ă  l'autre extrĂ©mitĂ© du spectre, certains modèles — par exemple, physique — sont entièrement spĂ©cifiĂ©s par la connaissance humaine et n'ont pas besoin de donnĂ©es pour l'apprentissage. Entre ces deux pĂ´les, il existe un intermĂ©diaire entre la spĂ©cification de connaissances humaines et l'apprentissage machine Ă  partir de donnĂ©es. Les conclusions principales de ma recherche soutiennent l’idĂ©e d’une nĂ©cessaire coopĂ©ration entre les deux pĂ´les de la connaissance humaine et de l’apprentissage machine, notamment par la formulation de modèles d’apprentissage structurĂ©s Ă  partir de connaissances humaines. En l’occurrence, si la gĂ©nĂ©ration de la parole a dĂ©sormais rĂ©solu en grande partie les problèmes de l’intelligibilitĂ© et de la naturalitĂ©, la parole rĂ©siste encore Ă  la connaissance humaine et aux machines et de nouveaux dĂ©fis s’ouvrent pour la recherche. Les problèmes des fonctions expressives et esthĂ©tique de la parole — et par prolongement naturel de l’interprĂ©tation —, de la multimodalitĂ© parole-geste des comportements humains, de la modĂ©lisation de la communication verbale et non verbale, situĂ©e et en contexte, et plus largement des modèles d’apprentissages Ă©conomes en ressources matĂ©rielle comme algorithmique, et respectueux des donnĂ©es personnelles sont autant de nouvelles voies Ă  explorer. Cette habilitation sera accompagnĂ©e de nombreuses illustrations sonores issues de ma recherche et de ses applications crĂ©atives et artistiques. »

speakers


share


Do you notice a mistake?

IRCAM

1, place Igor-Stravinsky
75004 Paris
+33 1 44 78 48 43

opening times

Monday through Friday 9:30am-7pm
Closed Saturday and Sunday

subway access

Hôtel de Ville, Rambuteau, Châtelet, Les Halles

Institut de Recherche et de Coordination Acoustique/Musique

Copyright © 2022 Ircam. All rights reserved.