Clément Le Moine Veillon, doctorant dans l'équipe Analyse et synthèse sonore de l'UMR STMS (Ircam, Sorbonne Université, CNRS, ministère de la Culture) soutient sa thèse en anglais intitulée
"Neural conversion of social attitudes in speech signals" devant le jury composé de :
Directeur
Axel ROEBEL – Ircam STMS (IRCAM-Sorbonne Université-CNRS-ministère de la Culture), Paris
Encadrant
Nicolas OBIN – Ircam STMS (IRCAM-Sorbonne Université-CNRS-ministère de la Culture), Paris
Rapporteurs
Thomas HUEBER, Chargé de recherche CNRS, GIPSA-lab Grenoble
Damien LOLIVE, Professeur, IRISA, Université de Rennes 1
Examinateurs
Berrak SISMAN, Professeure Associée, Université du Texas
Catherine PELACHAUD, Directrice de recherche CNRS, ISIR, Sorbonne Université
Carlos BUSSO, Professeur, Université du Texas
Jaime LORENZO TRUEBA, Chercheur, Amazon
Résumé :
Lorsqu'ils communiquent vocalement, les humains transmettent un ensemble de signaux sociaux qui enrichissent considérablement le sens communiqué. Les attitudes sociales du locuteur - au coeur de ce processus - sont l'objet de cette recherche dont l'objectif est l'élaboration d'algorithmes neuronaux pour leur conversion. Nos principales contributions sont: la création d'une base de donnée en français pour les attitudes sociales de la parole; la mise au jour de stratégies de production et de biais dans la perception des attitudes sociales; l'élaboration d'un BWS-Net - algorithme mimant la perception humaine des attitudes sociales; un premier algorithme de conversion basé sur une modélisation multi-échelle des contours de F0; un second algorithme de conversion basé sur le Transformer, appris sur des représentations mel-spectrogramme du signal de parole et conditionné linguistiquement par un module de reconnaissance de parole. Ces contributions sont détaillées dans la suite du résumé.
L'étape initiale de ce travail fut la création d'une base de données multi-locuteur en français - Att-HACK - constituée d'une trentaine d'heures de parole expressive dédiées à quatre attitudes sociales : l'amicalité, la distance, la dominance et la séduction. Cette base nous a fourni la matière pour comprendre comment ces attitudes sont communiquées vocalement. Premièrement, une analyse acoustique des données récoltées fondée sur une compréhension des mécanismes anatomiques de production de la parole a permis d'identifier des stratégies communes aux locuteurs français et de mettre au jour des profils prototypiques de production des attitudes. Deuxièmement, une étude basée sur une expérience Best-Worst-Scaling (BWS) menée sur une centaine de sujets, a permis d'évaluer la perception des attitudes produites dans Att-HACK, mettant en évidence des interactions significatives avec le contenu linguistique ou encore avec le genre du locuteur.
Après avoir montré l'existence d'invariants humainement perceptibles au sein de nos données, nous avons travaillé à l'élaboration d'algorithmes capables de capturer ces invariants à travers l'objectif - explicite ou implicite - de reconnaissance des attitudes. Nous avons notamment développé un BWS-Net - algorithme d'évaluation perceptive de l'attitude communiquée - entraîné à partir des jugements des participants à l'expérience BWS. Cet algorithme a permis d'étendre la validation d'Att-HACK aux données non testées, d'identifier notamment les sons pour lesquels l'attitude est mal communiquée et ainsi de fournir des données propres pour l'apprentissage de conversions.
L'intonation - représentée par les variations de fréquence fondamentale, ou F0 - s'est révélée centrale dans la communication des attitudes sociales investiguées lors des deux études mentionnées précédemment. Nous avons donc initialement cherché à convertir ce paramètre unique en modélisant ses variations à différentes échelles temporelles - de micro à macro prosodie - à l'aide d'une couche neuronale permettant l'apprentissage de représentations Continuous Wavelet Transform (CWT). Nous avons proposé un algorithme end-to-end au sein duquel la décomposition du signal de F0 et la conversion - via Dual-GAN - des représentations qui en découlent sont apprises conjointement par paires d'attitudes. Des mesures objectives ainsi qu'un test d'écoute subjectif ont permis de valider les performances de ce modèle pour deux locuteurs différents. Ces premiers résultats ont mis en évidence des difficultés inhérentes à l'emploi d'une représentation paramétrique du signal de parole (cohérence intrinsèque du signal converti, naturalité de la conversion) et nous ont conduit à opter pour une représentation complète, compacte et perceptivement pertinente du signal de parole pour l'apprentissage de conversions : le mel-spectrogramme.
Forts des enseignements de cette proposition initiale, nous avons travaillé au développement d'un algorithme plus ambitieux basé sur l'architecture Transformer, conditionné linguistiquement par un module de reconnaissance de parole et permettant l'apprentissage simultané des conversions entre les quatre attitudes d'Att-HACK. Des mesures objectives ainsi qu'un test d'écoute subjectif ont permis de valider les performances de ce modèle en conversion mono-locuteur. Des expériences en multi-locuteur ainsi qu'avec contrôle de l'intensité attitudinale basé sur l'incorporation d'un BWS-Net montrent de premiers résultats prometteurs.
Contexte :
Thèse co-financée sur le projet MoVE "Modelisation of Voice Expressivity" par la région Île de France et le groupe automobile Stellantis.