Nadia Guerouaou, invitée au sein de l’équipe Perception et Design Sonores de STMS (Ircam, Sorbonne Université, CNRS, Ministère de la Culture), est doctorante en Neurosciences (Ecole Doctorale de Biologie Santé, Université de Lille) et a réalisé la thèse intitulée "L’objet « filtre vocal », du laboratoire à la clinique : vers l’anthropotechnie de nos cognitions sociales" sous la direction de Jean-Julien Aucouturier (Institut FEMTO-ST, Besançon) et de Guillaume Vaiva (Lille Neuroscience & Cognition Centre ). Pour ses recherches, elle a bénéficié du financement du CHRU de Lille et du projet ANR REFLETS. Elle a travaillé en collaboration avec les équipes Plasticity and Subjectivity (Lille Neuroscience & Cognition Centre lab/INSERM/CHRU de Lille) et Neuroteam-FEMTO Université de Franche-Comté, SUPMICROTECH, CNRS, institut FEMTO-ST Besançon.
Parallèlement, elle est psychologue à la Consultation Régionale Psychotrauma des Hauts-de-France où elle reçoit des patients souffrant de Trouble de Stress Post Traumatique (TSPT).
Elle soutient sa thèse devant le Jury composé de :
- Nicolas Baumard - Institut Jean-Nicod, Paris - Rapporteur
- Baptiste Caramiaux - Institut ISIR, Paris - Rapporteur
- Anahita Basirat - SCALab, Université de Lille - Examinatrice
- Mathieu Triclot - Institut FEMTO-ST, Belfort - Examinateur
- Mélanie Voyer - CeRCA, Poitiers - Invitée
- Jean-Julien Aucouturier - Institut FEMTO-ST, Besançon - Co-directeur de thèse
- Guillaume Vaiva - Lille Neuroscience & Cognition Centre - Co-directeur de thèse
Résumé :
Entre zoom calls et deepfakes, nous vivons aujourd’hui dans un monde marqué par la numérisation croissante de nos interactions sociales, et où nous sommes de plus en plus confrontés à la possibilité de contrôler artificiellement notre apparence visuelle et sonore lors de celles-ci. Cette thèse examine l’effet de telles technologies de transformation - spécifiquement ici, de « filtres vocaux1 » capables de contrôler l’expressivité de notre voix - sur les processus cognitifs qui sous-tendent nos perceptions lors d’interactions émotionnelles.
Nous nous plaçons pour cela dans un double cadre théorique et clinique : d’une part, nous inscrivons notre question au sein de la théorie du traitement prédictif (predictive processing), et interrogeons l’effet de contrôler arbitrairement des associations entre états émotionnels et indices expressifs (ex. je suis heureux, ma voix est souriante) qui étaient jusqu’alors considérés comme naturels ; d’autre part, nous prenons comme point de départ une situation clinique particulière, la thérapie d’exposition en imagination à l’évènement traumatique chez les patients souffrant de Trouble de Stress Post-Traumatique (TSPT), une situation au contenu émotionnel intense pour laquelle la voix du patient se situe au premier plan.
Nos trois études menées avec des patients et en laboratoire montrent que la hauteur (pitch) de la voix porte d’une part des informations au sujet de l’état psychologique d’un patient et d’autre part relatives au rythme cardiaque (RC) d’un individu, informations qui peuvent être déduites à la seule écoute de la voix. Dès lors, en manipulant artificiellement le pitch d’enregistrements vocaux, nous avons montré au sein de deux expériences supplémentaires qu’il était possible d’orienter le jugement perceptif d’individus (respectivement soignants et participants sains) au sujet de ces deux informations portées par la voix jusqu’à inverser complètement leurs inférences et ainsi les induire en erreur.
Pris dans leur ensemble, et à l’aune des données de notre travail d’éthique expérimentale montrant une grande acceptabilité morale de ces technologies de transformations des émotions vocales par la population dès 2020 (début de l’accélération de la numérisation de nos intéractions), les résultats de ces cinq études confirment l’influence du « filtre de pitch vocal » sur les processus d’inférences perceptives qui sous-tendent nos cognitions sociales fines en situation d’interaction. Dès lors, nous discutons du potentiel anthropotechnique de ce nouvel objet technologique, et de la nécessité de poursuivre l’étude des effets des nouvelles technologies de façonnement du soi sur la cognition, en vue de l’élaboration d’une pensée critique à la hauteur des enjeux philosophiques, scientifiques et technologiques que posent ces nouvelles technologies.
-------
1. Ce genre de prouesse repose sur diverses techniques de traitement de la voix. Cependant, afin de mettre en exergue leur proximité avec les objets visuels qui sont déjà largement déployés et connus dans notre société, nous utiliserons dans ce travail le terme de « filtre » pour renvoyer à ces transformations de voix réalistes ou deepfakes vocaux même si leur implémentation ne relève pas forcément du concept de « filtrage » en traitement du signal.