Vincent ISNARD, soutient sa thèse de doctorat, réalisée au sein de l’équipe Espaces Acoustiques et Cognitifs à l’Ircam (STMS - CNRS/IRCAM/UPMC) et de l'équipe Perception, département Action et Cognition en Situation Opérationnelle, à l'Irba (Institut de Recherche Biomédicale des Armées), intitulée :
"L'efficacité du système auditif humain pour la reconnaissance de sons naturels"
La soutenance de thèse se fait devant un jury composé de :
Pascal Belin - Rapporteur
Université d'Aix-Marseille
Catherine Semal - Rapporteure
Université Bordeaux 2
Anne Caclin - Examinatrice
Chargée de Recherche, CNRS
Bruno Gas - Examinateur
Université Paris 6
Christophe Micheyl - Examinateur
Starkey Hearing Technologies
Isabelle Viaud-Delmon - Directrice
STMS - CNRS/IRCAM/UPMC
Clara Suied - Co-encadrante
IRBA
Résumé:
Dans l'environnement sonore quotidien, les sons naturels sont en général facilement reconnaissables. Cette efficacité de la reconnaissance auditive peut être décrite et quantifiée suivant deux aspects différents : la quantité d'information nécessaire pour y parvenir et sa rapidité. L'objectif de cette thèse est d'évaluer expérimentalement ces deux aspects.
Dans une première partie expérimentale, nous nous sommes intéressés à la quantité d'information en créant des représentations parcimonieuses de sons naturels originaux pour constituer ce qui est appelé des esquisses auditives. Nous avons montré qu'une esquisse auditive est reconnue malgré la quantité très limitée d'information auditive présente dans les stimuli. Pour parvenir à ces résultats, nous avons consacré une partie importante de notre travail à l'élaboration d'outils d'analyse adéquats en fonction des catégories sonores testées. Ainsi, pour l'analyse des stimuli auditifs, nous avons développé un modèle de distance auditive entre catégories sonores. Pour l'analyse des performances des participants, nous avons développé un modèle pour le calcul de la sensibilité par catégorie sonore et tenant compte du biais, qui s'intègre dans la théorie de détection du signal. Ces analyses nous ont permis de montrer qu'en réalité les résultats ne sont pas équivalents entre les différentes catégories sonores. En particulier, la voix se démarque des autres catégories testées (e.g. instruments de musique) : la technique de sélection de l'information parcimonieuse ne semble pas adaptée aux indices de la voix.
Dans une seconde partie expérimentale, nous avons étudié le décours temporel de la reconnaissance auditive. Afin d'estimer le temps nécessaire au système auditif pour reconnaître un son, nous avons utilisé un récent paradigme de présentation audio séquentielle rapide (RASP, pour Rapid Audio Sequential Presentation). Nous avons montré que moins de 50 ms suffisent pour reconnaître un son naturel court, avec une meilleure reconnaissance pour la voix humaine. L'ensemble de nos résultats suggère un traitement efficace des sons naturels par le système auditif, et en particulier pour la voix humaine.
Abstract:
In the daily soundscape, natural sounds are generally easy to recognize. Auditory recognition relies on two different aspects for such efficacy: the quantity of information necessary and the processing speed. The objective of this thesis was to experimentally evaluate these two aspects. In a first experimental part, we explored the amount of information by creating sparse representations of original natural sounds to form what is called auditory sketches. We showed that an auditory sketch is recognizable despite the very limited quantity of auditory information in the stimuli. To achieve these results, we dedicated an important part of our work on the elaboration of adequate tools in function of the tested sound categories. Thus, for the analysis of auditory stimuli, we have developed an auditory distance model between sound categories. For the analysis of the performances of the participants, we have developed a model to calculate the sensitivity by sound category and taking into account the bias, which falls within the signal detection theory. These analyses allowed us to show that, actually, the results are not equivalent between the different sound categories. Voices stand out from the other categories tested (e.g. musical instruments): the technique of selection of the sparse information does not seem adapted to the voice features. In a second experimental part, we investigated the temporal course of auditory recognition. To estimate the time necessary for the auditory system to recognize a sound, we used a recent paradigm of Rapid Audio Sequential Presentation (RASP). We showed that less than 50 ms are enough to recognize a short natural sound, with a better recognition for the human voice. Altogether, our results suggest an efficient treatment of natural sounds by the auditory system, and in particular for the human voice.