Vous constatez une erreur ?
NaN:NaN
00:00
Plusieurs millions d’années d’évolution génétique ont façonné notre système auditif, élevant ainsi notre écoute au rang d’un art. Malgré un spectre de fréquences perçues quelque peu limité, nous sommes en mesure d’effectuer une discrimination précise et flexible des événements auditifs. Ces capacités uniques proviennent de la capacité qu’a notre cerveau à organiser notre perception des sons et de la musique. Nous pouvons ainsi traiter simultanément plusieurs échelles de perception contradictoires, par la construction d’une structure multidimensionnelle de la perception. De plus, même si le temps est un concept omniprésent et complexe, les êtres humains ont une capacité inhérente à extraire une structure cohérente à partir de formes temporelles.
Le point de départ de notre travail était donc d’étudier ces aspects temporels et perceptuels pour la création d’un système de génération d’orchestration musicale. Nous montrons qu’en s’inspirant de cette perception musicale et en émulant ces mécanismes dans nos choix algorithmiques, nous sommes en mesure de créer des approches novatrices et efficaces de recherche et de classification générique, dépassant largement le cadre des problématiques musicales. Tout d’abord, en essayant d’imiter le caractère multi-objectif de notre perception des structures temporelles, nous proposons un cadre de recherche appelé MultiObjective Time Series (MOTS). Nous commençons par définir formellement ce nouveau problème et proposons un algorithme efficace pour le résoudre.
Sur la base de cette approche, nous sommes en mesure d’introduire deux paradigmes innovants de recherche sur les fichiers audio. Nous étudions l’efficacité et la facilité d’utilisation de ces paradigmes grâce à des études utilisateurs. Suite à celles-ci, nous analysons également la validité de notre proposition en analysant la perception d’évolutions temporelles conflictuelles sur des descripteurs audio de haut niveau. Nous exposons ainsi le concept de directions d’écoute multidimensionnelles qui prend naissance dans notre perception. Nous montrons que ces directions sont consistantes à travers plusieurs tâches mais également uniques à chaque personne. Après cette validation, nous introduisons un nouveau paradigme flexible de classification basé sur les hypervolumes dominés par les différentes classes, appelé HyperVolume-MOTS (HV-MOTS). Contrairement aux paradigmes classiques qui étudient la position d’un élément par rapport aux différentes classes existantes, notre système étudie le comportement de la classe entière par rapport à l’élement à travers la distribution et la diffusion d’une classe sur l’espace d’optimisation. Nous montrons que la flexibilité multi objective inspirée par notre perception musicale, produit un paradigme de classification qui surpasse les méthodes de l’état de l’art sur un large éventail de problèmes scientifiques tels que l’analyse EEG, la climatologie, le diagnostic médical, la reconnaissance de caractères et la robotique. Nous fournissons une comparaison de ce paradigme par rapport aux classificateurs classiques tels que le Nearest-Neighbor, Nearest-Center ou Support Vector Machines. Nous effectuons ensuite une évaluation exhaustive et approfondie de notre nouvelle approche et démontrons sa supériorité sur un large ensemble de données. Nous montrons en outre plusieurs applications permettant d’étudier de manière plus détaillée les forces et faiblesses de notre proposition.
Nous présentons l’application principale de cette méthode dans laquelle elle permet de construire un système d’identification biométrique basée sur les sons produit par les battements de coeur. En particulier, nous développons pour ce problème un nouvel ensemble de descripteurs basés sur la transformée de Stockwell et inspiré par la recherche en analyse musicale. Nous montrons que nous pouvons identifier avec précision les êtres humains à travers les sons que produit leur coeur et que nous atteignons des taux d’erreur équivalent à d’autres caractéristiques biométriques telles que la reconnaissance vocale. Ces résultats sont confirmés par le plus grand ensemble de données de sons cardiaques jamais recueillies, comprenant également l’étude d’isolation Mars500 effectuée par l’Agence Spatiale Européenne.
Enfin, nous montrons comment toute cette connaissance acquise permet de revenir à nos problématiques artistiques originales d’orchestration musicale. Nous étudions ainsi le problème de la génération de mélanges sonores orchestraux imitant au mieux une cible audio donnée. En effectuant cette reconstruction, nous évitons de mélanger la similarité en une mesure de distance unique et nous utilisons un nouvel algorithme de recherche basé sur le cadre MOTS appelé Optimal Warping. Cette approche nous permet ainsi d’obtenir un ensemble de solutions efficaces qui offrent différents compromis entre les objectifs spectraux. Cet algorithme effectue une segmentation morphologique basée sur l’analyse de la variation d’entropie des séries temporelles. Nous présentons enfin plusieurs interfaces et applications musicales qui résultent de nos travaux.
(Manque tout début de la soutenance)
Vous constatez une erreur ?
1, place Igor-Stravinsky
75004 Paris
+33 1 44 78 48 43
Du lundi au vendredi de 9h30 à 19h
Fermé le samedi et le dimanche
Hôtel de Ville, Rambuteau, Châtelet, Les Halles
Institut de Recherche et de Coordination Acoustique/Musique
Copyright © 2022 Ircam. All rights reserved.