information

Type
Séminaire / Conférence
performance location
Ircam, Salle Igor-Stravinsky (Paris)
duration
01 h 01 min
date
June 14, 2022

Sascha HORNAUER, ingénieur de recherche au CAOR de Mines Paritech, vient échanger autour des “3D-Scene Reconstruction based on Audio-Visual Data”.

Ce séminaire est en anglais.

résumé :

Chercheur au Centre de robotique CAOR, Mines Paristech.
Après mon diplôme à l’Université d’Oldenburg, Allemagne, sur la gestion de trajectoires pour les navires autonomes, j’ai fait un postdoc à l’UC Berkeley (Computer Vision) sous la direction de Stella Yu. Là, je me suis orienté dans la recherche d’inclure le son afin de mieux résoudre les tâches typiques de la vision. Mes efforts portent maintenant sur l’utilisation du son pour la navigation robotique lorsque le capteur visuel est défaillant. Toujours à Berkeley, j’avais ajouté un microphone binaural et un capteur de profondeur RVB à un robot afin de recueillir un ensemble de données audiovisuelles. J’ai ensuite prédit des informations sur la profondeur approximative à partir d’un son stéréo en utilisant le principe d’écholocation.

Dans le but de développer un capteur sonore robuste, j’ai réalisé l’intérêt de disposer de réponses impulsionnelles géométriques correctes, qui ne sont pas seulement plausibles pour un être humain mais contiennent des informations spatiales précises. Avec ces RIRs, je pouvais rapidement prototyper des sons de sondage, comme les balayages de fréquence que les chauves-souris utilisent pour visualiser les pièces.
Générer des RIRs plausibles est un nouvel axe de recherche dans le domaine de la vision par ordinateur qui vise à améliorer, par exemple, les arrière-plans virtuels dans les logiciels de chat vidéo. L’utilisation d’images et de vidéos pour générer des RIRs visuellement fondés, qui sont également géométriquement plausibles et qui, idéalement, peuvent être générés pour chaque position individuelle au sein d’un même espace, sont, je pense, à la portée des méthodes actuelles et j’aimerais discuter de la façon de collaborer potentiellement sur ce sujet ou un sujet similaire, et aussi pour améliorer l’expérience dans les cas d’utilisation de la réalité augmentée.

quelques références d’articles :

Christensen, Jesper Haahr, Sascha Hornauer, and X. Yu Stella. “Batvision: Learning to see 3d spatial layout with two ears.” 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020.
Christensen, Jesper Haahr, Sascha Hornauer, and Stella Yu. “BatVision with GCC-PHAT Features for Better Sound to Vision Predictions.” Sight & Sound 2020 (2020).
Hornauer, Sascha, et al. “Unsupervised Discriminative Learning of Sounds for Audio Event Classification.” ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.

speakers


share


Do you notice a mistake?

IRCAM

1, place Igor-Stravinsky
75004 Paris
+33 1 44 78 48 43

opening times

Monday through Friday 9:30am-7pm
Closed Saturday and Sunday

subway access

Hôtel de Ville, Rambuteau, Châtelet, Les Halles

Institut de Recherche et de Coordination Acoustique/Musique

Copyright © 2022 Ircam. All rights reserved.