dc.contributor.advisor | Rouat, Jean | |
dc.contributor.advisor | Dupont, Stéphane | |
dc.contributor.author | Brousmiche, Mathilde | fr |
dc.date.accessioned | 2021-04-14T14:10:32Z | |
dc.date.available | 2021-04-14T14:10:32Z | |
dc.date.created | 2021 | fr |
dc.date.issued | 2021-04-14 | |
dc.identifier.uri | http://hdl.handle.net/11143/18297 | |
dc.description.abstract | La compréhension automatique du monde environnant a de nombreuses applications
telles que la surveillance et sécurité, l'interaction Homme-Machine,
la robotique, les soins de santé, etc. Plus précisément, la compréhension peut
s'exprimer par le biais de différentes taches telles que la classification et localisation
dans l'espace d'évènements. Les êtres vivants exploitent un maximum
de l'information disponible pour comprendre ce qui les entoure. En s'inspirant
du comportement des êtres vivants, les réseaux de neurones artificiels devraient
également utiliser conjointement plusieurs modalités, par exemple, la vision et
l'audition.
Premièrement, les modèles de classification et localisation, basés sur l'information
audio-visuelle, doivent être évalués de façon objective. Nous avons donc
enregistré une nouvelle base de données pour compléter les bases actuellement
disponibles. Comme aucun modèle audio-visuel de classification et localisation
n'existe, seule la partie sonore de la base est évaluée avec un modèle de la
littérature.
Deuxièmement, nous nous concentrons sur le cœur de la thèse: comment
utiliser conjointement de l'information visuelle et sonore pour résoudre une
tâche spécifique, la reconnaissance d'évènements. Le cerveau n'est pas constitué d'une "simple" fusion mais comprend de multiples interactions entre
les deux modalités. Il y a un couplage important entre le traitement de
l'information visuelle et sonore. Les réseaux de neurones offrent la possibilité de créer des interactions entre les modalités en plus de la fusion. Dans
cette thèse, nous explorons plusieurs stratégies pour fusionner les modalités
visuelles et sonores et pour créer des interactions entre les modalités. Ces techniques
ont les meilleures performances en comparaison aux architectures de
l'état de l'art au moment de la publication. Ces techniques montrent l'utilité
de la fusion audio-visuelle mais surtout l'importance des interactions entre les
modalités.
Pour conclure la thèse, nous proposons un réseau de référence pour la classification et localisation d'évènements audio-visuels. Ce réseau a été testé avec
la nouvelle base de données. Les modèles précédents de classification sont
modifiés pour prendre en compte la localisation dans l'espace en plus de la
classification. | fr |
dc.description.abstract | Abstract: The automatic understanding of the surrounding world has a wide range of applications, including surveillance, human-computer interaction, robotics, health care, etc. The understanding can be expressed in several ways such as event classification and its localization in space. Living beings exploit a maximum of the available information to understand the surrounding world. Artificial neural networks should build on this behavior and jointly use several modalities such as vision and hearing. First, audio-visual networks for classification and localization must be evaluated objectively. We recorded a new audio-visual dataset to fill a gap in the current available datasets. We were not able to find audio-visual models for classification and localization. Only the dataset audio part is evaluated with a state-of-the-art model. Secondly, we focus on the main challenge of the thesis: How to jointly use visual and audio information to solve a specific task, event recognition. The brain does not comprise a simple fusion but has multiple interactions between the two modalities to create a strong coupling between them. The neural networks offer the possibility to create interactions between the two modalities in addition to the fusion. We explore several strategies to fuse the audio and visual modalities and to create interactions between modalities. These techniques have the best performance compared to the state-of-the-art architectures at the time of publishing. They show the usefulness of audio-visual fusion but above all the contribution of the interaction between modalities. To conclude, we propose a benchmark for audio-visual classification and localization on the new dataset. Previous models for the audio-visual classification are modified to address the localization in addition to the classification. | fr |
dc.language.iso | eng | fr |
dc.publisher | Université de Sherbrooke | fr |
dc.rights | © Mathilde Brousmiche | fr |
dc.subject | Audio-visual fusion | fr |
dc.subject | Modality conditioning | fr |
dc.subject | Multimodal Deep Learning | fr |
dc.subject | Event recognition | fr |
dc.subject | Event localization | fr |
dc.subject | Fusion audio-visuelle | fr |
dc.subject | Conditionnement de modalités | fr |
dc.subject | Apprentissage profond multimodale | fr |
dc.subject | Reconnaissance d’évènements | fr |
dc.subject | Localisation d’évènements | fr |
dc.title | Cross-modal interaction in deep neural networks for audio-visual event classification and localization | fr |
dc.title.alternative | Interaction intermodale dans les réseaux neuronaux profonds pour la classification et la localisation d'évènements audiovisuels | fr |
dc.type | Thèse | fr |
tme.degree.discipline | Génie électrique | fr |
tme.degree.grantor | Faculté de génie | fr |
tme.degree.grantother | Université de Mons | fr |
tme.degree.level | Doctorat | fr |
tme.degree.name | Ph.D. | fr |