Show simple document record

Other titre : Interaction intermodale dans les réseaux neuronaux profonds pour la classification et la localisation d'évènements audiovisuels

dc.contributor.advisorRouat, Jean
dc.contributor.advisorDupont, Stéphane
dc.contributor.authorBrousmiche, Mathildefr
dc.date.accessioned2021-04-14T14:10:32Z
dc.date.available2021-04-14T14:10:32Z
dc.date.created2021fr
dc.date.issued2021-04-14
dc.identifier.urihttp://hdl.handle.net/11143/18297
dc.description.abstractLa compréhension automatique du monde environnant a de nombreuses applications telles que la surveillance et sécurité, l'interaction Homme-Machine, la robotique, les soins de santé, etc. Plus précisément, la compréhension peut s'exprimer par le biais de différentes taches telles que la classification et localisation dans l'espace d'évènements. Les êtres vivants exploitent un maximum de l'information disponible pour comprendre ce qui les entoure. En s'inspirant du comportement des êtres vivants, les réseaux de neurones artificiels devraient également utiliser conjointement plusieurs modalités, par exemple, la vision et l'audition. Premièrement, les modèles de classification et localisation, basés sur l'information audio-visuelle, doivent être évalués de façon objective. Nous avons donc enregistré une nouvelle base de données pour compléter les bases actuellement disponibles. Comme aucun modèle audio-visuel de classification et localisation n'existe, seule la partie sonore de la base est évaluée avec un modèle de la littérature. Deuxièmement, nous nous concentrons sur le cœur de la thèse: comment utiliser conjointement de l'information visuelle et sonore pour résoudre une tâche spécifique, la reconnaissance d'évènements. Le cerveau n'est pas constitué d'une "simple" fusion mais comprend de multiples interactions entre les deux modalités. Il y a un couplage important entre le traitement de l'information visuelle et sonore. Les réseaux de neurones offrent la possibilité de créer des interactions entre les modalités en plus de la fusion. Dans cette thèse, nous explorons plusieurs stratégies pour fusionner les modalités visuelles et sonores et pour créer des interactions entre les modalités. Ces techniques ont les meilleures performances en comparaison aux architectures de l'état de l'art au moment de la publication. Ces techniques montrent l'utilité de la fusion audio-visuelle mais surtout l'importance des interactions entre les modalités. Pour conclure la thèse, nous proposons un réseau de référence pour la classification et localisation d'évènements audio-visuels. Ce réseau a été testé avec la nouvelle base de données. Les modèles précédents de classification sont modifiés pour prendre en compte la localisation dans l'espace en plus de la classification.fr
dc.description.abstractAbstract: The automatic understanding of the surrounding world has a wide range of applications, including surveillance, human-computer interaction, robotics, health care, etc. The understanding can be expressed in several ways such as event classification and its localization in space. Living beings exploit a maximum of the available information to understand the surrounding world. Artificial neural networks should build on this behavior and jointly use several modalities such as vision and hearing. First, audio-visual networks for classification and localization must be evaluated objectively. We recorded a new audio-visual dataset to fill a gap in the current available datasets. We were not able to find audio-visual models for classification and localization. Only the dataset audio part is evaluated with a state-of-the-art model. Secondly, we focus on the main challenge of the thesis: How to jointly use visual and audio information to solve a specific task, event recognition. The brain does not comprise a simple fusion but has multiple interactions between the two modalities to create a strong coupling between them. The neural networks offer the possibility to create interactions between the two modalities in addition to the fusion. We explore several strategies to fuse the audio and visual modalities and to create interactions between modalities. These techniques have the best performance compared to the state-of-the-art architectures at the time of publishing. They show the usefulness of audio-visual fusion but above all the contribution of the interaction between modalities. To conclude, we propose a benchmark for audio-visual classification and localization on the new dataset. Previous models for the audio-visual classification are modified to address the localization in addition to the classification.fr
dc.language.isoengfr
dc.publisherUniversité de Sherbrookefr
dc.rights© Mathilde Brousmichefr
dc.subjectAudio-visual fusionfr
dc.subjectModality conditioningfr
dc.subjectMultimodal Deep Learningfr
dc.subjectEvent recognitionfr
dc.subjectEvent localizationfr
dc.subjectFusion audio-visuellefr
dc.subjectConditionnement de modalitésfr
dc.subjectApprentissage profond multimodalefr
dc.subjectReconnaissance d’évènementsfr
dc.subjectLocalisation d’évènementsfr
dc.titleCross-modal interaction in deep neural networks for audio-visual event classification and localizationfr
dc.title.alternativeInteraction intermodale dans les réseaux neuronaux profonds pour la classification et la localisation d'évènements audiovisuelsfr
dc.typeThèsefr
tme.degree.disciplineGénie électriquefr
tme.degree.grantorFaculté de géniefr
tme.degree.grantotherUniversité de Monsfr
tme.degree.levelDoctoratfr
tme.degree.namePh.D.fr


Files in this document

Thumbnail

This document appears in the following Collection(s)

Show simple document record