Show simple document record

dc.contributor.advisorWang, Shengruifr
dc.contributor.advisorBouguessa, Mohamedfr
dc.contributor.authorAu, Émiliefr
dc.date.accessioned2014-05-16T15:36:51Z
dc.date.available2014-05-16T15:36:51Z
dc.date.created2011fr
dc.date.issued2011fr
dc.identifier.isbn9780494837207fr
dc.identifier.urihttp://savoirs.usherbrooke.ca/handle/11143/4938
dc.description.abstractDe nombreuses applications dans le domaine de la recherche d'information voient leur performance influencée par le modèle de représentation de documents. En effet, théoriquement, meilleure est la modélisation, meilleure sera la performance de l'application qui exploite la modélisation. Or la modélisation"parfaite" d'un document est celle qui utilise l'intégralité des théories linguistiques. Cependant, en pratique, celles-ci sont difficiles à traduire sous forme de traitements informatiques. Néanmoins, il existe des modèles qui s'appuient partiellement sur ces théories comme les modèles vectoriels classiques, les modèles par séquences de mots ou encore les chaînes lexicales. Ces précédents modèles exploitent, soit l'information syntaxique, soit l'information sémantique. D'autres modèles plus raffinés exploitent à la fois l'information syntaxique et sémantique mais sont appliqués dans un contexte spécifique. Dans cette étude, nous proposons une nouvelle modélisation de documents dans un contexte général qui considère simultanément l'information syntaxique et sémantique. Notre modèle est une combinaison de deux composantes, l'une syntaxique représentée par les arbres de dépendances syntaxiques obtenus à l'aide d'un analyseur de dépendances syntaxiques, l'autre sémantique représentée par le sens des mots dans leur contexte obtenu grâce à une méthode de désambiguïsation du sens. Dans ce modèle, chaque document est représenté par un ensemble de concepts fréquents formé de sous-arbres ayant les mêmes dépendances syntaxiques et étant sémantiquement proches. L'extraction de tels concepts est réalisée à l'aide d'un algorithme de forage d'arbres FREQT. Notre modèle sera évalué sur une application de clustering de documents des collections Reuters, 20 newsgroups et Ohsumed. La mesure du cosinus valable pour un modèle vectoriel a été utilisée pour définir la mesure de similarité entre les documents. Contrairement au modèle vectoriel, l'espace vectoriel considéré n'est pas engendré par l'ensemble des mots fréquents mais par l'ensemble des concepts fréquents. Les résultats expérimentaux obtenus montrent que l'intégration de l'information sémantique dans le modèle basé sur les arbres de dépendances syntaxiques contribue à améliorer la qualité des clusters.fr
dc.language.isofrefr
dc.publisherUniversité de Sherbrookefr
dc.rights© Émilie Aufr
dc.subjectClustering de documentsfr
dc.subjectExtraction de concepts fréquentsfr
dc.subjectSémantiquefr
dc.subjectArbres de dépendances syntaxiquesfr
dc.titleIntégration de la sémantique dans la représentation de documents par les arbres de dépendances syntaxiquesfr
dc.typeMémoirefr
tme.degree.disciplineInformatiquefr
tme.degree.grantorFaculté des sciencesfr
tme.degree.levelMaîtrisefr
tme.degree.nameM. Sc.fr


Files in this document

Thumbnail

This document appears in the following Collection(s)

Show simple document record