• Français
    • English
  • Français 
    • Français
    • English
  • Login
View Document 
  •   Savoirs UdeS Home
  • Sciences
  • Sciences – Mémoires
  • View Document
  •   Savoirs UdeS Home
  • Sciences
  • Sciences – Mémoires
  • View Document
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

All of Savoirs UdeSDomains & CollectionsBy Issue DateAuthorsTitlesSubjectsDirectorsThis CollectionBy Issue DateAuthorsTitlesSubjectsDirectors

My Account

Login

Statistics

View Usage Statistics

Intégration de la sémantique dans la représentation de documents par les arbres de dépendances syntaxiques

Thumbnail
View/Open
MR83720.pdf (4.700Mb)
Publication date
2011
Author(s)
Au, Émilie
Subject
Clustering de documents
 
Extraction de concepts fréquents
 
Sémantique
 
Arbres de dépendances syntaxiques
Show full document record
Abstract
De nombreuses applications dans le domaine de la recherche d'information voient leur performance influencée par le modèle de représentation de documents. En effet, théoriquement, meilleure est la modélisation, meilleure sera la performance de l'application qui exploite la modélisation. Or la modélisation"parfaite" d'un document est celle qui utilise l'intégralité des théories linguistiques. Cependant, en pratique, celles-ci sont difficiles à traduire sous forme de traitements informatiques. Néanmoins, il existe des modèles qui s'appuient partiellement sur ces théories comme les modèles vectoriels classiques, les modèles par séquences de mots ou encore les chaînes lexicales. Ces précédents modèles exploitent, soit l'information syntaxique, soit l'information sémantique. D'autres modèles plus raffinés exploitent à la fois l'information syntaxique et sémantique mais sont appliqués dans un contexte spécifique. Dans cette étude, nous proposons une nouvelle modélisation de documents dans un contexte général qui considère simultanément l'information syntaxique et sémantique. Notre modèle est une combinaison de deux composantes, l'une syntaxique représentée par les arbres de dépendances syntaxiques obtenus à l'aide d'un analyseur de dépendances syntaxiques, l'autre sémantique représentée par le sens des mots dans leur contexte obtenu grâce à une méthode de désambiguïsation du sens. Dans ce modèle, chaque document est représenté par un ensemble de concepts fréquents formé de sous-arbres ayant les mêmes dépendances syntaxiques et étant sémantiquement proches. L'extraction de tels concepts est réalisée à l'aide d'un algorithme de forage d'arbres FREQT. Notre modèle sera évalué sur une application de clustering de documents des collections Reuters, 20 newsgroups et Ohsumed. La mesure du cosinus valable pour un modèle vectoriel a été utilisée pour définir la mesure de similarité entre les documents. Contrairement au modèle vectoriel, l'espace vectoriel considéré n'est pas engendré par l'ensemble des mots fréquents mais par l'ensemble des concepts fréquents. Les résultats expérimentaux obtenus montrent que l'intégration de l'information sémantique dans le modèle basé sur les arbres de dépendances syntaxiques contribue à améliorer la qualité des clusters.
URI
http://savoirs.usherbrooke.ca/handle/11143/4938
Collection
  • Sciences – Mémoires [1780]

DSpace software [version 5.4 XMLUI], copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback
 

 


DSpace software [version 5.4 XMLUI], copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback