• Français
    • English
  • Français 
    • Français
    • English
  • Login
View Document 
  •   Savoirs UdeS Home
  • Sciences
  • Sciences – Mémoires
  • View Document
  •   Savoirs UdeS Home
  • Sciences
  • Sciences – Mémoires
  • View Document
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

All of Savoirs UdeSDomains & CollectionsBy Issue DateAuthorsTitlesSubjectsDirectorsThis CollectionBy Issue DateAuthorsTitlesSubjectsDirectors

My Account

Login

Statistics

View Usage Statistics

Exploitation des arbres fréquents de dépendance pour la représentation et la classifacation automatique de textes

Thumbnail
View/Open
MR42994.pdf (1.029Mb)
Publication date
2008
Author(s)
Meghaoui, Ali
Show full document record
Abstract
L'intégration de l'information syntaxique dans la représentation vectorielle des documents s'est avérée une source d'amélioration de la performance des systèmes de classification automatique de documents textuels. Cette information est souvent représentée sous forme d'arbres de dépendance qui peuvent être générés automatiquement par un analyseur syntaxique de la langue naturelle. Dans ce travail, nous proposons un nouveau modèle de représentation des documents basée sur l'extraction des sous-arbres fréquents d'arbres de dépendance en utilisant l'algorithme de fouille d'arbres FREQT, que nous avons adapté à nos besoins. Dans ce modèle, un document est représenté par l'ensemble de ses phrases, et chaque phrase est représentée à l'aide d'un ensemble de sous-arbres fréquents. Afin d'appliquer efficacement cette représentation à la classification automatique non supervisée (ou clustering ) de documents, nous proposons une nouvelle mesure de similarité entre documents basée sur notre méthode de représentation. Ainsi, nous construisons un système de clustering de documents qui englobe notre méthode de représentation, notre mesure de similarité et l'algorithme de clustering hiérarchique par agglomération. Nous évaluons notre système sur des collections de textes bien connues dans la communauté de la classification de textes: la collection Reuters-21578, 20Newsgroups et OHSUMED. Nous montrons sur ces données que notre méthode améliore le clustering de documents. Nous présentons également une évaluation des approches existantes de représentation des documents.
URI
http://savoirs.usherbrooke.ca/handle/11143/4752
Collection
  • Sciences – Mémoires [1602]

DSpace software [version 5.4 XMLUI], copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback
 

 


DSpace software [version 5.4 XMLUI], copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback