Show simple document record

dc.contributor.advisorWang, Shengruifr
dc.contributor.authorBouguessa, Mohamedfr
dc.date.accessioned2014-05-16T16:04:08Z
dc.date.available2014-05-16T16:04:08Z
dc.date.created2009fr
dc.date.issued2009fr
dc.identifier.isbn9780494485347fr
dc.identifier.urihttp://savoirs.usherbrooke.ca/handle/11143/5096
dc.description.abstractCette thèse à publication propose d'étudier deux problématiques différentes : 1) la classification non supervisée (clustering) des données de hautes dimensions, et 2) l'extraction des connaissances dans les services Web de question-réponse. Nos contributions sont présentées à travers trois chapitres. Dans le premier chapitre, nous proposons un algorithme de projected clustering nomme PCKA (Projected Clustering based on the K-means Algorithm). Contrairement à la vaste majorité des approches existantes, PCKA est capable de découvrir des structures de clusters qui existent dans différents sous-espaces de faibles dimensionnalités et ce en utilisant une mesure de similarité bien adaptée aux caractéristiques particulières des données multidimensionnelles. La fiabilité de PCKA est illustrée à travers des tests et des comparaisons avec les approches existantes sur une variété de données synthétiques et réelles. Le deuxième chapitre aborde le problème de l'identification des utilisateurs experts dans les forums Internet de question-réponse. Notre contribution inclut le développement d'une approche probabiliste qui se base sur le modèle de mélange de distributions de la loi Gamma. Notre approche permet de séparer, de façon systématique, les utilisateurs experts des non-experts alors que les approches existantes fournissent une liste ordonnée d'utilisateurs seulement. Le troisième chapitre étudie le problème de l'identification des communautés dans les forums Internet de question-réponse. Notre contribution inclut l'introduction du nouveau concept de "communauté de partage des connaissances". Ces communautés sont définies par les interactions entre les utilisateurs experts et non-experts. Pour identifier ce type de communauté nous représentons notre environnement sous la forme des données transactionnelles et nous proposons un algorithme de clustering nomme TRANCLUS (TRAnsaction CLUStering). Les clusters identifies par TRANCLUS représentent les communautés que nous cherchons à découvrir. Notre approche est validée sur des données extraites de plusieurs forums de Yahoo! Answers.fr
dc.language.isofre||engfr
dc.publisherUniversité de Sherbrookefr
dc.rights© Mohamed Bouguessafr
dc.titleClassification non supervisée des données de hautes dimensions et extraction des connaissances dans les services WEB de question-réponsefr
dc.typeThèsefr
tme.degree.disciplineInformatiquefr
tme.degree.grantorFaculté des sciencesfr
tme.degree.levelDoctoratfr
tme.degree.namePh.D.fr


Files in this document

Thumbnail

This document appears in the following Collection(s)

Show simple document record