Suivi de l’évolution des thèmes de publications scientifiques dans les communautés d’auteur·e·s et leurs co-citations

View/ Open
Publication date
2021Author(s)
Belattar, Katia
Subject
Modèlisation thématiqueAbstract
Dans la communauté scientifique, l’information est principalement diffusée par le biais de publications scientifiques. L’étude de l’évolution des thèmes de recherche dans le temps recèle une importance indéniable pour le monde universitaire. Le but étant pour les chercheur·e·s de connaitre les nouvelles tendances et orientations scientifiques. La détection, le suivi et la modélisation des communautés dans les réseaux sociaux dynamiques ont été des sujets très étudiés au cours de ces dernières années. Malgré
l’importance traditionnelle accordée aux approches structurelles, l’analyse des réseaux de communautés basée sur le contenu n’est qu’une tendance encore très peu exploitée.
Dans notre recherche, nous nous intéressons à l’étude conjointe de l’extraction et
du suivi de l’évolution des thèmes de publications dans les réseaux de communautés
d’auteur·e·s reliés entre eux par des co-citations. Nous considérons qu’un thème de
recherches académiques peut être lié étroitement et directement à un ensemble de
co-auteur·e·s collaborant étroitement entre eux afin de produire des articles appartenant
à un domaine ou un thème scientifique précis. C’est ainsi que le changement
dans la structure du réseau caractérise davantage les événements sociaux comme des
projets en commun ou travaux dans la même orientation thématique. Cet ensemble
d’auteur·e·s peut donc être représenté sous la forme d’un graphe dont les nœuds sont
les auteur·e·s eux-mêmes, tandis que les liens de ce graphe représentent une co-citation
sur le même article. Notre étude suit l’évolution de ces communautés d’auteur·e·s dans
le temps en étudiant les caractéristiques sémantiques à partir des titres d’articles et
mots-clés (seules données disponibles sur le contenu des articles dans l’ensemble des
données fournies). Pour l’extraction thématique nous avons utilisé l’ingénierie des caractéristiques
représentant chaque titre, en combinant les vecteurs obtenus par les modèles thématiques LSA, PLSA et LDA, pondérés avec TF-IDF, avec des vecteurs issus d’un modèle de l’apprentissage profond qui est Word2Vec. Les vecteurs résultants ont été soumis à des classificateurs (Régression logistique, Machine à vecteur de support) pour l’obtention de l’étiquetage thématique automatique des publications.
Il s’avère que les meilleurs résultats ont été obtenus en concaténant les vecteurs obtenues
par la LDA aux vecteurs produits par Word2Vec et SVM comme classificateur.
Pour la prévision des événements critiques que peut subir une communauté au fil du
temps, nous proposons un modèle de risque général qui utilise des techniques d’analyse
de survie. Après l’extraction des caractéristiques topologiques et sémantiques
jugées importantes, nous les avons soumises à l’analyse de CoxPH qui permet de
déterminer l’impact de chaque variable explicative sur la prédiction d’un événement
qu’une communauté peut subir à un instant donné.
Collection
- Moissonnage BAC [4455]
- Sciences – Mémoires [1780]