Le traitement des substantifs dans Le Robert - CD-ROM modélisation, formalisation et proposition méthodologique en vue de son informatisation

View/ Open
Publication date
2001Author(s)
Masson, Chantal-Édith
Abstract
L'acquisition des connaissances (knowledge engineering ) comporte trois activités: la modélisation, la formalisation et la représentation. Les toutes premières étapes de la modélisation étaient dirigées par le modèle a priori. Le choix d'une stratégie de formalisation et d'une notation représentationnelle, lui, fut fait sur la base de l'importance de l'activité de structuration dans la tâche lexicographique de niveau microstructurel et des intentions de la recherche (informatisation). C'est sur le langage de balisage structural XML (eXtensible Markup Language) que ce choix fut arrêté. Compte tenu du degré de finesse du modèle visé, le traitement de toutes les parties du discours était vite apparu impensable. Prenant en compte son intérêt lexicographique (plus grande représentation, variabilité, polysémie, etc.), c'est le substantif qui fut retenu en exclusivité. Deux échantillons de 100 articles chacun furent tirés de façon probabiliste (méthode aléatoire simple) de la liste des substantifs du Petit Robert - CD-ROM , une version informatisée de la version imprimée utilisée à l'étape précédente. Le premier de ces échantillons était destiné à la modélisation proprement dite, et le second, à la validation du modèle ainsi mis au jour. Le modèle, en une logique liée au balisage structural, prenait la forme d'une DTD (une Déclaration de Type de Document). Traités par ordre croissant de difficulté, les articles de l'échantillon de modélisation furent déconstruits un à un en particules d'information hiérarchisées, chacune de ces particules étant identifiée par une"étiquette" XML, structurellement assignée et assortie d'une cardinalité, factorisée et associée à des attributs au besoin, modularisée si l'économie du modèle--la DTD--s'en voyait augmentée. À son tour, ce modèle émergent prenait en charge le balisage d'un nouvel article; il pouvait en ressortir enrichi et amendé. À chaque modification du modèle, tous les mots déjà traités étaient rebalisés, et ce, afin de tester l'adéquation du modèle et d'assurer la validité des documents XML. L'hypothèse initiale comportait 2 volets. Le premier supposait que l'"occultation" de la méthode lexicographique n'était pas délibérée mais liée à la nature même des connaissances qui en limitait l'expression, que la méthode de traitement des informations au niveau microstructurel était bien réelle, qu'elle était suivie avec constance, et qu'il était possible de la retracer en bonne partie en déconstruisant ces résolutions de problèmes expertes que sont des articles. Ce premier volet fut significativement démontré alors que le modèle (la DTD) se montrait capable de diriger le traitement de 82 des 100 mots du second échantillon soit tel quel, soit avec des additions anticipées. En prenant en compte le caractère évolutif de la langue, c'est-à-dire une part d'incertitude incompressible, le second volet de l'hypothèse anticipait de l'inconstance dans le traitement."--Résumé abrégé par UMI.