Show simple document record

dc.contributor.advisorBeauchemin, Normand
dc.contributor.authorLessard, Jean-Marie
dc.date.accessioned2017-02-07T20:34:12Z
dc.date.available2017-02-07T20:34:12Z
dc.date.created1994
dc.date.issued1994
dc.identifier.urihttp://hdl.handle.net/11143/10013
dc.description.abstractLe contenu du mémoire livré ici correspond exactement au titre qu'il porte, mais celui-ci recouvre plus de choses qu'il n'en laisse d'abord paraître : un décalage technique important est effectivement survenu depuis que s'est terminée la première vague de lemmatisation, en 1984 ; l'utilisation de nouveaux logiciels (tel WordCruncher, par exemple, pour l'indexation du corpus) commandait des modifications importantes aux formats des fichiers de données, dictionnaire ou autres, ainsi que des ajustements au programme de lemmatisation lui-même. Il n'y a donc pas à trop se surprendre de la saveur plutôt informatique du travail réalisé à l’occasion de ce mémoire, non plus que de la teneur parfois indigeste des considérations pratiques qui s'y trouvent consignées : l’amélioration du lemmatiseur passait en premier lieu par la réfection de sa plomberie. Précisons toutefois, pour ceux des linguistes que pourrait embarrasser l'importance accordée à cet aspect du travail, que c'est l 'ajout de plus de 20 000 nouvelles formes au dictionnaire de lemmatisation, comprenant l'information métalinguistique requise par le programme pour concrètement lemmatiser, qui a continuellement conditionné l’ensemble du travail. Quant à la nature du lien théorique qui existe entre les formes que contient le dictionnaire de lemmatisation et les occurrences de celles-ci dans les textes d'où elles proviennent, le dictionnaire de lemmatisation n'est pas une simple liste de mots : les éléments qui le composent proviennent de textes qui forment un ensemble cohérent d'échantillons linguistiques. Il faut en situer la valeur à l'origine du processus d'analyse statistique qui, par exemple, a pu donner naissance au Dictionnaire de fréquence des mots du français parlé au Québec et souligner que la vision de la langue qui s'en dégage est conditionnée par les résultats qu'il a permis d'obtenir. Enfin, le format du fichier dictionnaire et le type d'informations métalinguistiques qui s'y retrouvent reflètent très certainement le caractère proprement lexicologique des travaux menés à Sherbrooke. En gros, le travail porte sur la fréquence des occurrences échantillonnées pour se donner une idée de la langue commune, celle que l'on voudrait voir un jour prochain se refléter dans un dictionnaire véritablement québécois. [...]
dc.language.isofre
dc.publisherUniversité de Sherbrooke
dc.rights© Jean-Marie Lessard
dc.titleConsidérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO
dc.typeMémoire
tme.degree.disciplineLinguistique
tme.degree.grantorFaculté des lettres et sciences humaines
tme.degree.levelMaîtrise
tme.degree.nameM.A.


Files in this document

Thumbnail

This document appears in the following Collection(s)

Show simple document record