CHWP B.25 | Catach, "Graphist" |
Graphist est un logiciel d'indexation, de lemmatisation et de modernisation automatique pour les textes allant du XVIe siècle à nos jours. Il a été développé au sein de l'équipe HESO (Histoire et Structure de l'Orthographe) du CNRS, spécialiste de l'orthographe française et de son histoire. Le projet a donc bénéficié d'un environnement particulièrement riche en compétences, et constitue d'une certaine façon une synthèse de nombreux travaux linguistiques menés à HESO depuis plus de 20 ans par Nina Catach et son équipe, en matière de lexicologie, de morphologie et d'histoire de l'orthographe (N. Catach 1985).
Le logiciel Graphist permet, dans une première phase, d'effectuer la lemmatisation automatique d'un texte en procédant à l'analyse de tous les mots: recherche de la nature (graphie ancienne ou non), catégorie grammaticale, lemme (forme moderne vedette), flexion, éventuellement forme moderne, et fréquence dans le texte. À partir de ces informations, le logiciel construit ensuite l'index lemmatisé, c'est-à-dire la liste hiérarchisée des lemmes accompagnés de toutes leurs formes: variantes anciennes et/ou formes flexionnelles.
Cet index lemmatisé peut ensuite être consulté, trié, révisé de multiples manières. Il permet également d'interroger le texte par lemmes, c'est-à-dire de visualiser les contextes (ligne, phrase) d'un lemme sous toutes ses formes, anciennes et flexionnelles. Enfin, le logiciel permet d'effectuer une modernisation automatique du texte, en remplaçant dans celui-ci les formes anciennes par leurs graphies modernes, calculées automatiquement par le programme.
Graphist se démarque ainsi nettement des logiciels de traitements textuels de même type -- Stella (Martin 1989), WordCruncher, TACT (Wooldridge 1991) --, ou les logiciels utilisés en GED (Gestion Électronique de Documents) s'appuyant sur des noyaux du type "full text", puisqu'il est capable de créer des index hiérarchisés de formes, organisés en lemmes. Outre les particularités propres au français (où la morphologie est plus complexe qu'en anglais), cette approche devient cruciale pour le traitement des textes anciens, où la variation graphique est non seulement très étendue mais surtout quasiment imprévisible, même pour un utilisateur averti: comment, par exemple, rechercher dans un texte ancien le mot lierre, alors que celui-ci peut s'écrire hierre, ierre, liarre, etc.?
Graphist a été initialement conçu pour traiter des textes allant du XVIe siècle à nos jours. Cependant, le logiciel, muni d'un dictionnaire de référence approprié, pourrait aisément être adapté à des périodes plus anciennes.
Graphist est constitué de plusieurs modules spécialisés, ayant fait l'objet d'une recherche en profondeur:
Graphist, écrit en Prolog et développé sur micro-ordinateurs PC, a été abondamment testé sur de nombreux textes, allant du XVe au XXe siècle. Des résultats quantitatifs sont indiqués dans cet article.