CHWP B.25 | Catach, "Graphist" |
Nous indiquons dans cette section quelques aspects techniques de Graphist, qui en font un outil souple et convivial. Outre la description des fonctionnalités du logiciel, les points abordés permettent de mettre en évidence les problèmes rencontrés dans la lemmatisation automatique en général, et dans l'analyse des textes anciens en particulier.
Graphist offre à l'utilisateur un certain nombre d'options pour l'analyse d'un document:
Graphist offre de multiples facilités de consultation de l'index lemmatisé:
En combinant ces critères, de multiples extractions et listes de travail peuvent être élaborées. Ces listes peuvent par ailleurs être sauvegardées dans un document texte.
Pour chaque forme ou lemme figurant dans l'index, l'utilisateur peut consulter une fiche d'information indiquant l'analyse morphologique précise du mot (lemme, sous-lemme, flexion), son "historique" (celui du lemme) d'après le dictionnaire de référence, ainsi que sa forme moderne s'il s'agit d'une graphie ancienne.
L'index lemmatisé permet également de visualiser les contextes d'une forme ou d'un lemme dans le texte initial. Ce contexte peut être réglé par l'utilisateur (phrase, ligne(s)), et les résultats sauvegardés dans un fichier sous forme de concordances.
Il est à noter que l'interrogation par lemmes est un des aboutissements du logiciel, puisqu'elle permet de visualiser d'un coup les contextes d'un mot sous toutes ses formes: formes fléchies et/ou graphies anciennes.
L'index lemmatisé d'un document peut toujours être révisé. Ainsi, si l'interprétation d'une forme figurant dans l'index est erronée, il est possible de revoir directement dans le texte les occurrences de cette forme et d'en recommencer la lemmatisation. Dans ce cas, Graphist fournit tous les outils d'aide habituels: choix dans une liste de lemmes possibles, lemmatisation manuelle. Les changements opérés sont ensuite pris en compte par le logiciel, qui reconstruit l'index lemmatisé.
Cela s'avère extrêmement utile en pratique, surtout si le document a été analysé en mode différé. En particulier, il est possible de revoir un à un tous les cas d'ambiguïté qui n'ont pas été résolus par Graphist, ainsi que les "mots inconnus", c'est-à-dire les formes n'ayant pu être analysées.[5]
De plus, cette révision s'effectue de manière 'verticale', c'est-à-dire en examinant simultanément toutes les occurrences d'une forme donnée. Dans la plupart des cas, ce mode de révision est bien plus rapide que la résolution des ambiguïtés au fur et à mesure du défilement du document lors de l'analyse.
La révision de l'index peut également fournir une possibilité de traitement pour les textes très anciens ou difficiles. Dans ce cas, il peut éventuellement être préférable de créer un index non lemmatisé du document, puis de réviser l'index pour effectuer manuellement la lemmatisation.
Comme il a été indiqué, l'analyse morphologique des formes fournit, pour les formes fléchies, le lemme et la flexion. S'il s'agit d'une graphie ancienne, Graphist peut donc déterminer automatiquement la forme moderne, en appliquant la flexion au lemme. Par exemple, l'analyse: "aymeroyent --> aimer, H6" (où "H" représente le conditionnel) permet, en reconjuguant le verbe aimer, d'obtenir la forme moderne aimeraient. La lemmatisation fournit ainsi tous les éléments nécessaires à la modernisation automatique. Pour cela, Graphist inclut un déclinateur automatique, c'est-à-dire un module de conjugaison (verbes des 1er et 2e groupes) et de flexion des substantifs.
Graphist est donc capable d'effectuer une modernisation "mot à mot" d'un texte ancien, en remplaçant automatiquement les formes anciennes par leur équivalent moderne. Le texte obtenu peut ensuite être édité pour une modernisation plus fine, mais, du moins pour les textes du XVIe siècle à nos jours, le premier état de modernisation fourni par le logiciel s'avère très satisfaisant en pratique.
Pour le traitement complet de textes plus anciens, de multiples facteurs devraient être pris en compte afin d'améliorer la modernisation: la syntaxe, la ponctuation, les temps de conjugaison, etc. Également, différents degrés de modernisation sont à prévoir, selon de grands secteurs orthographiques: accents seuls, alternances u/v et i/j, consonnes doubles, etc. Ces aspects ne sont pas traités actuellement par Graphist.
Graphist inclut également un module d'interrogation du dictionnaire historique DAC. Il est possible de visualiser l'historique de n'importe laquelle des 18.000 entrées du dictionnaire dans les 8 éditions du Dictionnaire de l'Académie et dans les dictionnaires de Nicot, Estienne et Thierry.
De plus, l'interrogation peut s'effectuer sur les formes, flexionnelles et/ou variantes graphiques, de ces entrées. Dans ce cas, Graphist fait appel au module d'analyse morphologique, et propose, comme en analyse de document, toutes les interprétations possibles de la forme, en indiquant le lemme, la flexion et le type (graphie moderne ou ancienne). Ce module permet par ailleurs de tester l'efficacité de l'ensemble des règles de modifications orthographiques (cf. 3.4).
L'index lemmatisé peut être exporté sous différents formats, en vue de traitements ultérieurs:
Lors de l'analyse d'un document ou d'une révision d'index, l'utilisateur a la possibilité d'effectuer des lemmatisations manuelles. En particulier, il peut définir de nouveaux lemmes, absents du lexique de référence, ou bien de nouvelles formes associées à un lemme existant, si l'analyse de Graphist a échoué. Ces données peuvent alors être sauvegardées dans un dictionnaire personnel, qui sera par la suite rechargé pour l'analyse d'un autre document.
[Retour à la table des matières] [Suite]