Catach: Graphist

Catach, "Graphist"

3. La lemmatisation automatique

3.1. Problématique des textes anciens

La lemmatisation consiste en l'identification d'un mot par son lemme, c'est-à-dire sa forme moderne non fléchie: aimèrent --> aimer; aymeroyent --> aimer; actuels --> actuel; actifues --> actif; seront --> être.

Dans Graphist, il s'agit de la phase essentielle de l'analyse d'un document dont dérivent les autres fonctionnalités (consultation de l'index lemmatisé, interrogation par lemmes, modernisation automatique).

Traditionnellement, la lemmatisation -- et particulièrement celle des textes anciens -- est effectuée manuellement, par les éditeurs, chercheurs ou étudiants. Si cette méthode a l'avantage de fournir des résultats extrêmement fiables et précis, elle s'avère cependant inenvisageable pour traiter des corpus textuels importants.

L'automatisation de la lemmatisation, si elle constitue donc un outil de premier intérêt pour l'analyse des textes, soulève elle aussi des difficultés:

Du fait de la prise en compte des textes anciens, il faut en réalité opérer une double lemmatisation: lemmatisation flexionnelle (forme fléchie --> forme vedette) et lemmatisation des graphies anciennes (forme ancienne --> forme moderne). Cela suppose donc une analyse morphologique du mot, permettant d'identifier la flexion (féminins et pluriels pour les substantifs, formes conjuguées pour les verbes) et simultanément une analyse des variantes graphiques, celles-ci pouvant porter à la fois sur le lemme lui-même et sur la marque de flexion. Par exemple, la forme aymeroyent est doublement ancienne, par sa désinence et par son radical: aymeroyent --> aymer --> aimer.
Cette variation graphique, sans être anarchique, est extrêmement large et obéit, pour chaque mot, à une sorte de combinatoire. Ainsi, la simple alternance consonne simple / consonne double, alliée à l'absence (ou à la redondance) d'accentuation, fournissent-elles déjà, pour la plupart des mots, un nombre de graphies potentielles supérieur à la dizaine, ces graphies étant par ailleurs parfaitement attestables dans les textes, comme par exemple: étoffe --> etoffe, étofe, etofe, estoffe, estophe, estofe... Par conséquent, on s'aperçoit vite que ce problème ne peut se résoudre par le stockage de toutes les formes possibles dans un dictionnaire de formes, aussi grand soit-il. C'est donc vers un système de règles qu'il faut s'orienter, ces règles devant rendre compte des modifications orthographiques pertinentes survenues dans l'histoire de notre orthographe.
Le problème majeur de la lemmatisation automatique est, comme il a été évoqué plus haut, celui de l'ambiguïté, prise ici au sens d'homographie. Comme on le devine, et comme le montrent les résultats quantitatifs (v. 5), le pourcentage de mots ambigus augmente de manière significative avec l'ancienneté du texte traité (v. 3). La prise en compte des textes anciens, là encore, complique donc le problème d'un traitement automatique.

3.2. L'analyse morphologique

Dans Graphist, l'analyse morphologique s'effectue par la confrontation entre des règles de désinences et le lexique de référence. Plus précisément:

seules les formes verbales des verbes du troisième groupe, ainsi que quelques féminins et pluriels irréguliers, sont stockées dans le lexique, avec leur principales variantes graphiques, ce qui représente moins de 10.000 formes; on aura par exemple les formes vais, va, vois, vas, vay, voys, vai pour le verbe aller à l'indicatif présent;
toutes les autres formes fléchies sont analysées par règles: féminins, pluriels réguliers et formes verbales des verbes des premier et deuxième groupes.

Les raisons de cette séparation sont simples: d'une part, comme il a été dit plus haut, la prise en compte de la variation graphique nous conduit à privilégier les règles par rapport au lexique,[2] et d'autre part la conjugaison des verbes du 3^e groupe est trop complexe -- pour moins de 300 verbes -- pour justifier un module d'analyse dédié, alors que la conjugaison des verbes des 1^er et 2^e groupes peut être maîtrisée avec un ensemble restreint de règles de désinences.[3] La méthode d'analyse morphologique est la suivante:

ce qui signifie que (1) une forme est toujours recherchée telle quelle dans le lexique, que (2) toutes les règles lui sont appliquées, même si (1) réussit, et que (3) la méthode peut fournir plusieurs solutions (d'où les ambiguïtés). Notons également que les règles morphologiques, qui s'appliquent essentiellement sur la finale des mots, fournissent des lemmes potentiels qui sont ensuite confrontés au lexique. Ces lemmes peuvent être anciens (comme aymer) ou modernes. Les règles sont de la forme:

<désinence> --> <radical>, <série>, <type>, <flexion>

où le type indique s'il s'agit d'une désinence ancienne (1) ou non (0). Pour les verbes, on aura par exemple ("1" et "33" représentent les séries des verbes des 1^er et 2^e groupes et "B" le temps de l'imparfait):

finissais

finir

finissois

finir

aimais

aimer

aymois

aymer

ce qui, par exemple, pour la forme finissais donnera en fait 2 candidats: finir et finisser, ce dernier étant ensuite filtré par le lexique. De même, pour les substantifs, on aura, par exemple:

amis

ami

amiz

ami

chevaux

cheval

chevaulx

cheval

enfans

enfant

Pour Graphist, l'élaboration de ces règles morphologiques, en prenant bien sûr comme point de départ la morphologie du français moderne, a été fondée sur de nombreux travaux, portant notamment sur la morphologie verbale (cf., par ex., Monsonégo 1989), dont nous avons effectué une synthèse. Le choix de textes postérieurs au XVI^e siècle a été déterminant, et la prise en compte de périodes antérieures supposerait un enrichissement de ces règles.

3.3. Les ambiguïtés

L'analyse morphologique peut fournir plusieurs solutions correspondant à des interprétations différentes d'une forme. Ces cas d'ambiguïtés, qui représentent entre 10 et 16% des mots d'un texte (v. 5), posent donc un obstacle à la lemmatisation automatique, et devraient en principe être résolus manuellement. Cependant, si l'on envisage le traitement de corpus importants, les interventions manuelles doivent être limitées au maximum, et il devient nécessaire d'envisager une méthode de résoluiton automatique des ambiguïtés.

Comme il a été évoqué ci-dessus, le traitement des graphies anciennes augmente de manière significative le nombre de cas d'ambiguïtés. Ceci est dû aux multiples possibilités de variations graphiques des mots; par exemple, la forme marchez, non ambiguë en français moderne, le devient en graphies anciennes, puisqu'il peut s'agir du pluriel de marche n.f., de marché n.m. ou du participe passé de marcher.

Lorsque l'analyse fournit plusieurs solutions, Graphist tente de lever l'ambiguïté (grammaticale) par une analyse du contexte proche. Cette analyse repose sur des "filtres", qui peuvent exprimer, soit des constructions obligatoires, soit au contraire des constructions interdites. On aura, par exemple, des règles du type:

"pas d'adverbe ou de substantif après ou avant un pronom": il marche --> verbe (marcher v. ou marche n.f.); je puis --> verbe (pouvoir v. ou puis adv.); attachez-le --> verbe (attacher v. ou attache n.f., forme ancienne);
"pas de forme verbale après un déterminant": du sens --> n.m. (sens n.m. ou sentir v.); ses cornes --> n.m. (corne n.f. ou corner v.).

Ces règles reposent donc sur l'analyse des mots proches, qui peuvent eux-mêmes être ambigus; dans ce cas, on peut avoir un fonctionnement 'en cascade', comme, par exemple, pour la reconnaissance d'un pronom: "je le sens --> verbe"; "je ne les leur porte pas --> verbe" -- où l'ambiguïté de le, les, leur (pronoms ou articles) est levée par le pronom je.

Dans Graphist, seul un ensemble restreint de règles -- les plus 'efficaces' -- ont été intégrées, le but du projet n'ayant pas été de construire un véritable analyseur syntaxique. Cependant, ce seul ensemble de règles s'avère performant puisqu'il permet de lever automatiquement jusqu'à 40% des ambiguïtés dans les textes modernes.

Si Graphist ne peut lever automatiquement l'ambiguïté, les choix possibles sont directement proposés à l'utilisateur (en mode interactif), ou bien mis à part pour un examen ultérieur (mode différé, v. 4.1). En mode interactif, l'utilisateur n'a donc qu'à appuyer sur une touche pour effectuer son choix; de plus, il est toujours possible d'effectuer une lemmatisation manuelle, en indiquant directement l'interprétation correcte de la forme.

Le choix entre les lemmes possibles est facilité par l'indication de courtes mentions de sens, qui sont stockées dans le lexique DAC pour les séries d'homographes (v. 2). De plus, les choix sont toujours hiérarchisés, les lemmes les plus fréquents étant toujours présentés en premier, et les formes modernes avant les formes anciennes. Ainsi, pour la forme compte, Graphist propose, dans l'ordre, les lemmes suivants (où × indique une graphie ancienne): a) compte n.m. "calcul; rapport"; b) compter v. "calculer; avoir de l'importance"; c) × conte n.m. "histoire".

En pratique, cette méthode permet instantanément à l'utilisateur de faire son choix, et rend l'analyse du texte aussi simple que possible.

3.4. Les règles de modifications orthographiques

Comme nous l'avons indiqué, Graphist inclut un système de règles permettant de prendre en compte la variation graphique dans les textes anciens, de façon à pouvoir analyser un nombre maximal de formes, bien que celles-ci (ou les lemmes correspondants) soient absentes du lexique.

Ces règles sont des règles de réécriture, engendrant une ou plusieurs formes à partir d'une forme de départ. On aura, par exemple, les règles suivantes (où ">" et "<" représentent l'initiale et la finale d'une forme):

despart

départ

advenir

avenir

ainsy

ainsi

eminant

Pour l'écriture de ces règles, un langage spécifique a été développé, permettant d'exprimer des règles relativement complexes, où figurent par exemple des entités voyelle/consonne:

ecolle

école

couzin

cousin

Ces règles sont cumulables; une forme telle que advanture engendrera donc, avec les règles ci-dessus, aventure, adventure, avanture. Le système permet donc, même avec peu de règles, d'analyser un nombre quasi infini de formes variantes.

Dans Graphist, le système de règles n'intervient que sur des formes n'ayant obtenu aucune analyse morphologique ("mots inconnus").[4] Il engendre un certain nombre de candidats possibles, qui sont à leur tour soumis à cette analyse; c'est donc toujours la recherche lexicale qui, en définitive, atteste de l'existence du mot ou non.

Cette analyse peut cependant fournir trop de candidats et ralentir le programme; aussi un contrôle rigoureux de l'ensemble des règles doit être effectué. Ainsi, dans Graphist, à partir des 600 règles de modifications orthographiques mises en évidence dans l'étude du RENA-DAC (v. 2), un sous-ensemble de 120 règles a été dégagé, choisies pour leur extrême rentabilité.

Ces règles sont entièrement externes à Graphist, et peuvent donc être redéfinies à tout moment. En particulier, Graphist peut être configuré pour traiter des textes antérieurs au XVI^e siècle, pourvu que l'on adapte les règles de modifications orthographiques.

[Retour à la table des matières] [Suite]

Notes

[2] Rappelons que 5000 verbes engendrent déjà, en français moderne, près de 250.000 formes, auxquelles il faudrait ajouter leurs variantes anciennes!

[3] De plus, les formes des verbes du 3^e groupe ont des graphies anciennes très diverses (cf. l'exemple de vais ci-dessus) qui échappent à une analyse simple radical + désinence.

[4] Il s'agit là d'un choix; un autre mode de contrôle pourrait appliquer les règles systématiquement à toutes les formes.