CHWP B.25 Catach, "Graphist"

3. La lemmatisation automatique

3.1. Problématique des textes anciens

La lemmatisation consiste en l'identification d'un mot par son lemme, c'est-à-dire sa forme moderne non fléchie: aimèrent --> aimer; aymeroyent --> aimer; actuels --> actuel; actifues --> actif; seront --> être.

Dans Graphist, il s'agit de la phase essentielle de l'analyse d'un document dont dérivent les autres fonctionnalités (consultation de l'index lemmatisé, interrogation par lemmes, modernisation automatique).

Traditionnellement, la lemmatisation -- et particulièrement celle des textes anciens -- est effectuée manuellement, par les éditeurs, chercheurs ou étudiants. Si cette méthode a l'avantage de fournir des résultats extrêmement fiables et précis, elle s'avère cependant inenvisageable pour traiter des corpus textuels importants.

L'automatisation de la lemmatisation, si elle constitue donc un outil de premier intérêt pour l'analyse des textes, soulève elle aussi des difficultés:

3.2. L'analyse morphologique

Dans Graphist, l'analyse morphologique s'effectue par la confrontation entre des règles de désinences et le lexique de référence. Plus précisément:

Les raisons de cette séparation sont simples: d'une part, comme il a été dit plus haut, la prise en compte de la variation graphique nous conduit à privilégier les règles par rapport au lexique,[2] et d'autre part la conjugaison des verbes du 3e groupe est trop complexe -- pour moins de 300 verbes -- pour justifier un module d'analyse dédié, alors que la conjugaison des verbes des 1er et 2e groupes peut être maîtrisée avec un ensemble restreint de règles de désinences.[3] La méthode d'analyse morphologique est la suivante:

ce qui signifie que (1) une forme est toujours recherchée telle quelle dans le lexique, que (2) toutes les règles lui sont appliquées, même si (1) réussit, et que (3) la méthode peut fournir plusieurs solutions (d'où les ambiguïtés). Notons également que les règles morphologiques, qui s'appliquent essentiellement sur la finale des mots, fournissent des lemmes potentiels qui sont ensuite confrontés au lexique. Ces lemmes peuvent être anciens (comme aymer) ou modernes. Les règles sont de la forme:

où le type indique s'il s'agit d'une désinence ancienne (1) ou non (0). Pour les verbes, on aura par exemple ("1" et "33" représentent les séries des verbes des 1er et 2e groupes et "B" le temps de l'imparfait):

ce qui, par exemple, pour la forme finissais donnera en fait 2 candidats: finir et finisser, ce dernier étant ensuite filtré par le lexique. De même, pour les substantifs, on aura, par exemple:

Pour Graphist, l'élaboration de ces règles morphologiques, en prenant bien sûr comme point de départ la morphologie du français moderne, a été fondée sur de nombreux travaux, portant notamment sur la morphologie verbale (cf., par ex., Monsonégo 1989), dont nous avons effectué une synthèse. Le choix de textes postérieurs au XVIe siècle a été déterminant, et la prise en compte de périodes antérieures supposerait un enrichissement de ces règles.

3.3. Les ambiguïtés

L'analyse morphologique peut fournir plusieurs solutions correspondant à des interprétations différentes d'une forme. Ces cas d'ambiguïtés, qui représentent entre 10 et 16% des mots d'un texte (v. 5), posent donc un obstacle à la lemmatisation automatique, et devraient en principe être résolus manuellement. Cependant, si l'on envisage le traitement de corpus importants, les interventions manuelles doivent être limitées au maximum, et il devient nécessaire d'envisager une méthode de résoluiton automatique des ambiguïtés.

Comme il a été évoqué ci-dessus, le traitement des graphies anciennes augmente de manière significative le nombre de cas d'ambiguïtés. Ceci est dû aux multiples possibilités de variations graphiques des mots; par exemple, la forme marchez, non ambiguë en français moderne, le devient en graphies anciennes, puisqu'il peut s'agir du pluriel de marche n.f., de marché n.m. ou du participe passé de marcher.

Lorsque l'analyse fournit plusieurs solutions, Graphist tente de lever l'ambiguïté (grammaticale) par une analyse du contexte proche. Cette analyse repose sur des "filtres", qui peuvent exprimer, soit des constructions obligatoires, soit au contraire des constructions interdites. On aura, par exemple, des règles du type:

Ces règles reposent donc sur l'analyse des mots proches, qui peuvent eux-mêmes être ambigus; dans ce cas, on peut avoir un fonctionnement 'en cascade', comme, par exemple, pour la reconnaissance d'un pronom: "je le sens --> verbe"; "je ne les leur porte pas --> verbe" -- où l'ambiguïté de le, les, leur (pronoms ou articles) est levée par le pronom je.

Dans Graphist, seul un ensemble restreint de règles -- les plus 'efficaces' -- ont été intégrées, le but du projet n'ayant pas été de construire un véritable analyseur syntaxique. Cependant, ce seul ensemble de règles s'avère performant puisqu'il permet de lever automatiquement jusqu'à 40% des ambiguïtés dans les textes modernes.

Si Graphist ne peut lever automatiquement l'ambiguïté, les choix possibles sont directement proposés à l'utilisateur (en mode interactif), ou bien mis à part pour un examen ultérieur (mode différé, v. 4.1). En mode interactif, l'utilisateur n'a donc qu'à appuyer sur une touche pour effectuer son choix; de plus, il est toujours possible d'effectuer une lemmatisation manuelle, en indiquant directement l'interprétation correcte de la forme.

Le choix entre les lemmes possibles est facilité par l'indication de courtes mentions de sens, qui sont stockées dans le lexique DAC pour les séries d'homographes (v. 2). De plus, les choix sont toujours hiérarchisés, les lemmes les plus fréquents étant toujours présentés en premier, et les formes modernes avant les formes anciennes. Ainsi, pour la forme compte, Graphist propose, dans l'ordre, les lemmes suivants (où × indique une graphie ancienne): a) compte n.m. "calcul; rapport"; b) compter v. "calculer; avoir de l'importance"; c) × conte n.m. "histoire".

En pratique, cette méthode permet instantanément à l'utilisateur de faire son choix, et rend l'analyse du texte aussi simple que possible.

3.4. Les règles de modifications orthographiques

Comme nous l'avons indiqué, Graphist inclut un système de règles permettant de prendre en compte la variation graphique dans les textes anciens, de façon à pouvoir analyser un nombre maximal de formes, bien que celles-ci (ou les lemmes correspondants) soient absentes du lexique.

Ces règles sont des règles de réécriture, engendrant une ou plusieurs formes à partir d'une forme de départ. On aura, par exemple, les règles suivantes (où ">" et "<" représentent l'initiale et la finale d'une forme):

Pour l'écriture de ces règles, un langage spécifique a été développé, permettant d'exprimer des règles relativement complexes, où figurent par exemple des entités voyelle/consonne:

Ces règles sont cumulables; une forme telle que advanture engendrera donc, avec les règles ci-dessus, aventure, adventure, avanture. Le système permet donc, même avec peu de règles, d'analyser un nombre quasi infini de formes variantes.

Dans Graphist, le système de règles n'intervient que sur des formes n'ayant obtenu aucune analyse morphologique ("mots inconnus").[4] Il engendre un certain nombre de candidats possibles, qui sont à leur tour soumis à cette analyse; c'est donc toujours la recherche lexicale qui, en définitive, atteste de l'existence du mot ou non.

Cette analyse peut cependant fournir trop de candidats et ralentir le programme; aussi un contrôle rigoureux de l'ensemble des règles doit être effectué. Ainsi, dans Graphist, à partir des 600 règles de modifications orthographiques mises en évidence dans l'étude du RENA-DAC (v. 2), un sous-ensemble de 120 règles a été dégagé, choisies pour leur extrême rentabilité.

Ces règles sont entièrement externes à Graphist, et peuvent donc être redéfinies à tout moment. En particulier, Graphist peut être configuré pour traiter des textes antérieurs au XVIe siècle, pourvu que l'on adapte les règles de modifications orthographiques.

[Retour à la table des matières] [Suite]


Notes

[2] Rappelons que 5000 verbes engendrent déjà, en français moderne, près de 250.000 formes, auxquelles il faudrait ajouter leurs variantes anciennes!

[3] De plus, les formes des verbes du 3e groupe ont des graphies anciennes très diverses (cf. l'exemple de vais ci-dessus) qui échappent à une analyse simple radical + désinence.

[4] Il s'agit là d'un choix; un autre mode de contrôle pourrait appliquer les règles systématiquement à toutes les formes.