Wooldridge: Structures du Corpus et de la Base Estienne-Nicot

Wooldridge, "Structures du Corpus et de la Base Estienne-Nicot"

1. Définitions

Mon examen des débuts de la lexicographie française, centré sur le Thresor de la langue françoyse de Jean Nicot (Wooldridge, 1977), m'a amené à définir un corpus d'étude comprenant, en plus du Thresor, les différentes éditions des dictionnaires qui y ont mené directement:

les deux premières éditions (bilingues) du Latinæ linguæ Thesaurus de Robert Estienne;
les quatre éditions de son Dictionarium latinogallicum;
les quatre éditions du Dictionaire françois-latin (Estienne 1539, Estienne 1549, Thierry 1564, Dupuys-Nicot 1573);
les six éditions du Grand Dictionaire françois-latin (Stoer, Baudoin, Marquis, Poille, Voultier, de Brosses), prolongement direct du Dictionaire françois-latin.

La Figure 1 montre la filiation des dictionnaires du corpus.[1]

Il y a douze ans, j'ai commencé, grâce à des subventions du Conseil de recherche en sciences humaines du Canada et d'une aide de l'Institut national de la langue française (CNRS), la constitution d'une base électronique comprenant les ouvrages clés du corpus:

le Latinæ linguæ Thesaurus de 1531, la majeure partie du français duquel ne passe pas dans le Dictionarium;
la troisième édition -- la plus complète -- du Dictionarium latinogallicum (DLG);
le Thresor, qui garde la presque intégralité des quatre éditions cumulatives du Dictionaire françois-latin (DFL);
les six éditions du Grand Dictionaire françois-latin (GDFL).

Pour chaque texte les parties saisies sont les suivantes:

Thesaurus 1531: le texte français et les adresses latines correspondantes [base textuelle = 1,20 mégaoctets];
DLG 1552: les items bilingues [7,80 Mo];
Thresor 1606: le texte intégral [7,53 Mo];
GDFL 1593-1628: les additions par rapport au texte source [1,54 Mo].[2]

Si dans le passé on a dû se contenter, pour les textes informatisés, de sorties prédéterminées, figées et coûteuses sur papier ou microfiches (cf. Wooldridge, 1985a), la micro-informatique permet maintenant la création et l'utilisation bon marché de bases de données souples et dynamiques dans lesquelles le choix des unités d'interrogation est déterminé en majeure partie par l'utilisateur. La base Estienne-Nicot existe actuellement en deux versions, gérées sur PC par les logiciels de recherche de données textuelles WordCruncher et TACT, respectivement. La principale supériorité de TACT par rapport à WordCruncher est que le premier permet un codage non hiérarchique et en nombre illimité de champs textuels hiérarchiques ou non hiérarchiques. Cette qualité a une grande importance si l'on veut rendre compte des niveaux et champs du texte dictionnairique.

On pourrait objecter que les sorties de la base Estienne-Nicot ont déjà été prédéterminées dans la mesure où, sauf dans le cas du Thresor, j'ai choisi de ne pas faire une saisie intégrale des textes. Mes raisons de procéder ainsi sont à la fois pratiques et scientifiques. D'abord, je n'aurais pas été subventionné pour faire une saisie intégrale. L'inclusion du latin -- dont seule une partie informe le français -- des alinéas bilingues du Thesaurus aurait multiplié le texte électronique par un facteur de plus de 5; celle de tout le latin par plus de 6. L'addition des alinéas latins du Dictionarium aurait doublé la taille du texte machine; celle des items hérités -- presque tous présents dans le Thresor -- de chacune des six éditions du Grand Dictionaire françois-latin aurait amplifié le texte électronique global par un facteur de 30. Déterminer quelle partie du latin informe le français du Thesaurus, quelle partie du texte hérité informe les ajouts du GDFL, ce serait chose tout à fait arbitraire. La base a été constituée dans le but de fournir une clé au lexique français et à la lexicographie française du corpus Estienne-Nicot. Je serais ravi qu'un spécialiste de la lexicographie latine complète la saisie du Thesaurus et du Dictionarium.

[Retour à la Table des Matières] [Suite]

Notes

[1] Les différences entre Poille 1609 et 1628, entre Voultier 1612 et 1614 et entre de Brosses 1614 et 1625 sont minimes.

[2] Stoer = 1593 (moins DFL 1573) + 1599 (moins 1593) + 1603 (moins 1599) + 1606 (moins 1603); Baudoin = Baudoin moins Stoer 1605; Marquis = Marquis moins Stoer 1603; Poille = Poille moins Stoer 1605; Voultier = Voultier moins Baudoin; de Brosses = de Brosses moins Marquis. Pour plus de détails, voir Wooldridge, 1992.