CHWP B.8 Wooldridge, "Structures du Corpus et de la Base Estienne-Nicot"

1. Définitions

Mon examen des débuts de la lexicographie française, centré sur le Thresor de la langue françoyse de Jean Nicot (Wooldridge, 1977), m'a amené à définir un corpus d'étude comprenant, en plus du Thresor, les différentes éditions des dictionnaires qui y ont mené directement:

La Figure 1 montre la filiation des dictionnaires du corpus.[1]

Il y a douze ans, j'ai commencé, grâce à des subventions du Conseil de recherche en sciences humaines du Canada et d'une aide de l'Institut national de la langue française (CNRS), la constitution d'une base électronique comprenant les ouvrages clés du corpus:

Pour chaque texte les parties saisies sont les suivantes:

Si dans le passé on a dû se contenter, pour les textes informatisés, de sorties prédéterminées, figées et coûteuses sur papier ou microfiches (cf. Wooldridge, 1985a), la micro-informatique permet maintenant la création et l'utilisation bon marché de bases de données souples et dynamiques dans lesquelles le choix des unités d'interrogation est déterminé en majeure partie par l'utilisateur. La base Estienne-Nicot existe actuellement en deux versions, gérées sur PC par les logiciels de recherche de données textuelles WordCruncher et TACT, respectivement. La principale supériorité de TACT par rapport à WordCruncher est que le premier permet un codage non hiérarchique et en nombre illimité de champs textuels hiérarchiques ou non hiérarchiques. Cette qualité a une grande importance si l'on veut rendre compte des niveaux et champs du texte dictionnairique.

On pourrait objecter que les sorties de la base Estienne-Nicot ont déjà été prédéterminées dans la mesure où, sauf dans le cas du Thresor, j'ai choisi de ne pas faire une saisie intégrale des textes. Mes raisons de procéder ainsi sont à la fois pratiques et scientifiques. D'abord, je n'aurais pas été subventionné pour faire une saisie intégrale. L'inclusion du latin -- dont seule une partie informe le français -- des alinéas bilingues du Thesaurus aurait multiplié le texte électronique par un facteur de plus de 5; celle de tout le latin par plus de 6. L'addition des alinéas latins du Dictionarium aurait doublé la taille du texte machine; celle des items hérités -- presque tous présents dans le Thresor -- de chacune des six éditions du Grand Dictionaire françois-latin aurait amplifié le texte électronique global par un facteur de 30. Déterminer quelle partie du latin informe le français du Thesaurus, quelle partie du texte hérité informe les ajouts du GDFL, ce serait chose tout à fait arbitraire. La base a été constituée dans le but de fournir une clé au lexique français et à la lexicographie française du corpus Estienne-Nicot. Je serais ravi qu'un spécialiste de la lexicographie latine complète la saisie du Thesaurus et du Dictionarium.

[Retour à la Table des Matières] [Suite]


Notes

[1] Les différences entre Poille 1609 et 1628, entre Voultier 1612 et 1614 et entre de Brosses 1614 et 1625 sont minimes.

[2] Stoer = 1593 (moins DFL 1573) + 1599 (moins 1593) + 1603 (moins 1599) + 1606 (moins 1603); Baudoin = Baudoin moins Stoer 1605; Marquis = Marquis moins Stoer 1603; Poille = Poille moins Stoer 1605; Voultier = Voultier moins Baudoin; de Brosses = de Brosses moins Marquis. Pour plus de détails, voir Wooldridge, 1992.