CHWP B.8 Wooldridge, "Structures du Corpus et de la Base Estienne-Nicot"

2. Structures des dictionnaires dans le texte et dans la base

2.1. Macrostructure et microstructure

Pour l'organisation de ses matériaux, Estienne regroupe les mots d'une même famille dérivationnelle en un macroarticle (microstructure niveau 1), dont chacun des mots-adresses avec les informations sur le mot forme un microarticle (microstructure niveau 2). Le mot chef de famille est traité dans le premier microarticle, son adresse constituant la vedette du macroarticle; les macroarticles sont classés par ordre alphabétique des vedettes (macrostructure). Ce système est employé de façon régulière dans le Thesaurus, le DLG et les deux premières éditions du DFL (les seules parues sous la direction d'Estienne). Les successeurs d'Estienne -- Thierry, Dupuys, Nicot, les éditeurs du GDFL -- minent petit à petit ce système tripartite par l'abandon ou le mésusage des distinctions typographiques (hiérarchie des caractères d'imprimerie et des mises en saillie/retrait), et le placement mi-microstructurel, mi-alphabétique des additions (surtout chez Thierry et plusieurs éditions du GDFL).

2.2. Thesaurus 1531

2.2.1. Structure typique du microarticle

Composants: Adresse, Conjugaison/Déclinaison, Catégorie grammaticale, Sens, Syntagme, Définition, Équivalent, Source d'adresse/sens/syntagme, Exemple signé. Les informations sur la conjugaison ou déclinaison et la catégorie grammaticale sont données dans le premier alinéa. La définition est rédigée soit en latin, soit en français. Un alinéa contient typiquement plusieurs exemples signés étendus. L'extrait suivant (macroarticles ALNVS et ALO) peut servir d'illustration.[3]

Les adresses de microarticle sont mises en saillie; l'article ALTILIS contient deux alinéas, tous les autres n'en contiennent qu'un chacun.

S'il est possible d'analyser l'extrait ALNVS-ALO en composants séquentiels, il est d'autres cas qui y résistent:

2.2.2. Structure de la base

Dans la version TACT de la base textuelle, l'extrait ALNVS-ALO se présente de la façon suivante:[4]

Pour les occurrences dans l'extrait de nourriture, le mode d'affichage "Index"[5] de TACT donne le résultat suivant:

nourriture (3)
(altilis 27r32) Aliment, viande. ¦ Chose de nourriture. \ toute nourriture
(altilis 27r32)      de nourriture. \ toute nourriture soient en maison,
(alumnus 27r38)   | science. \ C*est icy ta nourriture, ta fille que tu

2.3. Dictionarium 1552

2.3.1. Structure typique du microarticle

Composants: Adresse, Conjugaison/Déclinaison, Catégorie grammaticale, Dérivation/Étymologie, Sens, Syntagme signé, Définition, Équivalent, Source d'adresse/sens. Les informations sur la conjugaison ou déclinaison et la catégorie grammaticale sont données dans le premier alinéa. La définition est rédigée soit en latin, soit en français. Un alinéa ne contient qu'un exemple-syntagme signé réduit; une ligne typographique peut contenir plusieurs alinéas. Soit le macroarticle ALNVS:[6]

Les adresses de microarticle sont mises en saillie; le microarticle ALNVS contient onze alinéas-items, les deux autres n'en contiennent qu'un chacun. Les dérogations à la séquentialité des composants sont peu nombreuses dans le texte parcellaire du DLG.

2.3.2. Structure de la base

Dans la version TACT de la base textuelle, l'extrait ALNVS se présente de la façon suivante:[7]

On peut demander à TACT de traiter les valeurs d'une variable à la fois comme jalon de référence et comme mot (méta)textuel; l'identificateur de mot-adresse "·" (ASCII 249) a pour effet de regrouper les adresses (mots métatextuels) dans une tranche de la liste de mots (formes), les mots textuels dans une autre. Par exemple, alnus (mot de texte) se trouvera dans la tranche A-Z, · alnus dans la section · A-· Z. On peut découvrir ainsi que passus sert d'adresse à trois microarticles, sous les vedettes PANDO, PASSVS ("un pas") et PATIOR, respectivement.

2.4. Thresor 1606

2.4.1. Structures du microarticle

Composants: Adresse, Variante, Catégorie grammaticale, Accentuation, Dérivation/Étymologie, Remarque sur l'Orthographe/Prononciation, Sens, Syntagme, Usage, Définition, Synonyme, Analogue, Dérivé, Équivalent, Cognate, Exemple forgé, Exemple signé, Source d'adresse/sens/usage/équivalent, Commentaire encyclopédique, etc. Un microarticle peut contenir entre un et la totalité des composants énumérés ci-dessus et dans un ordre à peu près imprévisible, bien que l'Adresse soit généralement donnée au début suivie de la Catégorie grammaticale -- quand celle-ci est fournie. De plus, les informations sont souvent superposées, imbriquées ou enchâssées. Le Thresor est non seulement la somme des quatre éditions du DFL plus ses propres ajouts et révisions, il est aussi le cumul des méthodes d'Estienne, de Thierry et de Nicot.

Comme modèle structural entre mille, prenons le cas relativement simple du microarticle AUMOSNIER. Le texte original est comme suit:[8]

Ce qui pourrait s'analyser de la façon suivante:

Très fréquents chez Nicot sont les alinéas étendus dans lesquels le discours métalinguistique sur le mot est presque noyé dans un discours encyclopédique référencé. Dans le premier alinéa de l'article CHAUSSETRAPE, la définition, l'exemple signé, les équivalents et l'étymologie (du latin) sont imbriqués dans un long commentaire sur la chose.[8]

2.4.2. Structure de la base

La base du Thresor a essentiellement la même structure que celle du DLG (v. supra). Le codage linguistique est plus complexe: un mot ou séquence peut appartenir à langue A et langue B (ad nutum dans "<t F1>Benefices revocables <t FL1>ad nutum, <t L3>Sacerdotia precaria."), ou à langue A ou langue B (f. penac. dans "<t F4>Aumosne, <t F/L3>f. penac.").

2.5. GDFL 1593-1628

Comme la totalité des additions des six éditions du GDFL ne fait augmenter le nombre de lignes de texte ou de mots français du DFL 1573 que d'environ 25%, je me contente ici de décrire les démarches caractéristiques de chaque édition.

2.5.1. Stoer

Les informations nouvelles sont le plus souvent ajoutées à un alinéa existant. L'ajout le plus caractéristique est la Prononciation, largement codifiée.[9] Exemples pris dans S 1606 (je mets entre crochets les parties héritées):[8]

2.5.2. Baudoin

Les quelques ajouts de Baudoin concernent surtout la zoologie et la botanique.[8]

2.5.3. Poille

Les ajouts de Poille sont typiquement courts. Il a une prédilection pour les variantes attestées chez les poètes (modèle: "X pour Y. Source.").

2.5.4. Marquis

Les additions de Marquis sont variées en forme (alinéas courts et longs, ajouts à des alinéas existants ou dans des alinéas nouveaux) et en contenu (entre autres: vocabulaire technique, régionalismes, variantes graphiques, épithètes). Exemples (je mets le texte hérité entre crochets):[8]

2.5.5. Voultier

La contribution de Voultier se caractérise par la réorganisation en alinéas complexes d'alinéas simples hérités et par l'addition de nombreux synonymes ou parasynonymes (modèle: "[X] Voyez Y").[11]

devient chez Voultier:

2.5.6. De Brosses

De Brosses ajoute un petit nombre d'items, typiquement bilingues.[12]

[Retour à la Table des Matières] [Suite]


Notes

[3] NDLR: Les ronds noirs signifient ici début d'alinéa en saillie. La barre verticale ("|") marque la mise en lignes de l'original.

[4] <p = feuillet (ex. feuillet 27, recto, ligne 23); <a = adresse; ¦ = nouveau paragraphe; \ = saut dans le même paragraphe; | = frontière de lignes; * = explicitation de frontière de mot.

[5] NDLR: "Index" s'appelle maintenant "KWIC". Cf. J. Bradley, CHWP B.1; cf. aussi la notice sur la diffusion de TACT.

[6] NDLR: La mise en lignes est en principe -- selon le navigateur utilisé et la largeur de l'écran -- conforme à l'original.

[7] <p = page + colonne; <l = ligne; <t = langue et typographie (F = français, L = latin, - = hors langue, 1 = italique, 3 = romain moyen, 4 = grand romain, 0 = non alphabétique); · = identificateur de mot-adresse.

[8] NDLR: Rond noir = mise en saillie; barre verticale = frontière de lignes de l'original.

[9] La copule Prononcez s'écrit P. (1 fois), Pr. (117), Pro. (23), Pron. (293), Pronon. (25). Il y a alternance romain-italique ou italique-romain à l'intérieur du couple Copule-Prononciation.

[10] Marquis enregistre environ 170 arvernismes (Chambon & Wooldridge, 1990).

[11] NDLR: Rond noir = mise en saillie dans l'original.

[12] On revient à la méthode employée par Estienne dans le Dictionaire françois-latin.