CHWP B.24 Caron, Dagenais & Gonfroy, "Le Dictionaire critique de Féraud"

2. Objectifs

Les objectifs de notre entreprise d'édition électronique sont aisés à énoncer: il s'agit d'interroger les contenus du D.C. En aucun cas nous ne songeons à re-générer le texte-papier avec l'ensemble de ses attributs matériels originaux. L'absence de tels attributs dans le Suplément manuscrit de 800 pages du Dictionaire critique (GEHLF 1987), dont il faudra aussi envisager la saisie, constitue à cet égard un obstacle insurmontable.

3. Opérations

Vu leur grande compatibilité, nous travaillons avec les deux logiciels WordPerfect (traitement de texte) et WordCruncher (recherche de données textuelles).

3.1. Dispositif d'encodage

L'encodage des attributs matériels du texte dans le texte électronique répond strictement aux besoins d'interrogation des contenus du D.C. et à la nécessité d'une édition électronique fiable à l'intérieur des finalités pré-définies. Notre position est claire: la faisabilité de l'entreprise importe ici plus que l'intégralité philologique: nous souhaitons pouvoir consulter la base, même avec des bruits, d'ici trois ans. Le texte électronique n'incorporera donc que les attributs matériels remplissant l'une ou l'autre des conditions suivantes: offrir les indices de lecture nécessaires; offrir une indication pertinente et univoque, convertible en balise de contenu; favoriser une saisie et des relectures exactes; ne pas surcharger la saisie au point de mettre en péril l'opération de relecture, donc la qualité des données; optimiser les requêtes ultérieures.

Nous traitons dans l'ordre des principaux paramètres de l'encodage en deux temps: la saisie et la post-édition.

3.1.1. Saisie

3.1.1.1. Le système de référence (page/colonne/ligne)

Vu l'adressage en ordre alphabétique du D.C. et la structuration relativement systématique de ses articles, l'article et le constituant de l'article dans lequel apparaît la forme constituent le système de référence motivé et pertinent tant pour un programme de référence rapide que pour le retour à l'original papier. Il suffira donc de taper deux fois en exergue la vedette, une fois comme vedette, l'autre comme adresse.

Il est toujours possible d'ajouter plus tard, en fonction de besoins encore peu discernables, les 2.600 indication de pages et les 5.200 indications de colonnes. Quant à la ligne, elle n'appelle, vu nos objectifs, qu'un marquage adéquat des tirets équivoques.

3.1.1.2. Sauts de ligne, retraits, signes de disjonction, structuration alpha-numérique de l'article

Aux fins d'une indispensable fidélité de nature structurelle à l'original et pour des raisons de lisibilité, les sauts de ligne, les retraits, les signes de disjonction, la structuration alpha-numérique de l'article sont encodés. Sont transcodés les signes de disjonction absents dans la table ASCII.

3.1.1.3. Polices, corps, casses

Ici nous entrons dans le royaume de la redondance, de la synonymie et de la polysémie graphiques.

a) L'alternance des deux corps minuscules est mécanique et univoque: le petit corps minuscule est réservé aux exemples en vers. Cet attribut, faiblement représenté, fait partie des indications à la fois pertinentes et gérables. Il est conservé.

b) L'alternance italique/romain est très fréquente, donc extrêmement coûteuse. Elle n'est en outre pas univoque, notamment: les adresses non-mots; les sources; les transcriptions phonétiques figurées, intégrales ou tronquées; des mots ou chaînes de caractères en mention, c'est-à-dire sujets du discours métalinguistique (c'est ainsi que le rappel du mot-adresse se trouve parfois en italique); des mots ou syntagmes, continus ou discontinus, qui, objets du discours métalinguistique, sont en usage dans des exemples.

Ces cinq fonctions cardinales ne sont en outre pas exclusives de quelques utilisations marginales supplémentaires. Il s'ensuit qu'elle exige la coopération du lecteur.

Il reste que, malgré sa polysémie, la police italique est trop riche en indices de lectures complémentaires pour être abandonnée et nous convenons de la conserver.

c) L'alternance des casses pose des problèmes de synonymie et de polysémie graphiques: les capitales ou majuscules se trouvent en effet dans le composant adresse pour noter les adresses et parfois, se substituant à l'italique (minuscule), dans le corps de l'article pour leur rappel. L'information, de faible valeur, n'est toutefois pas sans intérêt. Plus près de la matérialité du texte, elle en favorise aussi une saisie plus fiable tout en faisant fonction d'ancrage visuel pour les relectures.

Nous avons donc convenu de conserver l'alternance des casses.

Ici s'arrête pour nous les tâches requises d'un claviste faiblement formé qui suivra la matérialité du texte, à l'exclusion du lignage arbitraire.

3.1.2. La post-édition

L'enrichissement des données brutes demande plus de formation et sera confié à des étudiants de troisième cycle. Les opérations conformes à nos finalités sont les suivantes: découpage de l'article en ses constituants; pose conditionnelle d'espace après l'apostrophe; intervention sur les tirets d'enclise qui donnent cours à des mots graphiques anormaux; intervention sur les traits d'union en fin de ligne; pose automatique d'une balise ouvrante d'exemple avant le guillemet et fermeture manuelle de l'exemple après la fin de celui-ci, voire après l'indication de source si l'exemple est référencé; encadrement des sources par un code d'enrichissement graphique, ultérieurement transcodable.

À ce stade du travail, le texte électronique permettra d'isoler avec précision: la vedette; les constituants de l'article; les exemples; les sources; les exemples en vers; les mots notés par Féraud comme hors du bon usage à l'aide de l'astérisque.

La segmentation des articles en constituants permettra de plus d'interroger indirectement: les adresses; les catégories grammaticales, assez bien identifiées par Féraud et localisées de façon uniforme.

On pourra donc interroger la nomenclature (adresses et vedettes), inventorier les sources du D.C., distinguer entre citations référencées et non référencées, identifier l'article dans lequel figure une source ou une citation. Et l'on pourra, bien entendu, interroger le texte exclusivement sur les exemples.

3.2. L'enrichissement concomitant de la base

Comme le montre une étude sur les marqueurs du mauvais usage dans le D.C. (Seguin et al. 1990), leurs dénominations fluctuantes et leur syntaxe variable les rendent peu propices à l'interrogation. Étant donné la vocation critique du dictionnaire de Féraud, il nous apparaît cependant essentiel d'en faciliter la recherche.

À cette fin, la recherche commencée à Montréal sur le développement de l'appareil des marques d'usage dans les dictionnaires monolingues français permettra d'annexer un inventaire statistiquement valable des différents marqueurs de l'usage présents dans le D.C., qu'ils ressortissent à l'axe social, temporel, spatial, à la fréquence ou à l'opposition langue générale / langue de spécialité.

3.3. L'enrichissement ultérieur

Au terme des trois années prévues, des enrichissements supplémentaires pourront éventuellement être envisagés, plus particulièrement au niveau du codage: des chaînes de transcriptions figurées; des chaînes de type phonético-graphique qui ne constituent pas des mots dans le composant du même nom; des abréviations; des adresses tronquées; des toponymes et des anthroponymes.

[Retour à la table des matières]