Caron, Dagenais, Gonfroy: L'informatisation du Dictionaire de Féraud (1787)

Caron, Dagenais, Gonfroy, "L'informatisation du Dictionaire de Féraud (1787)"

2.3. Les autres codages

À la première couche de codages référentiels et typographiques s'ajoutent deux autres systèmes de balises:

1. Des balises d'ouverture et de fermeture:

les crochets droits [...] en début et en fin du composant phonético-graphique;
les crochets brisés <...> de part et d'autre des exemples (référencés ou non).

2. Des balises placées immédiatement avant des chaînes spécifiques de caractères et indiquant que celles-ci présentent une propriété commune assez intéressante pour qu'on veuille les retrouver groupées et les constituer en glossaires. Ce marquage informatique crée dans l'indexation des mots artificiels, par ex.:

%Anglais, %Arabie, où % code les anthroponymes et toponymes;
$fém., où $ signale une abréviation;
£Rousseau, où £ précède immédiatement une indication de source;
£$Rouss., où la combinaison £$ note une source abrégée.

Ces séquences sont donc de type Xxxxx, la balise de fin étant l'espace. Ceci implique que, dans les cas où la chaîne de caractères forme un syntagme graphique et non un mot graphique, il faut artificiellement regrouper ses composants de manière à éviter que l'espace ne joue le rôle de délimiteur; ex. $v_a. pour "v. a." (verbe actif), £$gasc_corr. pour "gasc. corr." (gasconisme corrigé), etc. (Figure 2 et Figure 3).

Une informatisation ne saurait évidemment être mise en oeuvre sans une vision relativement claire des attentes possibles du public savant. Trois grandes attentes nous semblent devoir être satisfaites (la première l'est déjà par le travail effectué à Montréal):

Ces deux attentes peuvent être assez aisément satisfaites. Il faut en outre pouvoir:

3. Interroger le lexique et la phraséologie dans une perspective variationniste en exploitant le riche marquage d'usage noté par Féraud. À cette dernière attente, nous essaierons de montrer qu'il n'est pas facile de répondre par un codage.

Nous avons pour l'instant décidé de coder systématiquement:

la transcription figurée, en prenant soin de ne pas restituer les séquences tronquées. La barre oblique précède chacune de ces transcriptions, tronquées ou non -- ex. /anluminé, /neur, /neû-ze, /nûre;
les sources, que nous précédons de la livre sterling; dans tous les cas où la source, auteur ou titre, correspond à un syntagme, le trait de soulignement en lie les éléments -- ex. £Dithyrambe_aux_mânes_de_Voltaire;
les abréviations, pour deux raisons: d'une part pour en connaître l'étendue et le rôle comme descripteurs métalinguistiques; d'autre part pour pouvoir les évacuer d'un index en cas de besoin. Nous les précédons du signe du dollar -- ex. $etc., $Rem.;
les références anaphoriques (le même, idem) pour lesquelles nous restituons la référence complète immédiatement suivie du signe µ, qui indique ainsi une restitution conjecturale -- ex. £Dithyrambe_aux_mânes_de_Voltaireµ;
les anthroponymes et toponymes, que l'on trouvera ici précédés du signe %; ex. %Pyrrhus.

Dans la version portée à la Figure 2, et que nous venons de modifier en fonction de la nouvelle configuration du logiciel WordCruncher, il reste encore la trace d'une hésitation sur laquelle nous n'avons pas encore pris parti: il s'agit du sort à réserver aux chaînes de caractères de statut mixte phonético-graphique que l'on trouve dans le composant du même nom; ex. "3e e muet". Un essai est en cours dans le fichier en démonstration, qui code différemment la transcription figurée (avec la barre oblique) et les chaînes de caractères phonético-graphiques (avec la perluette; ex. 3e &e muet). Il nous est apparu qu'étant donné les risques d'erreur occasionnés par la préédition et la saisie, il était hors de question de surcharger davantage cette première saisie. On trouvera également le signe # dans le texte machine: il s'agit d'un signe de perplexité qui permet de localiser immédiatement les passages à revoir.

[Retour à la Table des Matières] [Suite]