|  CHWP B.6  |   |  Caron, Dagenais, Gonfroy, "L'informatisation du Dictionaire de Féraud (1787)" | 
2.3. Les autres codages
   À la première couche de codages référentiels et
typographiques s'ajoutent deux autres systèmes de balises:
    1. Des balises d'ouverture et de fermeture:
    - les crochets droits [...] en début et en
                fin du composant phonético-graphique;
        
 - les crochets brisés <...> de part
                et d'autre des exemples (référencés ou non).
 
 2. Des balises placées immédiatement avant des
        chaînes spécifiques de caractères et indiquant que
        celles-ci présentent une propriété commune assez
        intéressante pour qu'on veuille les retrouver groupées et
        les constituer en glossaires. Ce marquage informatique crée dans
        l'indexation des mots artificiels, par ex.:
    - %Anglais, %Arabie, où % code les
anthroponymes et toponymes;
        
 - $fém., où $ signale une
        abréviation;
        
 - £Rousseau, où £
        précède immédiatement une indication de source;
        
 - £$Rouss., où la combinaison £$
note une source abrégée.
 
   Ces séquences sont donc de type Xxxxx, la balise de fin
étant l'espace. Ceci implique que, dans les cas où la
chaîne de caractères forme un syntagme graphique et non un mot
graphique, il faut artificiellement regrouper ses composants de manière
à éviter que l'espace ne joue le rôle de
délimiteur; ex. $v_a. pour "v. a." (verbe actif),
£$gasc_corr. pour "gasc. corr." (gasconisme
corrigé), etc. (Figure 2 et Figure 3).
        Une informatisation ne saurait évidemment être mise en
oeuvre sans une vision relativement claire des attentes possibles du public
savant. Trois grandes attentes nous semblent devoir être satisfaites (la
première l'est déjà par le travail effectué
à Montréal):
    1. Questionner la transcription figurée pour étudier les
        grandes régularités de la phonologie du français
        enregistré par Féraud.
    2. Se faire une idée précise de la littérature
        compilée ou dépouillée par lui, c'est-à-
        dire de l'étendue du français décrit.
    Ces deux attentes peuvent être assez aisément satisfaites. Il
faut en outre pouvoir:
    3. Interroger le lexique et la phraséologie dans une perspective
        variationniste en exploitant le riche marquage d'usage noté par
        Féraud. À cette dernière attente, nous essaierons
        de montrer qu'il n'est pas facile de répondre par un codage.
    Nous avons pour l'instant décidé de coder
systématiquement:
        
     - la transcription figurée, en prenant soin de ne pas restituer
        les séquences tronquées. La barre oblique
        précède chacune de ces transcriptions, tronquées
        ou non -- ex. /anluminé, /neur,
        /neû-ze, /nûre;
     
 - les sources, que nous précédons de la livre sterling;
        dans tous les cas où la source, auteur ou titre, correspond
        à un syntagme, le trait de soulignement en lie les
        éléments -- ex.
        £Dithyrambe_aux_mânes_de_Voltaire;
     
 - les abréviations, pour deux raisons: d'une part pour en
        connaître l'étendue et le rôle comme descripteurs
        métalinguistiques; d'autre part pour pouvoir les évacuer
        d'un index en cas de besoin. Nous les précédons du signe
        du dollar -- ex. $etc., $Rem.;
     
 - les références anaphoriques (le même,
        idem) pour lesquelles nous restituons la référence
        complète immédiatement suivie du signe µ,
        qui indique ainsi une restitution conjecturale -- ex.
        £Dithyrambe_aux_mânes_de_Voltaireµ;
     
 - les anthroponymes et toponymes, que l'on trouvera ici
        précédés du signe %; ex.
        %Pyrrhus.
 
   Dans la version portée à la Figure 2, et que
nous venons de modifier en fonction de la nouvelle configuration du logiciel
WordCruncher, il reste encore la trace d'une hésitation sur
laquelle nous n'avons pas encore pris parti: il s'agit du sort à
réserver aux chaînes de caractères de statut mixte
phonético-graphique que l'on trouve dans le composant du même
nom; ex. "3e e muet". Un essai est en cours dans le fichier
en démonstration, qui code différemment la transcription
figurée (avec la barre oblique) et les chaînes de
caractères phonético-graphiques (avec la perluette; ex. 3e
&e muet). Il nous est apparu qu'étant donné les risques
d'erreur occasionnés par la préédition et la saisie, il
était hors de question de surcharger davantage cette première
saisie. On trouvera également le signe # dans le texte
machine: il s'agit d'un signe de perplexité qui permet de localiser
immédiatement les passages à revoir.
[Retour à la Table des Matières] [Suite]