CHWP B.26 Auger & Poirier, "Le Dictionnaire du français québécois et TACT"

6. L'exploitation du DFQ au moyen de TACT

Tous les codes insérés automatiquement dans les articles vont permettre d'effectuer diverses recherches. Le rôle essentiel de la codification consiste ici à rendre repérables, au cours d'une recherche, la plupart des informations que contient un article. Par exemple, c'est uniquement parce que chaque rubrique de la microstructure a explicitement été encodée au moyen d'un jalon de repérage (tel que <r Vedette>, <r SensP>, <r Dér>, etc.), qu'il est possible de faire porter la recherche sur l'information contenue dans chacune de ces rubriques.

Cette nouvelle codification du DFQ transforme celui-ci en une base de données dictionnairiques et historiques du français québécois. Il s'agit là, à notre connaissance, de la première base de ce genre pour le français du Québec. Les chercheurs du TLFQ disposent ainsi d'un outil incomparable qui leur permet d'effectuer des analyses portant sur le discours lexicographique du DFQ et sur les nombreux matériaux utilisés pour illustrer ce discours au fur et à mesure de sa construction. Voici quelques brefs exemples qui illustrent les types de recherche qu'il est possible d'effectuer.[3]

6.1. Exploitation d'une banque d'exemples

Grâce au jalon identifiant la rubrique des exemples (cf. Figure 5, <r Exemple>), il est possible de rechercher des attestations de mots dans la banque d'exemples du DFQ. Imaginons que le rédacteur, étudiant le mot chemin à partir des exemples figurant dans le fichier lexical du TLFQ, voudrait élargir son corpus en récupérant les passages où le mot est employé dans des exemples déjà cités dans le dictionnaire et qui pourraient ne pas faire partie de ceux réunis pour ce mot dans le fichier. Il n'a qu'à interroger le corpus des articles au moyen de TACT qui lui apprend immédiatement que le mot figure dans 24 exemples cités et lui offre la possibilité de les visualiser, d'en choisir un échantillon et de l'imprimer, le cas échéant. Bref, le jalonnage automatique de la rubrique des exemples permet, par le recours à TACT, de faire en sorte que chacun des mots d'un exemple déjà cité dans le dictionnaire puisse être récupéré, qu'il ait ou non été identifié comme mot vedette dans le fichier lexical du TLFQ. La Figure 7 montre quelques-uns des exemples que le rédacteur obtiendrait pour le mot chemin.

Comme on peut le constater, TACT affiche en majuscules le titre de l'article dans lequel l'exemple est cité et la référence complète de l'exemple, ce qui permet de retourner à la source originale sans plus de recherche. Il est évidemment possible de commander des recherches beaucoup plus spécifiques. Par exemple, on aurait pu ne faire lister ici que les occurrences du mot dans le syntagme chemin de fer ou encore les occurrences du mot chemin dans le syntagme chemin de fer mais seulement lorsque chemin de fer est lui-même en cooccurrence avec n'importe laquelle des formes verbales de bâtir.[4] On aurait également pu ne faire lister que les contextes provenant d'ouvrages dont la date est postérieure à 1960, etc. Ainsi, la banque des exemples cités dans le dictionnaire devient un complément d'information indispensable du fichier lexical et des autres sources primaires du TLFQ.

6.2. Le discours définitoire

Les jalons servant à identifier les rubriques de sens (cf. Figure 5, <r SensP> et <r SensS>) vont permettre de rechercher des informations dans le texte même des définitions. La Figure 8 montre l'emploi de l'abréviation "spécial." dans les définitions du DFQ. Ce type de recherche est particulièrement utile, par exemple, pour s'assurer de la cohérence de l'emploi d'une abréviation à contenu spécialisé dans l'ensemble du discours définitoire de l'ouvrage.

6.3. Les origines des québécismes

Le jalon qui sert à identifier l'origine historique des emplois traités dans le DFQ (cf. Figure 5, <j Origine>) permet, par exemple, d'étudier la distribution des catégories d'origine des québécismes dans le dictionnaire en illustrant leur fréquence relative. Comme le montre la Figure 9, les emplois d'origine anglaise dominent dans l'échantillon sélectionné. Ils sont notés par les codes angl (pour anglais) et anam (pour anglais américain). Ces emplois représentent 330 des 864 emplois traités. Ils sont suivis par ceux d'origine dialectale, notés dial, qui représentent 228 des 864 emplois traités. Enfin, on peut noter que les emplois découlant d'une innovation, notés inno, peu importe la source de départ, sont également en nombre élevé puisqu'ils représentent 259 des 864 emplois traités dans l'échantillon.

On pourrait encore vouloir mettre en rapport les catégories d'origine des québécismes et la mention "emploi critiqué" afin de voir si l'on peut établir une certaine correspondance entre les deux. L'échantillon de la Figure 10 suggère que les condamnations, dont rend compte le DFQ, frappent presque toujours les emplois d'origine anglaise, notés angl ou anam. Ils représentent 26 des 28 emplois critiqués dans les sources secondaires (glossaires, manuels de bon usage, etc.) -- un échantillon plus large permettrait sans doute de nuancer un peu cette mise en rapport presque systématique.

6.4. L'utilisation des marques d'usage

Le jalon qui sert à identifier les marques d'usage dans le DFQ (cf. Figure 5, <j Marque>) va permettre, pour sa part, de connaître leur distribution dans le dictionnaire, révélant, du même coup, la fréquence avec laquelle chaque marque d'usage est employée dans l'ensemble des articles. Cette information est indispensable pour quiconque désire aborder l'étude des québécismes en fonction des registres d'usage, de leur vitalité actuelle, etc.

La Figure 11 montre que, dans l'échantillon sélectionné, la marque d'usage la plus fréquente dans les emplois traités est "vieilli". Il ne faut pas en conclure pour autant que les québécismes sont majoritairement des emplois vieillis. En effet, la distribution de cette figure ne tient pas compte des emplois traités pour lesquels aucune marque d'usage n'est mentionnée. La marque "vieilli" est donc la marque la plus fréquente parmi les emplois qui contiennent des marques d'usage. Un compteur d'emplois traités sera prochainement inséré dans le corpus d'articles. Celui-ci permettra de connaître le nombre total d'emplois traités dans le DFQ. En soustrayant la somme des emplois contenant une marque d'usage du nombre total d'emplois traités, on obtiendra alors le nombre d'emplois pour lesquels aucune marque d'usage n'est mentionnée. Tous les emplois traités seront ainsi pris en compte -- ceux qui contiennent des marques d'usage et ceux qui n'en contiennent pas.

Lorsque TACT affiche un résultat de recherche sous la forme d'une distribution (Distribution Display), il tronque les données de la colonne de gauche afin de pouvoir afficher une représentation de la fréquence dans la colonne de droite. Malheureusement, la largeur de la colonne de gauche est fixe. D'où les formes tronquées vieilli et, vieilli ou, dans la colonne de gauche de la Figure 11. L'intérêt premier de ce type d'affichage est de faire ressortir visuellement la fréquence des diverses valeurs associées à une variable -- ici les valeurs de la variable marque d'usage. Quoiqu'il en soit, la Figure 12 montre que TACT permet également un affichage de type duplex (Window Display) qui vient combler les lacunes dues aux troncatures lorsque le format d'affichage sélectionné est de type distributionnel.

Cette forme d'affichage combiné permet ainsi de compléter au besoin les informations de la partie du bas (Distribution Display) en montrant automatiquement, dans la partie du haut (Variable Context Display), le passage correspondant à l'endroit où se trouve le curseur dans la partie du bas.

6.5. Mise en rapport des origines avec les marques d'usage

Il est également possible de cumuler les critères de recherche en combinant, par exemple, les jalons de marque d'usage et de catégorie d'origine. On pourrait ainsi se demander quelle peut être la distribution des catégories d'origine uniquement parmi les emplois qui sont marqués comme étant "vieux" ou "vieilli". On obtiendrait alors le résultat qui apparaît dans la Figure 13.

On constate que l'origine la plus fréquente parmi les emplois marqués "vieux" ou "vieilli" est dialectale (dial). La mise en rapport de ces deux jalons pourrait donc permettre de faire ressortir, le cas échéant, des tendances montrant le sort qu'ont connu les québécismes selon qu'ils provenaient des dialectes, de l'anglais, du français, etc.

6.6. Articles contenant des emplois d'origine spécifique

TACT permet de prendre rapidement connaissance des articles dans lesquels apparaît un code d'origine particulier. La Figure 14 montre un extrait des articles qui comportent des emplois identifiés comme étant des dialectalismes.

Ainsi, l'article zigonner contient, à lui seul, dix emplois d'origine dialectale. Puisqu'il permet d'obtenir la liste des articles contenant des emplois d'origine spécifique, ce type de recherche est particulièrement intéressant pour constituer rapidement un sous-corpus en vue d'une étude spécialisée sur un thème, ou simplement pour choisir des exemples en vue d'illustrer une conférence, d'étoffer un cours, etc. On pourrait, par exemple, demander la liste des articles contenant des emplois d'origine amérindienne afin de déterminer les champs d'appartenance conceptuelle de ceux-ci (faune, flore, toponymie, etc.)

6.7. Articles contenant des marques d'usage spécifiques

On peut également effectuer une recherche visant à repérer les articles qui contiennent une marque d'usage en particulier. Ici aussi, le résultat pourra être visualisé dans l'un ou l'autre des formats d'affichage offerts par TACT: KWIC, Distribution, Window, Variable Context et Text. Par exemple, la Figure 15 montre, dans un format d'affichage KWIC, une partie des nombreux articles dans lesquels la marque d'usage "vieilli" est employée.

6.8. Fréquence des auteurs cités

Le jalon qui identifie les auteurs cités dans les articles (cf. Figure 5, <j Aut>) permet deux choses: établir la liste des ouvrages cités d'une part et, d'autre part, établir la liste des auteurs cités. Il peut donc servir à mesurer la fréquence avec laquelle un auteur ou un ouvrage est cité dans le dictionnaire et à guider, au besoin, une intervention pour rétablir un équilibre. La Figure 16 présente la liste des ouvrages qui sont cités plus de deux fois dans l'échantillon d'articles.

On constate ainsi qu'un ouvrage de Ducharme est cité à dix reprises dans l'échantillon d'articles. En choisissant un format d'affichage Variable Context, on obtiendra alors toutes les précisions nécessaires sur les références, comme le montre la Figure 17.

Le jalon d'auteur, tout comme les autres jalons, peut être ajouté à d'autres jalons (origine, marque d'usage, etc.), comme autant de critères pouvant être utilisés lors d'une recherche. Mais bien plus qu'un simple jeu d'association de critères de recherche, les jalons du corpus d'articles du DFQ procurent à l'équipe du TLFQ les outils nécessaires, et longtemps attendus, avec lesquels elle peut désormais interroger le dictionnaire au fur et à mesure de son élaboration.

7. Conclusions

La micro-informatique ne cesse de révolutionner la discipline lexicographique en créant des conditions extrêmement favorables au renouvellement de la pratique dictionnairique. L'entreprise du TLFQ consiste principalement à produire un dictionnaire, mais au-delà de cet objectif concret, dont la réalisation permettra enfin de disposer d'une explication d'ensemble des traits caractéristiques du lexique québécois, le but visé est de créer une véritable infrastructure de recherche sur le lexique et de constituer ainsi une base scientifique pour la lexicographie du français en Amérique du Nord. De ce point de vue, le Dictionnaire du français québécois constitue déjà un apport, même avant sa publication: il s'agit de la première base de données dictionnairiques du français québécois.

On a illustré ci-dessus quelques-unes des recherches qui peuvent être réalisées sur cette base de données à l'aide du logiciel d'exploitation TACT. Ces recherches avaient été planifiées depuis longtemps et certaines d'entre elles étaient effectivement possibles avant l'arrivée de TACT. Mais, ce qu'il y a de nouveau, c'est la facilité avec laquelle toutes ces recherches peuvent maintenant s'effectuer à partir d'un simple micro-ordinateur et le nombre incroyable des possibilités d'exploitation offertes. Les rédacteurs du Dictionnaire du français québécois pourront sous peu -- puisque le système est encore en rodage -- lire le texte de l'ouvrage qu'ils rédigent avec des yeux nouveaux. L'ordinateur vient en effet de rendre possible une vue en plusieurs dimensions du texte du dictionnaire. Grâce à cet apport de l'informatique, ils seront en mesure de mieux gérer leur discours de lexicographes et de dégager des synthèses au fur et à mesure que l'ouvrage prendra forme. Selon l'opposition proposée par B. Quemada, de la dictionnairique, qui est une pratique axée sur la production concrète d'un ouvrage, on revient donc à la lexicographie, discipline dont l'horizon est plus large et qui est une des branches de la lexicologie.

[Retour à la table des matières]


Notes

[3] Tous les exemples de recherches mentionnés dans cet article portent, à moins d'indication contraire, sur un échantillon de 205 articles répartis entre les lettres A et Z de la nomenclature du DFQ.

[4] TACT -- comme plusieurs autres logiciels d'analyse de bases de données textuelles -- offre la possibilité de regrouper des formes en créant des Groupes. Ces groupes peuvent ensuite être utilisés dans une recherche. Insérer un groupe dans une requête revient ainsi à chercher chacune des formes réunies dans ce groupe sans avoir à les inscrire dans la formule. Ici, par exemple, toutes les formes verbales du verbe bâtir seraient rassemblées dans le groupe @bâtir.