CHWP A.27 Santos & Fortier, “ Validating choices: Texts in the Trésor de la Langue Française

Abstract

The Trésor de la Langue Française (TLF) database was designed, and texts chosen for inclusion in it, in the late 1950s. This paper evaluates the choices of texts made by the TLF committee in the light of a contemporary encyclopaedia of French literature and of subsequent published research in the field of French literature, provided by the MLA (Modern Language Association) online bibliography. Spearman?s rank correlation coefficient, and outlier analysis based on Mahalanobis distance evaluate similarities in the sets of data. The conclusion is that the choices made in the mid-twentieth century were a reasonable reflection of scholarly interests both at the time the database was constituted, and subsequently up to the present. The method described in this paper is applicable to the evaluation of other full-text databases.


Résumé

C'était vers la fin des années 1950 qu'on a conçu le Trésor de la Langue Française (TLF), a sélectionné des textes pour y inclure et enfin l'a implanté. Dans cet article nous évaluons le choix de textes fait par le comité du TLF. Notre étalon de comparaison est formé d'une encyclopédie de la littérature française récente et de la bibliographie en ligne de la Modern Language Association (MLA), qui représente une compilation de la recherche publiées depuis par la critique littéraire. Pour évaluer la ressemblance entre les deux ensembles de données on se sert du coefficient de corrélation des rangs de Spearman et de l'analyse des observations aberrantes fondée sur la distance Mahalanobis. La conclusion est que le choix fait au milieu du 20e siècle était une réflexion raisonnable de l'orientation universitaire à l'époque de la réalisation de la base de données et également depuis ce temps, jusqu'au présent. La méthode décrite dans cet article peut s'appliquer à l'évaluation d'autres bases de données en texte intégral.

[Return / Retour au texte]