CHWP B.13 Tompa, "Experiences with the OED"

Abstract

According to the Oxford English Dictionary, a dictionary can be either "a book dealing with the individual words of a language..." or "a repository of knowledge, convenient for consultation". An effective dictionary database must serve both roles simultaneously; that is, it must be capable of answering precise questions about the written dictionary text as well as the language described by that text.

An effective representation for the OED has been based on the recent text structuring technique known as 'descriptive markup', which introduces tags into a text stream. Thus, dictionary components are explicitly identified and delimited, so that, for example, an entry is marked by <E>...</E>, an etymology by <ET>... </ET>, a usage label by <LB>...</LB>, and a cited work by <W>...</W>.

The most visibly successful aspect of our research is embodied in the flexible and efficient search and display software. LECTOR is a general-purpose browser that takes as input a stream of tagged text and formats it to the screen using typography to illustrate its structure. It uses a specially-designed formatting, or display-specification, language to accomplish this, through which the choice of typographical strategies is user-selectable. As a complementary software component, efficient retrieval is provided by the PAT text search engine. Each entry in the search index designates a 'semi-infinite' string that starts at a critical point in the text (e.g. at a word start) and continues uninterruptedly to the end of the text. Text regions (e.g. those representing individual dictionary components) can be specified to limit the scope of material being searched or displayed. Used together, PAT and LECTOR form a powerful query facility for text databases.

Examples drawn from our experiences with researchers and casual visitors illustrate the application of these tools to exploring the OED.


Résumé

Selon l'Oxford English Dictionary, un dictionnaire peut être, soit "un livre traitant les mots individuels d'une langue...", soit "un répertoire de savoir, commode à consulter". Une base dictionnairique efficace doit remplir les deux fonctions à la fois; c'est-à-dire, elle doit être capable de répondre à des questions précises concernant le texte imprimé aussi bien que la langue décrite par le texte.

Une représentation efficace de l'OED a été basée sur la récente technique de structuration textuelle connue sous le nom de 'descriptive markup' ('encodage descriptif'), lequel introduit des jalons dans la linéarité du texte. De cette façon, les composants dictionnairiques sont explicitement identifiés et délimités; ainsi, par exemple, une adresse est signalée par <E>...</E>, une étymologie par <ET>... </ET>, une marque d'usage par <LB>...</LB>, un ouvrage cité par <W>...</W>.

L'aspect de nos recherches qui connaît le succès le plus visible réside dans le logiciel, souple et efficace, de recherche et d'affichage, LECTOR. Celui-ci, un 'balayeur' (browser) générique, reçoit en entrée une chaîne de texte référencé et la met en forme pour affichage sur écran en se servant de types de caractères différents illustrant la structure du texte. Il utilise pour cela un langage de formatage spécifique au moyen duquel l'usager peut choisir le mode d'affichage qui lui convient. Complément de LECTOR, PAT est le logiciel de recherche qui assure une extraction efficace des données. Chaque entrée de l'index de recherche désigne une chaîne 'semi-infinie' qui commence à un point critique du texte (un début de mot, par exemple) et continue sans interruption jusqu'à la fin du texte. Des régions textuelles (par exemple, celles représentant des composants dictionnairiques individuels) peuvent être spécifiées afin de limiter le volume de texte à explorer ou à afficher. Utilisés ensemble, PAT et LECTOR forment un outil puissant pour l'interrogation des bases textuelles.

L'application de cet outil à l'OED sera illustrée à partir d'exemples tirés de notre expérience avec des chercheurs et des visiteurs occasionnels.

[Return / Retour au texte]