CHWP A.39 Wooldridge,  “The World Wide Web as a Linguistic Corpus”

Abstract

The largest electronic text database in existence, the World Wide Web, makes possible, for the first time and without any outlay of costly set-up or the expensive development of project-specific tools, the observation of current usage in a number of different languages. The Web asdatabase has also the enormous advantage over other language corpora of behaving like natural language: it is dynamic, unceasingly renewing itself and thus offering snapshots of the present state of the language, with its proportion of new, established and aging usage. The paper discusses the observation, since 1998, of French, including derivation, polysemy, homophony, syntagmatic variation and the genesis of new concepts and their linguistic naming. The language corpora observed are those of micro-systems — particular words, word families and lexical constructions — and not the macro-system of the language as a whole. The tools used in the observation are keywords and search engines, in particular Google.


Résumé

La plus grande base de données textuelles au monde, le Web, rend possible, pour la première fois et sans installation onéreuse ni développement coûteux d'outils spécifiques au projet, l'observation de l'usage linguistique courant dans un grand nombre de langues. Le Web comme base de données a aussi l'avantage énorme sur les autres corpus de se comporter comme la langue naturelle: il est dynamique — se renouvelant constamment et ainsi servant de source d'échantillons de la langue actuelle, avec une proportion représentative d'usages nouveaux, établis et vieillissants. Cet article rend compte des observations du français réalisées depuis 1998 et inclut la dérivation, la polysémie, l'homonymie, la variation syntagmatique et la genèse de concepts nouveaux et de leur dénomination linguistique. Les corpus observés sont ceux des microsystèmes — mots particuliers, familles lexicales et constructions lexicales —, et non pas ceux du macro-système de la langue en entier. Dans cette observation les outils dont on se sert sont les mots clés et les moteurs de recherches, en particulier Google.

[Return / Retour au texte]