CHWP A.2 Burrows, "Numbering the streaks of the tulip?"

Abstract

Are statistical methods, which take randomness of data as their starting-point, appropriate to the study of something so highly systematic as the English language? The challenge seems justified by the non-random effects of context or semantics, transition, and recursion, despite the significant degree of unpredictability that remains. Yet valid statistical analysis often proceeds by assuming no such effects exist (the "null hypothesis"), then establishing whether they do. Furthermore, the postulate of randomness is not essential to descriptive statistics, which meets most of the requirements of computational stylistics.

The challenge may, however, have force in the area of predictive statistics, where the relationship between a specimen and a named population is in question -- and the notion of a random, representative sample is crucial. In answer, the author proposes the idea of specimens from a repertoire instead of the statistician's usual samples from a population, and looks forward to the establishing of a "grammar of probabilities" to replace the abstract postulate of randomness.


Résumé

Les méthodes statistiques, qui prennent comme point de départ l'aléatoire des données, conviennent-elles à l'étude d'un objet aussi hautement systématisé que la langue anglaise? Cette mise en question semble justifiée par les effets non aléatoires du contexte sémantique, de la transition et de la récursion, malgré l'important degré d'imprévisibilité qui reste. Pourtant, les analyses statistiques réputées présupposent l'absence de tels effets (hypothèse nulle) et ensuite en établissent la présence éventuelle. En outre, le postulat de l'aléatoire n'est pas essentiel à la statistique descriptive, qui satisfait à la plupart des exigences de la stylistique computationnelle.

L'objection peut, cependant, avoir une certaine force dans le domaine de la statistique prédictive, où il est question du rapport entre échantillon et population et où la notion d'un échantillon aléatoire et représentatif est crucial. Pour y répondre, l'auteur propose l'idée de spécimens pris dans un répertoire à la place des habituels échantillons prélevés sur une population du statisticien; il préconise aussi l'établissement d'une "grammaire des probabilités" qui remplacerait le postulat abstrait de l'aléatoire.

[Return / Retour au texte]