(Stand: 8.6.12)
Inhalt
0. Forschungsaufgaben
1. Kurze
Darstellung des Goettinger Projekts zur Quantitativen Linguistik
2. "Fuehrer" zur
Sprachstatistik des Deutschen
3. Principles for Word Length Count
0. Forschungsaufgaben
Strauss, Udo, Fan, Fengxiang, & Altmann, Gabriel (2008). Problems in Quantitative Linguistics 1. Luedenscheid: RAM-Verlag.
Forschungsprojekt:
Quantitative Gesetzmaessigkeiten in Sprachstruktur, Sprachverwendung
und Sprachwandel
Ausgehend von der
Annahme,
dass Sprachgesetze in der Regel stochastischer Natur sind und nur in
Sonderfaellen
mit ausnahmslos sich durchsetzenden (deterministischen) Gesetzen zu
rechnen
ist, wird versucht, diese - nicht unmittelbar beobachtbaren, sondern
latenten
- Gesetzmaessigkeiten der Sprachstruktur und -verwendung und ihrer
Dynamik in einigen ausgewaehlten
Bereichen zu erforschen. Im Zentrum des Interesses standen lange Zeit
Untersuchungen
zu Haeufigkeitsverteilungen von Wort- und Satzlaengen und von Wortarten
in verschiedenen Textsorten und Sprachen. Inzwischen sind weitere
sprachliche
Entitaeten (Morphlaengen, Laenge rhythmischer Einheiten und Silben)
ebenfalls untersucht worden, ebenso wie auch andere
Gesetzmaessigkeiten, darunter die Zipf-Mandelbrot-Verteilung, das
Menzerath-Altmann-Gesetz, das Textblock-Gesetz (n. Zwirner, Zwirner und
Frumkina), das Wortschatzwachstum in Texten u.a. Ausserdem wird
weiterhin
an ausgewaehlten Aspekten des Sprachwandels, besonders des Deutschen,
gearbeitet. In diesem Zusammenhang werden in erheblichem Umfang
Entlehnungsprozesse, aber auch Diversifikation, Entwicklung
und Verfall des Wortschatzes untersucht und modelliert. Es hat sich
außerdem gezeigt,
dass der Erwerb des Wortschatzes im muttersprachlichen Spracherwerb den
gleichen Gesetzen folgt wie der Sprachwandel. Ein weiterer Aspekt
sind Ueberlegungen zur Messbarkeit von Lesbarkeit und Verstaendlichkeit
der Texte.
Die Untersuchungen
finden im Rahmen einer internationalen Bemuehung um eine Neufundierung
der Sprachtheorie statt, die sich u. a. an Chaostheorie und Synergetik
orientiert. Ziel der Untersuchungen ist es, am Aufbau einer
Sprachtheorie
mitzuwirken, die auf einem System von Gesetzen und Hypothesen beruht,
und
damit die Voraussetzung für Erklaerungen und Prognosen in der
Linguistik
zu schaffen. Ein wesentlicher Aspekt ist in diesem Zusammenhang die
Verbesserung
der empirischen Grundlagen durch Einbeziehung moeglichst vieler
Sprachen
und Erweiterung der Datenbasis innerhalb der einzelnen Sprachen durch
eine
moeglichst grosse Streuung der Daten nach Entwicklungsphasen,
Textsorten,
Autoren, Stilen, etc. Dabei fallen auch statistische Daten zu allgemein
interessierenden Themen an, ohne dass sie das eigentliche Ziel der
Arbeit darstellen. Um ein paar Beispiele zu nennen: Wie gross ist
der Anteil lateinischer, franzoesischer, englischer und weiterer
Entlehnungen am deutschen Wortschatz? Wie viele Woerter beherrscht
ein Kind normalerweise in einem bestimmten Alter? Wie hat sich die
Satzlaenge in deutschen Texten in den letzten 200 Jahren
entwickelt? Etc.
Wer sich einen ersten Einblick verschaffen will, kann zu folgenden Arbeiten greifen:
Best, Karl-Heinz
(Hrsg.).
1997. Glottometrika 16. The Distribution of Word
and Sentence Length. Trier:
Wissenschaftlicher Verlag Trier.
Best, Karl-Heinz.
1999. Quantitative Linguistik: Entwicklung, Stand und Perspektive. Goettinger
Beitraege zur Sprachwissenschaft 2,
7-23.
Best, Karl-Heinz.
2001. Probability Distributions of Language Entities. Journal of
Quantitative
Linguistics 8, 1-11.
Best, Karl-Heinz.
2001. Wo kommen die deutschen Fremdwoerter her? Goettinger
Beitraege
zur Sprachwissenschaft 5, 7-20.
Best,
Karl-Heinz (Hrsg.).
2001. Haeufigkeitsverteilungen in Texten. Goettingen: Peust
&
Gutschmidt.
Best, Karl-Heinz. 2003. Anglizismen -
quantitativ. Goettinger Beitraege
zur
Sprachwissenschaft
8, 7-23.
Best,
Karl-Heinz. 2006. Quantitative
Linguistik - Eine Annaeherung. 3., stark ueberarbeitete und ergaenzte
Auflage. Goettingen: Peust & Gutschmidt.
Best, Karl-Heinz.2006.
Italianismen im
Deutschen. Goettinger Beitraege zur
Sprachwissenschaft 13, 77-86.
Best,
Karl-Heinz,
& Kohlhase, Joerg (Hrsg.) 1986. Exakte Sprachwandelforschung.
Goettingen: edition herodot.
2. "Fuehrer" zur
Sprachstatistik des Deutschen
Unter Sprachstatistik koennen wir jede statistische Erhebung zu
sprachlichen Phaenomenen verstehen; Quantitative Linguistik dagegen
versucht, nicht nur Daten zu erheben, sondern diese zur Grundlegung
einer Sprachtheorie zu verwenden, indem sie stochastische Gesetze zu
entwickeln sucht.
Sprachstatistik wird oft nur als Statistik der Sprachen verstanden,
also als Uebersicht darueber, wie viele Sprachen es gibt, wie viele
Sprecher sie verwenden, etc. Hier sollen darunter aber alle Arbeiten
verstanden werden, die statistische Erhebungen zu sprachlichen
Phaenomenen beliebiger Art durchfuehren. Es folgen Hinweise, die sich
hauptsaechlich auf das Deutsche beziehen.
Angaben zur Verteilung der
Sprachen auf
die Kontinente und zur Sprecherzahl der 12 groessten Sprachen findet
man
auf S. 12f. in
Haarmann, Harald. 2001. Kleines
Lexikon der Sprachen. Von Albanisch bis
Zulu. Muenchen: Beck.
Tab. 1: Die Sprachen mit den
meisten Sprechern (n. Haarmann 2001: 13)
Angaben zur Sprecherzahl auch der kleineren Sprachen findet man
ebenfalls in Haarmann (2001), aber auch in
Voegelin, C.F., & Voegelin, F.M. 1977. Classification and Index of
the World’s Languages. New York/ Oxford/ Amsterdam: Elsevier.
Bevoelkerung in Deutschland (n.
Brockhaus Multimedia 2004)
Deutschland hatte 2001 82441 Mill. Einwohner, davon 7.32 Mill. = 8.9% Auslaender; ferner sind als nationale/ ethnische Minderheiten zu nennen (im Internet ermittelt): Daenen (ca 50000 Sprecher), Friesen (Saterfriesen: 1000-2500, Nordfriesen 10000), Sorben (20000-30000), Sinti und Roma (80000-120000, darunter Sinti: ca 70000). Bisher nicht anerkannte Minderheit: die Jenischen (ca 200000 Sprecher; Mischsprache aud deutscher oder keltischer Basis, Lexik dt., hebraeisch, keltisch beeinflusst). Die 7.32 Mill. Auslaender verteilen sich wie folgt:
Tab. 2: Die Bevoelkerungsanteile der Auslaender in Deutschland
Statistische
Erhebungen zum Deutschen
Die bekanntesten sprachstatistischen Erhebungen sind wohl die
Haeufigkeitswoerterbuecher, in denen der deutsche Wortschatz nach
seiner
Frequenz geordnet aufgefuehrt wird:
Frequenzwoerterbuecher
Kaeding, Friedrich Wilhelm. (Hrsg.). 1897/98. Haeufigkeitswoerterbuch der
deutschen Sprache 1, 2. Berlin-Steglitz: Selbstverlag
(Teilreprint in:
Grundlagenstudien aus Kybernetik und Geisteswissenschaft 4/ 1963.
Beiheft)
Meier, Helmut. ²1967. Deutsche
Sprachstatistik. 2., erw. u. verb. Aufl.
Hildesheim: Olms.
Rosengren, Inger. 1972/77. Ein
Frequenzwoerterbuch der deutschen
Zeitungssprache. Bd. 1,2. Lund: Gleerup.
Ruoff, Arne. 1981. Haeufigkeitswoerterbuch
gesprochener Sprache.
Tuebingen: Niemeyer.
Waengler, Hans-Heinrich. 1963. Rangwoerterbuch
hochdeutscher
Umgangssprache. Marburg: Elwert.
(vgl. auch: Haeufigkeitslisten zu versch. Sprachen in: Statistika reci
i
avtomaticeskij analiz teksta. Leningrad: “Nauka” 1971)
So etwas wie ein statistisches Handbuch des Deutschen scheint es nicht
zu geben. Einem solchen Werk kommt
Meier, Helmut. ²1967. Deutsche
Sprachstatistik. 2., erw. u. verb. Aufl.
Hildesheim: Olms
am ehesten nahe. Es ist aber nicht nur veraltet, sondern es gibt auch
auf viele Fragen keine Antwort. Das Frequenzwoerterbuch ist Juni 1953
im
Mskr. fertiggestellt worden (2. Bd., Vorwort). Eine ganze Reihe von
Statistiken zum Deutschen sind in Bd. 1 (beide Bde. in einem Band)
enthalten. Kap. VI behandelt etliche grammatisch-stilistische Themen.
Einiges dazu findet man verstreut meist in Fussnoten auch in
Grammatiken
und sonstigen Handbuechern:
Ranghaeufigkeitsverteilungen von
Woertern in Texten
Altmann, Gabriel. 1988. Wiederholungen
in Texten. Bochum: Brockmeyer.
S. 73.
Best,
Karl-Heinz. 2006. Quantitative
Linguistik - Eine Annaeherung. 3., stark ueberarbeitete und ergaenzte
Auflage. Goettingen: Peust & Gutschmidt.
S. 77-81.
Wortartenhaeufigkeiten
Best, Karl-Heinz. 1994. Word class frequencies in contemporary German
short prose texts. Journal of
Quantitative Linguistics 1, 144-147.
Best, Karl-Heinz. 2000. Verteilungen der Wortarten in Anzeigen.
Goettinger Beitraege zur
Sprachwissenschaft 4, 37-51.
Best, Karl-Heinz. 2001. Zur Gesetzmaessigkeit der Wortartenverteilungen
in deutschen Pressetexten. Glottometrics
1, 1-26.
Haeufigkeit von Varianten sprachlicher
Entitaeten (Diversifikationsgesetz)
Modelle fuer die Verteilung sprachlicher Einheiten
unterschiedlicher Komplexitaet in Texten und im System finden
sich zu:
Laenge rhythmischer Einheiten
Best, Karl-Heinz. 2002. The Distribution of Rhythmic Units in German
Short Prose. Glottometrics 3,
136-142.
Morphlaengen
Best, Karl-Heinz. 2000. Morphlaengen in Fabeln von Pestalozzi. Goettinger
Beitraege zur Sprachwissenschaft 3, 19-30.
Best, Karl-Heinz. 2001. Zur Laenge von Morphen in deutschen Texten. In:
Best, Karl-Heinz (Hrsg.), Haeufigkeitsverteilungen
in Texten (S. 1-14).
Goettingen: Peust & Gutschmidt.
Satzlaengen (Haeufigkeit und
Entwicklung) vgl.
Best, Karl-Heinz. 2002. Satzlaengen im Deutschen: Verteilungen,
Mittelwerte, Sprachwandel. Goettinger
Beitraege zur Sprachwissenschaft 7,
7-31.
Silbenlaengen
Best, Karl-Heinz. 2001. Silbenlaengen in Meldungen der Tagespresse. In:
Best, Karl-Heinz (Hrsg.), Haeufigkeitsverteilungen
in Texten (S. 15-32).
Goettingen: Peust & Gutschmidt.
Cassier, Falk-Uwe. 2001. Silbenlaengen in Meldungen der deutschen
Tagespresse. In: Best, Karl-Heinz (Hrsg.), Haeufigkeitsverteilungen in
Texten (S. 33-42). Goettingen: Peust & Gutschmidt.
Wortlaengen (Verteilungen in Texten
und
im Lexikon)
Best, Karl-Heinz. 2001. Wortlaengen in Texten gesprochener Sprache.
Goettinger Beitraege zur
Sprachwissenschaft 6, 31-42.
Best,
Karl-Heinz. 2006. Quantitative
Linguistik - Eine Annaeherung. 3., stark ueberarbeitete und ergaenzte
Auflage. Goettingen: Peust & Gutschmidt.
Best, Karl-Heinz. 2006. Wortlaengen im Deutschen. Goettinger Beitraege zur
Sprachwissenschaft 13, 23-49.
Gerade zu diesem Thema gibt es eine Vielzahl von
Untersuchungen zum
Deutschen, die in meiner Projektbibliographie (s. unten: Best 2001) und
im Internet (staendig aktualisiert) nachgewiesen sind.
Konstituenzprinzip
(Menzerath-Altmann-Gesetz): Es zeigt
sich immer wieder, dass
Je groesser eine Einheit ist, desto kleiner sind ihre Bestandteile
(Konstituenten).
Bibliographie
Best, Karl-Heinz. 2001. Kommentierte Bibliographie zum Goettinger
Projekt. In: Best, Karl-Heinz (Hrsg.), Haeufigkeitsverteilungen in
Texten (S. 284-310). Goettingen: Peust & Gutschmidt.
Kempgen, Sebastian. 1995. Russische
Sprachstatistik. Muenchen: Sagner.
Koehler, Reinhard. 1995. Bibliography
of quantitative linguistics.
Amsterdam: John Benjamins.
Vgl. auch die Neuerscheinungslisten in den Baenden der Reihe
Quantitative Linguistics sowie das Verzeichnis der
sprachwissenschaftlichen Schriften Gabriel Altmanns In: Viribus Vnitis.
Festschrift fuer Gabriel Altmann zum 60. Geburtstag (S. XIII-XVII).
Hrsg. v. Grotjahn, Ruediger, Kempgen, Sebastian, Koehler, Reinhard,
&
Lehfeldt, Werner. Trier: Wissenschaftlicher Verlag Trier.
Handbuch
Koehler, Reinhard, Altmann, Gabriel, & Piotrowski, Rajmund G.
(Hrsg.) (2005), Quantitative
Linguistik - Quantitative Linguistics. Ein
internationales Handbuch. Berlin/ N.Y.: de Gruyter.
3. Principles for word-length count
(Stand 24.3.97)
1. Words are defined as orthographic words.
2. Word length is measured in the number of syllables; syllables
are measured in the number of (spoken) vowels or diphthongs of
the word.
3. All words of a text must be taken into consideration, i.e. no
random samples from a text!!! We use full texts for good reasons.
No mixing of texts is allowed.
4. We take texts containing about 100-2000 words. If one
processes a novel then each chapter must be measured separately.
5. Abbreviations: UNESCO is 1 word with 3 syllables, german LKW
[elkave:] 1 word with 3 syllables. I.e.: number of syllables in
abbreviations and other forms the way they are pronounced.
6. Years: 1994 is in German "neunzehnhundert vierundneunzig": 2
words with length 4 and 4 syllables.
7. Other numerals: 1994 "tausend neunhundert
vierundneunzig": 3 words with length 2, 3, and 4 syllables.
8. The cooperators send us their data containing the
frequency distribution of word length in individual texts of an
author - we have rather more texts from one author than many individual
texts from different authors - and we try to find a theoretical model.
The data must be sent to us on a diskette (ASCII, DOS!), each
count (from a text) in separate file, containing nothing
but two columns: one for x (the length) and one for fx (frequency)
divided by one or more blanks, e.g.:
1 225
2 114
3 74
4 25
5 11
6 4
7 1
9. The cooperators obtain the results and can publish them
at will.
10. At least we prepare an omnibus volume in which all (published and
unpublished) data and models will be collected.
References