Korpuslinguistik

Dieser Artikel oder Abschnitt bedarf einer grundsätzlichen Überarbeitung. Näheres sollte auf der Diskussionsseite angegeben sein. Bitte hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Die Korpuslinguistik ist ein Bereich der Linguistik, in dem theoretische Aussagen über Sprache oder einzelne Sprachen anhand von quantitativen oder qualitativen Daten aus Korpora gewonnen oder überprüft werden. Es ist nach wie vor umstritten, ob es sich bei der Korpuslinguistik um einen eigenen Zweig der Linguistik oder um eine Methode handelt.

Grundlage

Gegenstand der Korpuslinguistik ist die Sprache in ihren verschiedenen Erscheinungsformen. Die Korpuslinguistik ist dabei durch den Bezug zu einem bestimmten Datentyp charakterisiert, nämlich authentische Sprachdaten, die in großen Korpora dokumentiert sind. Bei Korpora handelt es sich um Sammlungen von Äußerungen, die mit einer bestimmten Methode und mit einem bestimmten Forschungsziel zusammengestellt wurden. Die Texte sind natürliche Äußerungen einer Sprache. Diese Äußerungen können entweder schriftlich entstanden sein oder es kann sich um spontane oder elizitierte gesprochene Sprache handeln. Die meisten Korpora liegen heute digitalisiert vor und sind und über bestimmte Software für die linguistische Recherche nutzbar.

Ziel der Korpuslinguistik ist es, anhand dieser Daten entweder bestehende linguistische Theorien zu überprüfen (bestätigen oder falsifizieren) oder durch explorative Datenanalyse neue Hypothesen und Theorien über den Gegenstand zu gewinnen. Man spricht im ersten Fall von korpusgestützter linguistischer Analyse und im zweiten Fall von korpusbasierter linguistischer Analyse.

Ein bedeutendes methodisches Problem der Korpuslingustik ist das Verhältnis der Datenbasis, also des Korpus, zum untersuchten Gegenstand. Die Datenbasis kann den Gegenstand komplett abdecken, wenn es sich um eine heute noch verwendete Sprache handelt. Auch kann man ein Korpus nicht als eine im Sinne der schließenden Statistik valide Stichprobe betrachten, da der Gegenstand, auf den sich die Stichprobe bezieht, als Ganzes gar nicht erfassbar ist. Man behilft sich heute damit, ein Korpus nicht mehr als repräsentativ im statistischen Sinne für den untersuchten Gegenstand zu bezeichnen und Erkenntnisse, die auf Grund von Korpora gewonnen werden, lediglich als vorläufig plausibel zu betrachten. Je mehr Evidenz aus unabhängigen Quellen für eine Hypothese gewonnen werden kann, um so stärker wird diese Hypothese. Sie kann aber auf Grund von Korpusdaten weder verifiert noch falsifiert werden.

Der Schwerpunkt korpuslinguistischer Untersuchungen liegt auf der Performanz der Sprecher gelegt, die Urheber der im Korpus gesammelten Äußerungen sind, nicht auf deren Kompetenz (vgl. Noam Chomsky). Eine methodische Grundannahme der der Korpuslinguistik ist es, dass nicht-triviale Erkenntnisse über Sprache anhand von realen sprachlichen Äußerungen gewonnen oder überprüft werden können. Diese Grundannahme muss sich gegen zwei weitere methodische Probleme oder Einwände behaupten. Das erste Problem ist das der irreführenden positiven Evidenz. In spontanen gesprochenen und sogar in überlegt formulierten schriftsprachlichen Äußerungen können mehr oder wenige subtile Abweichungen von der sprachlichen Norm vorkommen. Es ist im Einzelfall schwierig zu entscheiden, ob eine (meist kleine) Menge von Korpusbelegen eine linguistische These stützen oder verwerfen kann oder ob man sie als normabweichenden bzw. fehlerhaften Sprachgebrauch ansehen muss. Das zweite Problen ist das der negativen Evidenz. Viele theoretisch interessante Aussagen zu sprachlichen Phänomene lassen sich selbst in sehr großen Korpora nicht belegen, da der Gebrauch der korrespondierenden sprachlichen Konstruktionen sehr selten ist. Aus dem Nichtvorhandensein dieser Konstruktionen lässt sich aber nicht sicher schließen, dass das entsprende Phänomen ungrammatisch ist. Im ersten Fall kann man Ergebnisse, die durch Korpusanalyse gewonnen wurden, durch eine parallele Sprecherbefragung zu stützen versuchen. Im zweiten Fall hilft nur die Untersuchung weiterer Daten oder, als ultima ratio, ebenfalls eine Sprecherbefragung.

Korpuslinguistik beschäftigt sich mit natürlichen Sprachen, nicht mit Formalen. Sie untersucht zum Beispiel diachrone Unterschiede zwischen verschiedenen Sprachstufen des Deutschen. Aber auch für synchrone Erhebungen ist die Methode gut nutzbar. So wurden verschiedene aktuelle (seit den 1960er Jahren) Erhebungen genutzt, um aktuelle Forschung und gesellschaftlich wichtige Arbeit zu befruchten. Die Linguistiker des BKA nutzen Online-Korpora für die Analyse von Erpresserbriefen und Straftaten, bei denen nur die Stimme zur Identifizierung des Täters dient.

Korpuslinguistik und angewandte Informatik

Der heutige Stand der Korpuslinguistik wurde erst durch elektronische Datenverarbeitung möglich, da enorme Datenmengen bearbeitet werden müssen, um zu statistisch tragbaren Aussagen über komplexe Zusammenhänge zu gelangen. Um beispielsweise Aussagen über die Nachbarschaft (Kollokation bzw. Kookkurrenz) zweier Wörter machen zu können (Bsp. Heißt es *der Auto, *die Auto oder das Auto?), müssen diese Wortpaare erst einmal häufig genug im Korpus enthalten sein, damit ein falsch positiver Eintrag ("die, die Auto fahren") nicht zu einer insgesamt falschen Aussage führt. Eine Anwendung aus der Zeit vor dem Computer, die heute der Korpuslinguistik zugerechnet werden kann, ist die Konkordanz.

Auch heute noch stellen viele Anwendungen der Korpuslinguistik selbst leistungsfähige Computer vor Herausforderungen. Dies ist ein Grund dafür, dass einige Textverarbeitungen in neuen Versionen auf alten Computern langsamer laufen als ihre Vorgängerversionen, da sie Elemente der Korpuslinguistik für ihre Rechtschreib- und Grammatikprüfung integrieren.

Geschichte und Anwendungsgebiete

Da die Flexion von Wörtern im Englischen heute nur noch für wenige Fälle genutzt wird, genügen kleinere Textkorpora eher als für viele andere Sprachen: Während das Englische mit den Wörtern house, house's, houses und houses' auskommt, muss im Deutschen ein Zusammenhang zwischen Haus und seinen flektierten Formen wie Häuser, Hauses, Hause, Häusern erst hergestellt werden. Dies ist, neben einer allgemeinen Tendenz zur angewandten Forschung im anglo-amerikanischen Raum ein Grund, weshalb sich die Anwendung von Computern für die Korpuslinguistik dort zuerst entwickelt hat.

Computerbasierte Korpuslinguistik wurde 1967 von Henry Kucera und Nelson Francis durch ihr Werk Computational Analysis of Present-Day American English begründet, in dem sie das Brown Corpus diversen rechnergestützten Analysen unterziehen und die linguistischen, psychologischen, statistischen und soziologischen Aspekte der Ergebnisse diskutieren.

Das Brown Corpus wurde von denselben Forschern an der Brown University gesammelt und schon 1964 veröffentlicht. Es enthält fünfhundert, 1961 erschienene Texte in fünfzehn Kategorien mit zusammen etwa einer Million Wörtern. Es war das erste allgemeine und computerlesbare Korpus und gilt, obwohl es heute teilweise veraltet ist, durch seine prägende Wirkung auf andere Korpora immer noch als eines der wichtigsten überhaupt.

Die Korpuslinguistik wurde zuerst zur Entwicklung von Wörterbüchern, namentlich des American Heritage Dictionary (1969) genutzt, die von da an nicht nur präskriptive Beschreibungen (wie soll ein Wort benutzt werden), sondern auch deskriptive (wie wird ein Wort tatsächlich benutzt) enthielten. Zudem kann durch Worthäufigkeitsstatistiken die Relevanz von Einträgen zum Beispiel für zweisprachige Wörterbücher oder Lernerwörterbücher quantitativ ermittelt werden. Ein deutsches Online-Wörterbuch, das mit Mitteln der Korpuslinguistik erstellt wurde, ist das Wortschatzlexikon der Universität Leipzig. Es enthält eine Reihe anderer Angaben und Möglichkeiten gegenüber "normalen" Wörterbüchern. So kann man Assoziationsgrafen anzeigen und die relative Häufigkeit eines Wortes ermitteln. Durch Auswertung von Tageszeitungen wird eine Wortliste mit "Wörtern des Tages" erstellt.

Weitere Anwendungsgebiete sind der Aufbau von semantischen Netzen und damit die Sortierung von Texten oder des Wortschatzes (zur Suche nach Synonymen, Antonymen oder sinnverwandten Wörtern und damit als automatisch erzeugter Thesaurus). Mehrsprachige Korpora können zur (teil-)automatischen Übersetzung oder für vergleichende Betrachtungen der Sprachen genutzt werden.

Methode, nicht Wissenschaft

Streng genommen stellt die Korpuslinguistik eher eine Technik oder eine neue Methode als eine neue linguistische Teildisziplin dar. Die einzelnen Wissenschaftler, die Erkenntnisse mit der Methode gewinnen, kommen meistens aus vielen verschiedenen Teilgebieten der Linguistik. Sehr nützlich erweist sich die Methode für die Dialektologie, da viele Korpora Daten zur diatopischen Verteilung der sprachlichen Äußerung haben. Korpuslinguistischer Methoden bedient sich zum Beispiel die Statistische Linguistik oder die Computerlinguistik. Der enorme Status-Wechsel der Korpuslinguistik wurde erst ermöglicht durch die Verfügbarkeit großer Mengen an elektronischen Texten, verbunden mit dem leichten Zugang zu Computern und den Möglichkeiten des Internets.

Korpuslinguistik (Empirismus) vs. traditioneller Ansatz (Rationalismus)

Die Korpuslinguistik ist eine induktive/empirische Methode zum Gewinn von Wissen über die Sprache: Man stellt eine Theorie auf nach der Beobachtung von möglichst vielen Einzelbeispielen. Sie steht damit in direktem Wettbewerb zu der deduktiven Methode, die bis dato praktisch die einzig gültige (und mögliche) in der Linguistik war, und sich aus der philosophischen Tradition der Linguistik herleitet: Der Wissenschaftler überlegt sich, wie Sprache aufgebaut ist, und versucht danach, in mehreren Sprachen Beispiele für seine Überlegung zu finden.

Dieser Ansatz liegt auch sämtlichen Theorien des "Sprachwissenschaft-Papstes" Noam Chomsky zugrunde. Er hat sich bereits klar gegen den Einsatz von korpuslinguistischen Methoden in der Linguistik ausgesprochen.

Noam Chomsky unterschied bei seinen Untersuchungen zwischen "E-Language" (der Menge der grammatisch korrekten Sätze) und "I-Language" (deren Repräsentation im menschlichen Sprachzentrum). Dabei konzentrierte er sich mehr und mehr auf letztere und stellte fest, dass für deren Untersuchung Textkorpora nicht geeignet sind. Er konzentrierte sich daher auf kurze Texte, die unter Laborbedingungen aus von Muttersprachlern gewonnenen Textproben erforscht wurden. Für seine Untersuchungen der I-Language schloss Chomsky die Korpuslinguistik als irrelevant aus. Die Textlinguistik dagegen erforscht nur die E-Language (in Chomskys Terminologie). Beide betrachten also grundlegend unterschiedliche Teilbereiche der Linguistik. Die Korpuslinguistik verzichtet auf die Betrachtung des Unterschieds zwischen Sprachkompetenz und -performanz, den Chomsky für wesentlich hält.

Der Streit zwischen Korpuslinguistik und traditioneller Linguistik ähnelt dem Streit zwischen Evidenzbasierter Medizin und traditioneller Medizin. Auch dort haben computergestützte Methoden den empirischen Nachweis von vorher eher glaubensbasierten Erkenntnissen leichtergemacht.

Siehe auch

Linguistik, Künstliche Intelligenz, Maschinenlernen, Data-Mining, Komplexität (Informatik)

Literatur

Duffner, Rolf / Näf, Anton (2006): Digitale Textdatenbanken im Vergleich. In: Linguistik Online 28. S, 7-23.
Fiehler, Reinhard / Wagener, Peter (2005): Die Datenbank Gesprochenes Deutsch (DGD). In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion 6. S, 136-147.
Köhler, Reinhard (2005): Korpuslinguistik. Zu wissenschaftstheoretischen Grundlagen und methodologischen Perspektiven. In: LDV-Forum 20/2. S, 1-16. [www.ldv-forum.org].
Kallmeyer, Werner / Zifonun, Gisela (Hgg.) (2007): Sprachkorpora – Datenmengen und Erkenntnisfortschritt. Berlin, New York: de Gruyter. (=IDS Jahrbuch 2006).
Lemnitzer, Lothar / Zinsmeister, Heike (2010): Korpuslinguistik. 2., überarbeitete Auflage. Tübingen: Gunter Narr Verlag.
Scherer, Carmen (2006): Korpuslinguistik. Heidelberg: Winter (Kurze Einführungen in die germanistische Linguistik 2).
McEnery,Tony / Wilson, Andrew (2001): Corpus linguistics: an introduction. 2. ed. Edinburgh University Press 2001. ISBN
McEnery, Tony/ Xiao, Richtard / Toni, Yukio (2006): Corpus-Based Language Studies: An advanced resource book. New York:Routledge. Hardcover, ISBN 0415286220 (0-415-28622-0)
Wagener, P. / Bausch, K.-H. ( Hgg.) (1997): Tonaufnahmen des gesprochenen Deutsch. Dokumentation der Bestände von sprachwissenschaftlichen Forschungsprojekten und Archiven. Tübingen: Niemeyer. (= Phonai Band 40).

Einzelnachweise

Weblinks

Lernmodul über Korpuslinguistik bei der Universität Bielefeld
Korpuslinguistik und große einsprachige Wörterbücher - Artikel von Uwe Quasthoff & Christian Wolff (Leipzig)
Wortschatzlexikon der Universität Leipzig - mit Mitteln der Korpuslinguistik erstellt
Digitales Wörterbuch der Deutschen Sprache - erstellt auf Basis eines ausgewogenen Textkorpus, Berlin-Brandenburgische Akademie der Wissenschaften
Deutsches Referenzkorpus - größtes Korpusarchiv zur deutschen Schriftsprache der Gegenwart, recherchierbar über COSMAS II
Schweizer Textkorpus - im Entstehen
Assoziationsgraf für "Moore"
Korpora und Korpuslinguistik - Online-Kapitel der Magisterarbeit von Marco Zierl zu einigen Grundbegriffen der Korpuslinguistik
http://tiny.cc/corpora - Linksammlung von David Lee zu verschiedenen Korpora sowie korpuslinguistischen Arbeiten und Lehrmaterialien (vormals devoted.to/corpora)
Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge - Online-Kurs von Noah Bubenhofer
Umfassende, ergänzende Website zum Buch "Corpus Linguistics" von Tony McEnery und Andrew Wilson

Abgerufen von „https://de.wikipedia.org/w/index.php?title=Korpuslinguistik&oldid=74976116"