„Computerlinguistik" – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Versionsgeschichte interaktiv durchsuchen
[gesichtete Version] [gesichtete Version]
← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →
Inhalt gelöscht Inhalt hinzugefügt
Zeile 40: Zeile 40:
{{Überarbeiten|grund=[[WP:WWNI|''Wikipedia ist keine Linksammlung.'']]|2=Dieser Abschnitt}}
{{Überarbeiten|grund=[[WP:WWNI|''Wikipedia ist keine Linksammlung.'']]|2=Dieser Abschnitt}}
=== Studiengänge ===
=== Studiengänge ===
Computerlinguistik wird an mehreren Hochschulen im deutschsprachigen Raum als eigenständiger Studiengang angeboten. In der deutschen Hochschulpolitik ist die Computerlinguistik als [[Kleines Fach]] eingestuft.<ref>{{Internetquelle |autor=(削除) Zentrum (削除ここまで) (削除) für (削除ここまで) (削除) Digitalität in den Geistes- und Kulturwissenschaften (削除ここまで) |url=https://kleinefaecher.de/ |titel=Portal Kleine Fächer |werk= |hrsg= |datum= |zugriff=2019-(削除) 01 (削除ここまで)-(削除) 31 (削除ここまで) |sprache=de}}</ref> Es sind Bachelor- wie auch Master-Studienabschlüsse<ref>{{Internetquelle |autor=StudiScan |url=https://www.studieren-studium.com/master/Computerlinguistik |titel=Master-Studium Computerlinguistik - 17 Master-Studiengänge |werk= |hrsg= |datum= |zugriff=2019年01月31日 |sprache=de}}</ref> möglich. Zu den bekanntesten Angeboten zählen die Studiengänge der [[Technische Universität München|Technischen Universität München]], [[Universität Bielefeld]], der [[Ruprecht-Karls-Universität Heidelberg]], der [[Ludwig-Maximilians-Universität München]], der [[Universität Potsdam]], der [[Universität des Saarlandes]] und der [[Universität Zürich]].
Computerlinguistik wird an mehreren Hochschulen im deutschsprachigen Raum als eigenständiger Studiengang angeboten. In der deutschen Hochschulpolitik ist die Computerlinguistik als [[Kleines Fach]] eingestuft.<ref>{{Internetquelle |autor=(追記) Arbeitsstelle (追記ここまで) (追記) Kleine (追記ここまで) (追記) Fächer (追記ここまで) |url=https://(追記) www. (追記ここまで)kleinefaecher.de/(追記) kartierung/kleine-faecher-von-a-z.html?tx_dmdb_monitoring%5BdisciplineTaxonomy%5D=26&cHash=016cd76da667e9ee63e6eefeb4acfbc4 (追記ここまで) |titel=(追記) Computerlinguistik auf dem (追記ここまで)Portal Kleine Fächer |werk= |hrsg= |datum= |zugriff=2019-(追記) 04 (追記ここまで)-(追記) 23 (追記ここまで) |sprache=de}}</ref> Es sind Bachelor- wie auch Master-Studienabschlüsse<ref>{{Internetquelle |autor=StudiScan |url=https://www.studieren-studium.com/master/Computerlinguistik |titel=Master-Studium Computerlinguistik - 17 Master-Studiengänge |werk= |hrsg= |datum= |zugriff=2019年01月31日 |sprache=de}}</ref> möglich. Zu den bekanntesten Angeboten zählen die Studiengänge der [[Technische Universität München|Technischen Universität München]], [[Universität Bielefeld]], der [[Ruprecht-Karls-Universität Heidelberg]], der [[Ludwig-Maximilians-Universität München]], der [[Universität Potsdam]], der [[Universität des Saarlandes]] und der [[Universität Zürich]].


=== Tagungen ===
=== Tagungen ===

Version vom 23. April 2019, 09:34 Uhr

In der Computerlinguistik (CL) oder linguistischen Datenverarbeitung (LDV)[1] wird untersucht, wie natürliche Sprache in Form von Text- oder Sprachdaten mit Hilfe des Computers algorithmisch verarbeitet werden kann. Sie ist Schnittstelle zwischen Sprachwissenschaft und Informatik. In der englischsprachigen Literatur und Informatik ist der Begriff Natural language processing (NLP) gebräuchlich.

Geschichte

Computerlinguistik lässt sich als Begriff (oder dessen Umschreibung) in die 1960er Jahre zurückverfolgen.[2] Mit den Anfängen der künstlichen Intelligenz war die Aufgabenstellung schon nahegelegt. Chomskys Syntactic Structures von 1957 präsentierte die Sprache in einem entsprechend passenden neuen formalen Gerüst. Hinzu kamen die Sprachlogiken von Saul Kripke und Richard Montague. Die teilweise aus dem US-Verteidigungsbudget sehr hoch geförderten Forschungen brachten jedoch nicht die erhofften Durchbrüche. Besonders die Koryphäen Chomsky und Weizenbaum dämpften die Erwartungen an Automatisierungen von Sprachübersetzung. Der Wende von behavioristischen Wissenschaftskonzeptionen zu mentalistischen (Chomsky) folgten umfassende Konzipierungen in den Kognitionswissenschaften.

In den siebziger Jahren erschienen zunehmend häufiger Publikationen mit dem Begriff Computerlinguistik im Titel. Es gab bereits finanziell aufwändige Versuche exegetischer Anwendungen (Konkordanzen, Wort- und Formstatistik), aber auch schon größere Projekte zur maschinellen Sprachanalyse und zu Übersetzungen. Die ersten Computerlinguistik-Studiengänge in Deutschland wurden an der Universität des Saarlandes und in Stuttgart eingerichtet. Die Computerlinguistik bekam mit der Verbreitung von Arbeitsplatzrechnern (PC) und mit dem Aufkommen des Internets neue Anwendungsgebiete. Im Gegensatz zu einer Internetlinguistik, die insbesondere menschliches Sprachverhalten und die darüber induzierten Sprachbildungen im und mittels Internet untersucht, entstand in der Computerlinguistik eine stärker informatisch-praktische Ausrichtung. Doch gab das Fach die klassischen philosophisch-linguistischen Fragen nicht ganz auf und wird heute in theoretische und praktische Computerlinguistik unterschieden.

Gegenwärtige Aufgabe der Computerlinguistik

„Computerlinguistik erforscht die maschinelle Verarbeitung natürlicher Sprachen. Sie erarbeitet die theoretischen Grundlagen der Darstellung, Erkennung und Erzeugung gesprochener und geschriebener Sprache durch Maschinen."

Universität München[3]

Das Saarbrücker Pipelinemodell

Computer sehen Sprache entweder in der Form von Schallinformation (wenn die Sprache akustisch vorliegt) oder in der Form von Buchstabenketten (wenn die Sprache in Schriftform vorliegt). Um die Sprache zu analysieren, arbeitet man sich schrittweise von dieser Eingangsrepräsentation in Richtung Bedeutung vor und durchläuft dabei verschiedene sprachliche Repräsentationsebenen. In praktischen Systemen werden diese Schritte typischerweise sequentiell durchgeführt, daher spricht man vom Pipelinemodell,[4] mit folgenden Schritten:

Spracherkennung
Falls der Text als Schallinformation vorliegt, muss er erst in Textform umgewandelt werden.
Tokenisierung
Die Buchstabenkette wird in Wörter, Sätze etc. segmentiert.
Morphologische Analyse
Personalformen oder Fallmarkierungen werden analysiert, um die grammatische Information zu extrahieren und die Wörter im Text auf Grundformen zurückzuführen, wie sie z. B. im Lexikon stehen.
Syntaktische Analyse
Die Wörter jedes Satzes werden auf ihre strukturelle Funktion im Satz hin analysiert (z. B. Subjekt, Objekt, Modifikator, Artikel, etc.).
Semantische Analyse
Den Sätzen bzw. ihren Teilen wird Bedeutung zugeordnet. Dieser Schritt umfasst potentiell eine Vielzahl verschiedener Einzelschritte, da Bedeutung schwer fassbar ist.
Dialog- und Diskursanalyse
Die Beziehungen zwischen aufeinander folgenden Sätzen werden erkannt: Im Dialog könnte das z. B. Frage ↔ Antwort sein, im Diskurs beispielsweise eine Aussage und ihre Begründung, oder eine Aussage und ihre Einschränkung.

Es ist allerdings nicht so, dass sämtliche Verfahren der Computerlinguistik diese komplette Kette durchlaufen. Die zunehmende Verwendung von maschinellen Lernverfahren hat zu der Einsicht geführt, dass auf jeder der Analyseebenen statistische Regelmäßigkeiten existieren, die zur Modellierung sprachlicher Phänomene genutzt werden können. Beispielsweise verwenden viele aktuelle Modelle der maschinellen Übersetzung Syntax nur in eingeschränktem Umfang und Semantik so gut wie gar nicht; stattdessen beschränken sie sich darauf, Korrespondenzmuster auf Wortebene auszunutzen.[5]

Beispiele für Probleme der Sprachverarbeitung

  • Auflösung syntaktischer Mehrdeutigkeiten. In einigen Fällen lässt sich ein Satz auf mehrere Arten analysieren und deuten. Die Richtige auszuwählen, erfordert manchmal semantische Information über den Sprechakt und die Intention der Sprecher, mindestens jedoch statistisches Vorwissen über das gemeinsame Auftreten von Wörtern.
    Beispiel: „Peter sah Maria mit dem Fernglas" – hier ist nicht zwangsläufig klar, ob Peter Maria gesehen hat, die ein Fernglas in der Hand hielt, oder ob Peter Maria mit Hilfe eines Fernglases sehen konnte.
  • Bestimmen der Semantik. Die gleiche Wortform kann je nach Kontext eine andere Bedeutung aufweisen (vergleiche Homonym, Polysem). Man muss die für den Kontext zutreffende Bedeutung auswählen. Auf der anderen Seite braucht man Formalismen zur Repräsentation von Wortbedeutungen.
  • Erkennen der Absicht einer sprachlichen Äußerung (siehe Pragmatik). Manche Sätze sind nicht wörtlich gemeint. Beispielsweise erwartet man auf die Frage „Können Sie mir sagen, wie spät es ist?" nicht eine Antwort wie „Ja" oder „Nein", sondern bittet damit um Auskunft über die Uhrzeit.

Anwendungen in der Praxis

Praktische Computerlinguistik ist ein Begriff, der sich im Lehrangebot einiger Universitäten etabliert hat. Solche Ausbildungsgänge sind nahe an konkreten Berufsbildern um die informatisch-technische Wartung und Entwicklung von sprachverarbeitenden Maschinen und ihrer Programme. Dazu gehören zum Beispiel:

Institutionen

Dieser Abschnitt bedarf einer grundsätzlichen Überarbeitung: Bitte hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Studiengänge

Computerlinguistik wird an mehreren Hochschulen im deutschsprachigen Raum als eigenständiger Studiengang angeboten. In der deutschen Hochschulpolitik ist die Computerlinguistik als Kleines Fach eingestuft.[6] Es sind Bachelor- wie auch Master-Studienabschlüsse[7] möglich. Zu den bekanntesten Angeboten zählen die Studiengänge der Technischen Universität München, Universität Bielefeld, der Ruprecht-Karls-Universität Heidelberg, der Ludwig-Maximilians-Universität München, der Universität Potsdam, der Universität des Saarlandes und der Universität Zürich.

Tagungen

  • Jährlich stattfindende Konferenz der „Association of Computational Linguistics (ACL)"[8]
  • „COLING": seit 1965 in zweijährigem Abstand stattfindende, internationale Konferenz[9]
  • „Recent Advances in Computational Linguistics (RANLP)" ging aus einer Sommerschule hervor, seit 2001 in zweijährigem Abstand[10]
  • Die „International Joint Conference on Natural Language Processing (IJCLP)" findet in unregelmäßigen Abständen seit 2004 im asiatischen Raum statt[11] [12]
  • Jährlich stattfindende „Studentische Tagung Sprachwissenschaft (StuTS)" − drei- bis viertägige Tagung von Studenten für Studenten;
  • „Tagung der Computerlinguistik-Studierenden (TaCoS)" deutschsprachiger Universitäten, die seit 1992 jährlich an jeweils an einer anderen Universität stattfindet;
  • Alle zwei Jahre stattfindende Jahrestagung der „Gesellschaft für linguistische Datenverarbeitung (GLDV)" bzw. (seit 2008) „Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL)".
  • „KONVENS - Konferenz zur Verarbeitung natürlicher Sprache": seit 1992 in zweijährigem Abstand stattfindende Konferenz, abwechselnd organisiert von den Gesellschaften ÖGAI, DGfS-CL und GSCL[13]

Organisationen

Siehe auch

Literatur

  • James Allen: Natural Language Understanding. The Benjamin/ Cummings Publishing Company, Redwood City, CA 1995, ISBN 0-8053-0334-0.
  • Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Ralf Klabunde, Hagen Langer (Hrsg.): Computerlinguistik und Sprachtechnologie. 3. Auflage. Spektrum Akademischer Verlag, Heidelberg 2010, ISBN 978-3-8274-2023-7.
  • Roland Hausser: Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. 3. Auflage. Springer, 2014, ISBN 978-3-642-41430-5.
  • Nitin Indurkhya, Fred J. Damerau: Handbook of Natural Language Processing. 2. Auflage. Chapman and Hall/CRC, 2010, ISBN 978-1-4200-8592-1.
  • Daniel Jurafsky, James H. Martin: Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. 2. Auflage. Prentice Hall, Upper Saddle River, New Jersey 2008, ISBN 978-0-13-187321-6.
  • Henning Lobin: Computerlinguistik und Texttechnologie. Fink, Paderborn/ München 2010, ISBN 978-3-8252-3282-5.
  • Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing. MIT Press, Cambridge/MA 1999, ISBN 0-262-13360-1.
  • Ruslan Mitkov (Hrsg.): The Oxford Handbook of Computational Linguistics. Oxford University Press, 2003, ISBN 0-19-823882-7.
Wiktionary: Computerlinguistik  – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

  1. I. Bátori, J. Krause, H. D. Lutz (Hrsg.): Linguistische Datenverarbeitung. Versuch einer Standortbestimmung im Umfeld von Informationslinguistik und Künstlicher Intelligenz. Niemeyer Verlag, Tübingen 1982.
  2. David Crystal äußerte sich Mitte der 60er Jahre mehrfach hierzu in Medien und Aufsätzen. In England war seit den 30er Jahren auch die Tradition von Alan Turing virulent.
  3. CIS COMPUTER LINGUISTIK. (PDF) Centrum für Informations- und Sprachvermittlung, Ludwig-Maximilians-Universität München, abgerufen am 10. November 2015. 
  4. Hans Uszkoreit: VL Einführung in die Computerlinguistik, Repräsentationen und Prozesse in der Sprachverarbeitung.
  5. Peter Kolb: Was ist statistische maschinelle Übersetzung?
  6. Arbeitsstelle Kleine Fächer: Computerlinguistik auf dem Portal Kleine Fächer. Abgerufen am 23. April 2019. 
  7. StudiScan: Master-Studium Computerlinguistik - 17 Master-Studiengänge. Abgerufen am 31. Januar 2019. 
  8. ACL 2018: 56th Annual Meeting of the Association for Computational Linguistics. Abgerufen am 30. Januar 2019 (englisch). 
  9. 27th International Conference on Computational Linguistics (COLING 2018). Abgerufen am 30. Januar 2019 (amerikanisches Englisch). 
  10. Department of Linguistic Modelling and Knowledge Processing: Events. Abgerufen am 30. Januar 2019. 
  11. IJCNLP: Introduction (Memento vom 15. Juli 2013 im Internet Archive )
  12. Conference on Empirical Methods in Natural Language Processing & International Joint Conference on Natural Language Processing 2019. In: emnlp-ijcnlp2019.org. Abgerufen am 19. Februar 2019 (englisch). 
  13. Österreichische Gesellschaft für Artificial Intelligence (ÖGAI). Abgerufen am 30. Januar 2019. 
  14. Österreichische Gesellschaft für Artificial Intelligence (ÖGAI). Abgerufen am 30. Januar 2019. 
Normdaten (Sachbegriff): GND: 4035843-4 (lobid, OGND , AKS )
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Computerlinguistik&oldid=187825952"