Medienanalyse

Sprachkorpora – kommentiert

Mehrsprachige Korpora

Association for Computational Linguistics (ACL)

Die "Association for Computiational Linguistics" ist eine internationale wissenschaftliche Gesellschaft für "natürliche" Sprache und Datenverarbeitung. Sie umfaßt verschiedene Interessengruppen, zu deren Programm Veranstaltungen über verschiedene Themen und die vierteljährliche Zeitschrift "Computational Linguistics" gehören. Weiterhin unterhält sie die Langage Naturel Mailing List. Die Interessengruppe SIGLEX (Special Interest Group on the LEXikon) bietet ein Forum für verschiedene Forschungen u.a. über Online-Wörterbücher und semantische Datenverarbeitung. Eine von der ACL herausgegebene CD-ROM enthält u.a. das Collins English Dictionary und Texte aus dem Wall Street Journal.

Canadian Hansard Corpus

Das Canadian Hansard Corpus ist ein Parallelkorpus, das aus Verschriftungen kanadischer Parlamentsdebatten (1986-93) besteht, die in den beiden offiziellen Sprachen des Landes (englisch und französisch) veröffentlicht wurden.

Crater Corpus

Crater Corpus (Corpus Resources And Terminology Extraction) ist ein europäisches trilinguales Parallelkorpus (englisch, französisch, spanisch), das 1994-95 von der University of Lancaster ( in Zusammenarbeit mit IBM Paris (C2V) und der Universidad Autonoma de Madrid konzipiert wurde. Das Korpus ist im Internet erhältlich.

European Corpus Initiative (ECI/MCI)

Die European Corpus Initiative, ein Projekt des European Network of Speech and language (ELSNET) hat ein mutlilinguales Textkorpus von über 98 Mio Wörtern gesammelt, das außer vielen europäischen auch außereuropäische Sprachen umfaßt: darunter Albanisch, Bulgarisch, Chinesisch, Deutsch, Tschechisch, Englisch, Estnisch, Französisch, Gälisch, Griechisch, Italienisch, Japanisch, Litauisch, Lateinisch (Vergil), Malaysisch, Niederländisch, Norwegisch, Portugiesisch, Russisch, Serbisch, Spanisch, Schwedisch und Türkisch. Die meisten dieser monolingualen Korpora sind Zeitungsauschnitte oder fiktive Texte, einige enthalten auch gesprochene Sprache. Bei den Parallelkorpora der Europäischen Korpus Initiative handelt es sich zumeist um nicht-fiktionale authentische Texte (z.B. der EU) mit Übersetzungen in den wichtigsten europäischen Sprachen. Die CD-ROM der ECI/MCI ist zum Preis von ca. 100 Niederländischen Gulden für wissenschaftliche Zwecke zu erwerben.

European Language Resources Association (ELRA)

ELRA (European Language Resources Association) ist eine 1995 gegründete Organisation, die sich zum Ziel gesetzt hat,Informationen über europäische Sprachforschung zu bündeln. Die ELRA bietet viele nationale Korpora auf CD-ROM europaweit an, so auch einige Korpora des =>BAS (München) und das Groningen Speech Corpus. Das Angebot der Korpora ist in einem Katalog aufgelistet. Die Korpora von ELRA sind gegen eine Gebühr ohne Bedingungen zugänglich (für Mitglieder Preisnachlaß)

International Corpus of English (ICE)

Für das International Corpus of English werden an zwanzig über die Welt verteilten Orten seit 1990 Korpora gesprochener und geschriebener Sprache auf CD-ROMs zusammengestellt, um die regionalen Unterschiede und Eigenheiten der englischen Sprache zu dokumentieren. Die entstehenden Korpora sollen schließlich ca. 1 Mio Wörter enthalten und geschriebene und gesprochene Sprache zu etwa gleichen Teilen umfassen. Die beigefügten Tonaufnahmen ermöglichen phonetische und phonologische Forschung. Als erste CD-ROM wird das britische Korpus (ICE-GB) im Frühjahr 1998 erhältlich sein. Aktuelle Nachrichten können in den ICE Newsletters eingesehen werden.

Linguistic Data Consortium (LDC)

Das Linguistic Data Consortium wurde 1992 von verschiedenen amerikanischen Universitäten, Gesellschaften und staatlichen Forschungseinrichtungen gegründet, die zum Ziel haben, amerikanische Korpora gesprochener und geschriebener Sprache zu sammeln und zu verwalten. Ein Schwerpunkt des LDC liegt bei der Phonetik, so gibt es ein sehr umfangreiches Call-Home-Korpus gesprochener Sprache, das in- und ausländische Dialekte und Akzente des Amerikanischen dokumentiert. Der Zugriff auf die Korpora des LDC wird über Mitgliederkonten von Organisationen (z.B. Universitäten) und Privatpersonen gewährt.

Multilingual Bibles

Das =>ARTFL Projekt der University of Chicago bietet parallele Übersetzungen der Bibel in den Sprachen Lateinisch, Englisch, Französisch und Deutsch (Luther) an.

Oxford Text Archive (OTA)

Das Oxford Text Archive hat eine Sammlung von etwa 1000 überwiegend literarischen Texten mehrerer Sprachen, darunter zu einem Großteil Englisch, aber auch Arabisch, Niederländisch, Deutsch, Alt- und Neugriechisch, Isländisch, Italienisch, Japanisch, Kurdisch, Lateinisch, Lettisch, Malaysisch, Pali, Portugiesisch, Provençalisch, Russisch, Schwedisch, Serbokroatisch, Spanisch, Türkisch, Walisisch u.a. Unter den literarischen Texten befinden sich solche aus dem MA und der Antike, aber auch neuere Texte. Im deutschen Teil finden sich das Mannheimer und das Bonner Korpus (beide vom =>IDS). Die einzelnen Texte werden zu einem Preis von 5 £ plus Datenträgerkosten per Post versandt. Der OTA Katalog gibt Kurzinformationen zu den einzelnen Texten. Die Benutzer werden gebeten, weitere Beiträge zu den Korpora an das Oxford Text Archive zu schicken.

PEDANT Korpus

Das Pedantkorpus ist eine von der =>Svenska Språkbanken angebotene Sammlung von Paralleltexten in mehreren Sprachen, zumeist Dokumente der Europäischen Union. Zur Demonstration steht eine Suchmaschine für die Sprachen Englisch, Französisch und Deutsch in Bezug aufs Schwedische zur Verfügung.

University Centre for Computer Corpus Research on Language (UCREL)

Das University Centre for Computer Corpus Research on Language (UCREL) der University of Lancaster bietet eine große Vielfalt mono- und multilingualer, geschriebener und gesprochener Korpora an, darunter das =>BNC, das =>CRATER Korpus und das =>MARSEC. Die Hauptaufgabe von UCREL besteht aus der Entwicklung von rechnergesteuerten Analyseverfahren für Korpora.

Verbmobil

Das Verbmobil-Projekt wird von der Deutschen Forschungsanstalt für Luft- und Raumfahrt getragen. Die Gesamtprojektleitung liegt beim Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI GmbH), Saarbrücken. Dieses Projekt soll der Entwicklung eines mobilen Systems zur Übersetzung von Verhandlungsdialogen in face-to-face Situationen dienen. Die Sprachen sind Deutsch und Japanisch mit Englisch als "Zwischensprache". Die Universitäten München, Kiel und Bonn haben für dieses Projekt dieses Korpus mit deutscher Spontansprache entwickelt. Die Korpora können über das BAS bestellt werden

Deutsche Korpora

Bayerisches Archiv für Sprachsignale (BAS)

Das Bayerische Archiv für Sprachsignale des Instituts für Phonetik und Sprachliche Kommunikation an der Ludwig-Maximilian Universität München wurde 1995 gegründet, um das "heute gesprochene Deutsch durch eine möglichst umfassende digitale Sprachsignaldatenbasis für Forschung und Sprachindustrie verfügbar zu machen, und zwar in einer für gezielte Zugriffe spezifisch aufbereiteten und phonetisch-akustisch wie auch phonetisch-linguistisch evaluierten Form." Ein zweites Ziel ist es, eine Theorie der Phonetik des Deutschen zu entwickeln: "Die zentrale Kategorie wird nicht mehr der Sprachlaut sein, sondern das Wort als lexikalisch gegebene Einheit." Die Sprachkorpora sind Aufnahmen gelesener, spontaner und dialektaler Sprache. Viele der Projekte werden in Zusammenarbeit mit anderen Universitäten und anderen Korpora-Gesellschaften im Auftrag der EU bearbeitet, darunter SpeechDat und =>Verbmobil. Das BAS bietet auf seiner Homepage auch Beispiele der verfügbaren Korpora in Form von Audio-Dateien an. Die Korpora können als CD-ROM beim BAS bestellt werden ("press on demand"); fast alle Korpora stehen auch zur kommerziellen Nutzung zur Verfügung. Bei wissenschaftlicher Nutzung entfallen die Lizenzgebühren.

Beinecke Rare Book and Manuscript Library

Die Yale University hat eine große Sammlung von seltenen Buchausgaben und Manuskripten; darunter eine Papyrussammlung arabischer, ägyptischer, griechischer, lateinischer und italienischer Schriften, außerdem eine englische, eine deutsche und eine amerikanische Sammlung. Darüber hinaus unterhält sie das Fortunoff Video Archive mit Interviews mit Überlebenden und Zeugen des Holocausts. Die Collection of German Literature reicht von Büchern von vor 1600 bis zu Texten von Thomas Mann.

Das Digitale Wörterbuch der deutschen Sprache

Das Digitale Wörterbuch der deutschen Sprache des 20. Jh.

Göttinger Akademie-Thesaurus (GATh)

In einem Projekt, das von der Berlin-Brandenburgischen und der Göttinger Akademie der Wissenschaften getragen wird, ist die Neubearbeitung der Buchstaben A-F des Deutschen Wörterbuches von Jacob und Wilhelm Grimm bis zum Jahr 2005 vorgesehen. Die Göttinger Arbeitsstelle (Akademie der Wissenschaften Göttingen), die die Buchstaben D-F übernommen hat, verwaltet das Quellenkorpus für den Neubearbeitungsteil D-F: mehr als 6000 verschiedene Texte aus dem 16.-20 Jhd., die nach Meinung der Akademie die Entwicklung der deutschen Sprache spiegeln. Unter dem Projektnamen Göttinger Akademie-Thesaurus (GATh) wird zur Zeit ein elektronisches Belegarchiv angelegt. Grundlage für dieses Archiv ist ein elektronisches Korpus, das die Arbeitsstelle in den vergangenen Jahren aus den Quellen übertragen hat. Das Korpus ist noch nicht im Internet einzusehen.

Institut für deutsche Sprache (IDS)

Das Institut für deutsche Sprache Mannheim ist eine außeruniversitäre Forschungseinrichtung, die vom Bund und vom Land Baden-Württemberg gefördert wird. Es erforscht und dokumentiert die deutsche Sprache in ihrem gegenwärtigen Gebrauch und in der neueren Geschichte. Das Institut verfügt über ein größeres Text- und Sprachkorpus. Die Textkorpora enthalten Belletristik (u.a. Andersch, Böll, Frisch, Goethe, Grimm) , Lehrbücher, Schriften von Marx und Engels, sowie Zeitungsauschnitte (Neues Deutschland, Die Welt, Mannheimer Morgen, DieZeit, stern) u.a.; außerdem das "Wendekorpus" des Projekts "Gesamtdeutsche Korpusinitiative" in Zusammenarbeit mit dem Zentralinstitut für Sprachwissenschaft (ehem. DDR) mit Artikeln, Flugblättern, Protokollen und Reden zwischen 1989 und 1990, die die "Wende" dokumentieren. Die Sprachkorpora (12 000 Tonaufnahmen) sind vor allem Tondokumente des gesprochenen Deutsch der 60er und 70er Jahre unseres Jhds, die u.a. Dialogstrukturen, überregionale Umgangssprache (von der Stanford University erarbeitet) und deutsche Mundarten enthalten. Ein aktuelles Projekt des IDS, Wandel im gesprochenen Deutsch, untersucht Veränderungen der Spracheinstellungen und des Sprachverhaltens einzelner Sprecher im Zeitraum von 35-40 Jahren. Viele der IDS-Korpora fließen als Beispielmaterial in die neue "Grammatik der deutschen Sprache" des IDS ein (G. Zifonoun et al., Berlin 1997). Kopien von Korpora, Transkripten und Begleitmaterialien können beim IDS erworben werden.

Institut für Phonetik und digitale Sprachverarbeitung der Universität Kiel (ipds)

Das Institut für Phonetik und digitale Sprachverarbeitung der Christian-Albrechts-Universität Kiel unterhält neben Projekten zur synthetischen Sprache und zur Verarbeitung von Sprachsignalen ein Sprachkorpus mit gelesener und spontan geäußerter Sprache ("Kiel Korpus"), das auf CD-ROM erworben werden kann. Die 1990 begonnene Sammlung wird ständig erweitert.

Mannheimer Texte online (MATEO)

MATEO ist eine Initiative der Universität Mannheim, die wissenschaftlichen Autoren (u.a. Magister und Doktorarbeiten) als Medium zur Verfügung steht. Abstracts der Texte können online gelesen werden, für aktuelle wissenschafltiche Literatur ist in der Regel eine Gebühr zu entrichten. Die Universitätsbibliothek Mannheim stellt seit 1996 bedeutende Werke aus den ersten drei Jahrhunderten des Buchdrucks in elektronischem Faksimile zur Verfügung.

Ulmer Textbank

Die Ulmer Textbank ist ein Korpus zur Psychotherapie mit therapeutischen Gesprächen, Berichten über Behandlungen und anderen Texten, die seit Mitte der 60er Jahre gesammelt werden.Von vielen Gesprächen existieren Ton- und Videoaufnahmen; in der Regel sind sie nach einem eigens entwickelten System transkribiert worden.

Wortschatz-Portal

Englische Korpora

British National Corpus (BNC)

Das British National Corpus ist ein von 1991-94 gesammeltes Korpus, das die Entwicklung und den Gebrauch der englischen Sprache bis ins 20. Jhd. dokumentiert. Es umfaßt über 100 Mio Wörter und ist aus Korpora der geschriebenen (90%) und gesprochenen (10%) Sprache zusammengestellt, die einen Überblick über das aktuelle britische Englisch geben sollen. Der Anbieter ist ein industriell und akademisch getragenes Konsortium, dem u.a. das =>UCREL, die Oxford University Press und einige Lexika-Herausgeber wie Larousse und Longman angehören. Eine Zugangslizenz ist gegen eine Gebühr für wissenschaftliche Forschungseinrichtungen und Privatpersonen in der EU erhältlich. Ein Forum für BNC-Benutzer wird in Form der bnc-discuss-mailing list angeboten

Cobuild Corpus and Concordance Sampler

Cobuild ist ein Department des Harper Collins Verlags an der University of Birmingham, GB, das seit 1980 Text- und Sprachkorpora moderner englischer Sprache aus verschiedenen Quellen umfaßt, darunter fiktionale und nichtfiktionale Texte, spontane Sprache und Radiosendungen. Die Sammlung enthält unter anderen die Birmingham Collection of English Text. Das Cobuildkorpus ist vor allem für lexikalische Forschung und Englisch-Lernende (word-puzzle-competition, idiom of the day etc) konzipiert. Zeitlich begrenzte Zugangsberechtigungen werden gegen eine Gebühr erteilt. Außerdem kann ein spezieller Rechner (gebührenpflichtig) per e-Mail mit Suchanfragen beauftragt werden (Cobuild Direct Mail Service). Ein Teil des Korpus kann online frei eingesehen werden.

HCRC Map Task Corpus

Das Human Communication Research Centre der Universitäten Edinburgh und Glasgow bietet das HCRC Map Task Corpus an. Die 8 CD-ROMs enthalten Audiodateien und deren Transkriptionen von insgesamt 18 Stunden spontan gesprochenem Englisch. Der Preis des CD-ROM-Pakets liegt bei ungefähr 170 englischen Pfund.

International Computer Archive of Modern and Medieval English (ICAME)

ICAME ist eine internationale Organisation, die maschinenlesbare englische Texte sammelt und anbietet. Das Computerarchiv befindet sich im Norwegian Computing Centre for the Humanities (NCCH), Bergen. Es enthält Korpora geschriebener und gesprochener Sprache des Englischen seit den 60er Jahren (drei von Umfang und Art vergleichbare Korpora mit britischem, amerikanischem und indischem Englisch) und ein historisches Korpus mit Texten aus der Zeit des Alt(hoch)englischen bis zum Frühhochenglischen. Die Korpora sind gegen eine Gebühr auf CD-ROM zu beziehen. Viele der dort angebotenen Korpora hat UCREL entwickelt, wie z.B. das Brown Korpus oder das London-Lund-Korpus.

International Corpus of English (ICE)

Für das International Corpus of English werden an zwanzig über die Welt verteilten Orten seit 1990 Korpora gesprochener und geschriebener Sprache auf CD-ROMs zusammengestellt, um die regionalen Unterschiede und Eigenheiten der englischen Sprache zu dokumentieren. Die entstehenden Korpora sollen schließlich ca. 1 Mio Wörter enthalten und geschriebene und gesprochene Sprache zu etwa gleichen Teilen umfassen. Die beigefügten Tonaufnahmen ermöglichen phonetische und phonologische Forschung. Als erste CD-ROM wird das britische Korpus (ICE-GB) im Frühjahr 1998 erhältlich sein. Aktuelle Nachrichten können in den ICE Newsletters eingesehen werden.

Machine Readable Spoken English Corpus (MARSEC)

Das MARSEC Projekt hat zum Ziel, das Lancaster-IBM Spoken English Corpus (das SEC ein Korpus mit spontaner Sprache aus den 80er Jahren mit 52 000 Wörter, wird unter anderem von UCREL und ICAME gesammelt und angeboten) in eine entsprechende Sprachdatenbasis zu konvertieren. Die einzelnen Korpora können via Internet bestellt werden. Eine öffentliche Liste enthält die Korpusbenutzer (die den Korpus bereits heruntergeladen haben) und eine Beschreibung ihrer Forschungsgebiete.

Korpora anderer Sprachen

Aboriginal Studies Electronic Data Archive

Das Australian Institute of Aboriginal and Torres Strait Islander Studies (AIATSIS) in Canberra bietet neben anderen Informationen über die Ureinwohner Australiens ein Korpus mit fast 300 australischen Eingeborenen-Sprachen.

American and French Research on the Treasury of the French Language (ARTFL)

Das Textkorpus des ARTFL, ein Projekt des Institut national de la langue française und der University of Chicago, umfaßt 2000 Texte aus dem 13.-20 Jhd. Ursprünglich wurden diese Texte aus Belletristik, Journalismus und Wissenschaft von 1957 bis 1977 gesammelt, um die Grundlage für ein französisches Lexikon (Le Trésor de la Langue Française) zu schaffen. Inzwischen gehört auch ein 38 Texte umfassendes Korpus der provençalischen Sprache zum ARTFL. Einige Texte stehen gegen Kostenerstattung zur Verfügung.

Bank of Swedish, Göteborg University

Die Svenska Språkbanken enthält Korpora von insgesamt 40 Mio. Wörtern der fiktiven Literatur aus verschiedenen Jahrhunderten (u.a. Strindberg, Romane aus den 1970er und 80er Jahren, ein Korpus mit Altschwedisch) und von Zeitungstexten. Das Korpus der gesprochenen Sprache besteht aus Parlamentsreden und -debatten von 1978-79.

Groningen Speech Corpus

Der Groningen Speech Corpus ist ein Projekt der NWO (Niederländische Organisation für wissenschaftliche Forschung = Netherlands Organization for Scientific Research) mit Unterstützung von =>ELSNET (European Network in Language and Speech). Das Korpus enthält von über 200 Sprechern vorgelesenes Niederländisch mit 20 Stunden aufgenommener Sprache auf 4 CD-ROMs. Die Sprecher wurden möglichst heterogen ausgewählt, die Texte umfassen alle Lautbildungsmöglichkeiten des Niederländischen. Weitere Informationen und der Bezug des Korpus sind über ELRA möglich.

Instituut voor Nederlandse Lexicologie

Das Instituut voor Nederlandse Lexicologie der Universität von Leiden hat in den Jahren 1994-96 ein großes Korpus des geschriebenen Niederländisch angelegt. Dieses insgesamt ca. 7 Millionen Wörter umfassende Korpus aus Zeitunsartikeln, Gesetzestexten und verschiedenen Texten mit unterhaltendem Charakter kann frei übers Internet bezogen werden (zu nichtkommerziellem Arbeiten). Dazu ist eine Einverständniserklärung erforderlich, die mit folgenden Befehlen an die Mailserv-Adresse für die jeweiligen Korpora geordert werden kann: "SEND [38MLN96]AGREEMNT.USE" (38 Mio Wörter Zeitungs- und Gesetzestextkorpus 1996), "SEND [27MLN95]AGREEMNT.USE" (27 Mio Wörter Zeitungskorpus 1995) "SEND [5MLN94]AGREEMNT.USE" (5 Mio Wörter Korpus verschiedener Zusammenstellung 1994)

La Base de Lapsus

Die Base de Lapsus enthält 3498 Beispiele der französischen Lapsusbildung. Sie ist als Begleitmaterial zum Buch "Les lapsus: ou pourquoi ma fourche a langué" (M. Rossi, E. Peter-Defare, Presses Universitaires de France) gedacht. Einige Beispiele sind frei im Internet einzusehen.

Ottawa-Hull Corpus of Spoken French

Das Ottawa-Hull-Corpus of Spoken French ist ein bilinguales Korpus (französisch/englisch, ca. 3,5 Mio Wörter) der soziolinguistischen Abteilung der University of Ottawa. Es enthält spontane Sprache (Tonbänder und maschinenlesbare Transkriptionen). Das Korpus steht Wissenschaftlern bisher nur in Präsenz zur Einsicht im Institut offen.

Turkish Electronic Living Lexicon (TELL)

Das Turkish Electronic Living Lexicon ist ein Projekt des Department of Linguistic der University of California at Berkley. TELL ist eine umfassende Online-Datenbank des Türkischen. Es soll der phonologischen, morphologischen und lexikalischen Forschung dienen, ist momentan aber noch nicht verfügbar.

Diskussionslisten zur Korpuslinguistik

Elsnet-List

Die elektronische Mailing Liste des European Network in Language and Speech (ELSNET) ist vor allem ein Forum für Bekanntmachungen von Jobangeboten und Veranstaltungen/Workshops und für Diskussionen über Linguistik.

Funknet

In der FUNKNET-Liste werden Diskussionen zum Thema Funktionale Linguistik geführt. Es werden Themen zur Grammatik und zur empirischen Arbeit besprochen.

Humanist

Die Humanist Discussion Group ist ein internationales elektronisches Seminar zum Gebrauch von Computern in den Geisteswissenschaften. Ziel ist es, unter den Mitgliedern ein Forum zu schaffen für Diskussionen und Austausch von Information. Voraussetzung für die Mitgliedschaft in der Liste ist die Angabe von biographischen Daten in einem Formular, das anschließend archiviert und den anderen Mitgliedern zugänglich gehalten wird.

Sign Language Linguistics List (SLLING-L)

In der SLLING-Liste werden linguistische Probleme und grammatische Phänomene der Gebärdensprachen diskutiert.

Kurse im Netz

Sign Writing

(Hier gibt es eine Einführung in die Grammatik der "Gebärdenschrift" in Annäherung an die amerikanischen Gebärdensprache (ASL))

Literatur im Netz

Chinese Text Initiative

Das Electronic Text Center und die Ostasien-Abteilung der Bibliothek der University of Virginia bieten die Chinese Text Initiative an, die chinesische Literatur im WWW zugänglich machen soll. Der erste Text dieser Sammlung ist "300 Tang Gedichte".

Projekt Gutenberg

Das Projekt Gutenberg-De sammelt seit 1994 deutschsprachige Werke und Übersetzungen und bietet diese als Online-Bibliothek an. Es gibt die Möglichkeit, sich (ehrenamtlich) an diesem Projekt zu beteiligen, indem man eingescannte oder abgetippte Werke per E-Mail einsendet, die nicht mehr dem Leistungsschutzrecht unterliegen (Autor bzw. Übersetzer müssen seit 70 Jahren verstorben sein). Auch eigene Werke sind willkommen. Auf diese Weise gibt das Projekt Gutenberg jungen Autoren die Möglichkeit, Texte im Internet zu veröffentlichen.

Ihre Meinung

Kommentare zu dieser Seite