Mediensprache

Kurzbericht über den Workshop 2015

Das Web als Korpus für linguistische Analysen? - Bericht zum Workshop »Internetlinguistik und Korpusanalyse« am 1. und 2. Mai 2015 in Hannover

Der Begriff »Big Data[]« wird heute vor allem mit »Überwachung« und der »NSA« in Zusammenhang gebracht. So wurde vielen Menschen erst durch die NSA-Affäre bewusst, dass ihre persönlichen Daten von den Geheimdiensten überwacht, zusammengetragen und zusammengeführt werden. »Big Data[]« war plötzlich in aller Munde und wurde im Jahr 2013 von der Gesellschaft für deutsche Sprache (GfdS) sogar auf Platz 5 der Wörter des Jahres gewählt.

Dass die Existenz öffentlich zugänglicher »Big Data[]« nicht nur Geheimdiensten, sondern auch Sprachwissenschaftlerinnen und Sprachwissenschaftlern zugutekommt, zeigte sich am ersten Maiwochenende. Am 1. und 2. Mai fand im Leibnizhaus in Hannover der IV. Hannoversche Workshop zur linguistischen Internetforschung statt, in Zusammenarbeit mit und finanziert von der Gesellschaft für deutsche Sprache (GfdS).

Den Eröffnungsvortrag am 1. Mai hielt Dr. Konstanze Marx aus Berlin unter dem Titel »Das Web als Korpus für linguistische Analysen - Möglichkeiten und Grenzen«. Treffend bezeichnete sie das World Wide Web als »WWWeldorado« für Sprachwissenschaftlerinnen und Sprachwissenschaftler, „[...] aus dessen Quellen man nur zu schöpfen brauche«. Die Frage, ob das Web als Korpus für linguistische Analysen genutzt werden könne, beantwortete sie mit einem eindeutigen »Ja«. Dennoch machte Marx während des Vortrages deutlich, dass die Datenanalyse des im Web befindlichen Textmaterials noch in den Kinderschuhen stecke. Probleme bereite besonders die Annotation der Texte aus den Social Media, da die Verfasserinnen und Verfasser häufig jegliche Regeln der Orthografie missachteten oder sogenannte Emoticons[] verwendeten, die bei einer automatischen Analyse häufig nicht korrekt erkannt würden. Bevor jedoch Daten aus den Social Media gesammelt würden, müsse die Frage nach dem Urheberrecht gestellt werden. Marx empfiehlt hier den Urheber oder die Urheberin um Erlaubnis zu fragen bzw. nur öffentliche Daten zu verwenden. Oft würden Daten auch einfach gesammelt, analysiert, aber nicht veröffentlicht, warf sie lachend ein.

Den zweiten Tag der Tagung läutete Prof. Dr. Christian Mair aus Freiburg mit seinem Vortrag »CCN (»Corpus of Cyber-Nigerian«): Concordancing, annotation and visualisation in a very large web-derived CMC corpus« ein. Mair erwähnte, dass er bereits seit Ende der 90er Jahre Daten aus Internetforen sammele, lange vor Facebook[] und anderen Social Media, diese Sammlung jedoch noch nicht als »Big Data[]« bezeichnen würde. Sein Forschungsschwerpunkt sei die Entwicklung der verschiedenen Varietäten im anglo-amerikanischen Raum mit dem Fokus auf Nigerianisches Englisch. Englisch ist die Weltsprache und könne nun auch mithilfe von Internetlinguistik und großen Korpora untersucht und analysiert werden. Sein Forschungsfeld umfasst die Kommunikation über Social Media in postkolonialen, afrikanischen Staaten. Diese würden sich keine gemeinsame Standardsprache teilen und aus diesem Grund sei es möglich, viele verschiedene Varietäten des Englischen zu sehen und untersuchen zu können. Aufgrund der Globalisierung lasse sich feststellen, so Mair, dass Merkmale wie Slang-Wörter und typische »Lernerfehler« nicht nur auf den afrikanischen Raum beschränkt blieben, sondern online durch die »New African Diaspora« überall auf der Welt zu finden seien. Nigerianer würden ihre Varietät(en) mit in das Internet bringen und diese überall auf der Welt verbreiten. Als Beispiel dafür nannte Mair einen Austausch in einem Internetforum zwischen einem Nigerianer und einem Italiener auf Englisch, der von der Umwerbung einer verheirateten Frau handelte. Abgesehen von kulturellen Eigenheiten wie dem Verständnis von Treue in einer Ehe, zeigte diese Unterhaltung deutlich, wie Englisch von Nichtmuttersprachlerinnen und Nichtmuttersprachlern verwendet wird. »Lernerfehler« seien typisch, würden aber nicht die Kommunikation verhindern. Amerikanisches oder britisches Standardenglisch als das Nonplusultra zu sehen, sollte in diesem Zusammenhang neu überdacht werden.

Neben den Vorträgen von Marx und Mair bot[] das Leibnizhaus in Hannover die perfekte Kulisse für die insgesamt elf hochkarätigen Vorträge des IV. Hannoverschen Workshops mit dem Titel: »Internetlinguistik und Korpusanalyse«, für den die Referenten nicht nur aus ganz Deutschland, sondern auch aus dem Ausland angereist waren. Neben den spannenden Themenschwerpunkten trug auch die entspannte Atmosphäre während der Vorträge zum großen Interesse des Publikums bei und ermunterte zu zahlreichen Fragen und Diskussionsanstößen, welche am ersten Abend bei einem gemeinsamen Abendessen ausgeweitet werden konnten.

Der Workshop machte deutlich, dass »Big Data[]« nicht nur mit dem Überwachungsskandal in Verbindung stehen muss, sondern auch Linguistinnen und Linguisten und deren Korpusarbeit dienlich ist. Theoretisch könnten dank »Big Data[]« sprachliche Entwicklungen überall auf der Welt untersucht und analysiert werden. Neben Datenschutz und urheberrechtlichen Fragen bei der Verwendung von Daten aus dem Internet bereiten jedoch sowohl die Analysetools aktuell noch einige Schwierigkeiten als auch die Archivierung großer multimodaler Datenmengen. Die Workshop-Vorträge aus der Spitzenforschung machten deutlich, dass diese Hürden erkannt und in Angriff genommen werden, damit Sprachwissenschaftlerinnen und Sprachwissenschaftler weltweit auch mit geringerem technischen Know-how linguistische Forschung mit Online-Daten betreiben können.

[Tanja Meyer]

zu den Foliensätzen

Ihre Meinung

Kommentare zu dieser Seite