Literatur

Details zur Publikation

Im Folgenden sind alle verfügbaren Informationen aufgeführt, die zur gewählten Publikation vorliegen.

Margaretha, ElizaHarald Lüngen (2014). »Building Linguistic Corpora from Wikipedia Articles and Discussions«. In: Journal for Language Technology and Computational Linguistics, Nr. 29/2. S. 59-82.

ISSN: 21906858

Download der Publikation

Download via Original-URL

Weiterführende Informationen

Abstract: Wikipedia is a valuable resource, useful as a lingustic corpus or a dataset for many kinds of research. We built corpora from Wikipedia articles and talk pages in the I5 format, a TEI customisation used in the German Reference Corpus (Deutsches Referenzkorpus - DeReKo). Our approach is a two-stage conversion combining parsing using the Sweble parser, and transformation using XSLT stylesheets. The conversion approach is able to successfully generate rich and valid corpora regardless of languages. We also introduce a method to segment user contributions in talk pages into postings.

Rezension verfassen

Diese Publikation ist bislang noch nicht rezensiert worden. Sie können die erste Rezension schreiben!

Rezension schreiben

BibTex-Export

Sie möchten die bibliografische Angabe in ein Literaturverwaltungsprogramm oder in LaTeX importieren? Einen BibTex-Datensatz erhalten Sie hier.

Literatur: neue Suche

Geben Sie einen oder mehrere Suchbegriffe ein und schränken Sie bei Bedarf den Bereich ein, in dem gesucht werden soll:

Suchbereich bestimmen:



Suchoptionen:

Ihre Meinung

Kommentare zu dieser Seite