Literatur

Details zur Publikation

Im Folgenden sind alle verfügbaren Informationen aufgeführt, die zur gewählten Publikation vorliegen.

Biemann, ChrisFelix BildhauerStefan EvertDirk GoldhahnTorsten ZeschUwe Quasthoff (2013). »Scalable Construction of High-Quality Web Corpora«. In: Journal for Language Technology and Computational Linguistics, Nr. 28/2. S. 23-59.

ISSN: 21906858

Download der Publikation

Download via Original-URL

Weiterführende Informationen

Abstract: In this article, we give an overview about the necessary steps to construct high-quality corpora from web texts. We first focus on web crawling and the pros and cons of the existing crawling strategies. Then, we describe how the crawled data can be linguistically pre-processed in a parallelized way that allows the processing of web-scale input data. As we are working with web data, controlling the quality of the resulting corpus is an important issue, which we address by showing how corpus statistics and a linguistic evaluation can be used to assess the quality of corpora. Finally, we show how the availability of extremely large, high-quality corpora opens up new directions for research in various fields of linguistics, computational linguistics, and natural language processing.

Rezension verfassen

Diese Publikation ist bislang noch nicht rezensiert worden. Sie können die erste Rezension schreiben!

Rezension schreiben

BibTex-Export

Sie möchten die bibliografische Angabe in ein Literaturverwaltungsprogramm oder in LaTeX importieren? Einen BibTex-Datensatz erhalten Sie hier.

Literatur: neue Suche

Geben Sie einen oder mehrere Suchbegriffe ein und schränken Sie bei Bedarf den Bereich ein, in dem gesucht werden soll:

Suchbereich bestimmen:



Suchoptionen:

Ihre Meinung

Kommentare zu dieser Seite