Im Aufsatz werden sechs tschechischamerikanische Periodika beschrieben, die zu Beginn des 20. Jahrhunderts erschienen. Es handelt sich dabei um eine linguistisch-stilistische Beschreibung, die durch eine pragmatische Deskription ergänzt wird. Die Betonung wird vor allem auf die linguistische Seite gelegt, d. h. dass das amerikanische Tschechisch vom Beginn des 20. Jahrhunderts, und zwar sowohl seine Grammatik (Morphologie, Syntax) als auch seine Lexik charakterisiert wird.
This corpus was originally created for performance testing (server infrastructure CorpusExplorer - see: diskurslinguistik.net / diskursmonitor.de). It includes the filtered database (German texts only) of CommonCrawl (as of March 2018). First, the URLs were filtered according to their top-level domain (de, at, ch). Then the texts were classified using NTextCat and only uniquely German texts were included in the corpus. The texts were then annotated using TreeTagger (token, lemma, part-of-speech). 2.58 million documents - 232.87 million sentences - 3.021 billion tokens. You can use CorpusExplorer (http://hdl.handle.net/11234/1-2634) to convert this data into various other corpus formats (XML, JSON, Weblicht, TXM and many more).