The present paper is a reply to the article Perspektivy korpusové lingvistiky: deskripce, nebo explanace by František Štícha (2015) which is a critique of recent studies by Radek Čech (2014) and Jan Chromý (2014). It is shown that Štícha’s argumentation is based on an inaccurate reading of the two criticized studies. Also, Štícha’s conception of corpus linguistics as a discipline which aims to capture the morphological and syntactical norm of well-educated people is rather limited. This narrow-minded view seems to be another reason of Štícha’s misunderstanding of the criticized papers.
The paper focuses on which role is given to elided sentence participants in coreference chains, i.e. whether (and to which degree) the participants that are present only implicitly in the surface layer are involved in relations of textual and grammatical coreference. Generally, the paper introduces the methods how it is possible to examine the interplays of different language phenomena in corpus data of the Prague Dependency Tree-bank containing multilayer annotation.
This article engages in polemic with two papers on the status and prospects of corpus linguistics that were recently published by two Czech linguists in the journal Naše řeč (Our Language). These linguists claim that corpus linguistics relies too heavily on description, in general, and doesn’t provide sufficiently rigorous explanations. In contrast, the present author argues that working with large corpora (billions of tokens) does not necessarily lead to mere descriptions of language phenomena. Rather, descriptions based on large corpora facilitate rigorous explanations of grammatical phenomena. In addition, the author argues that until data-based descriptions became an integral part of work in the natural sciences, philosophically based explanations did not fully succeed at enabling us to understand the physical world. Language is a part of the natural world, and satisfactory grammatical explanations of natural languages require much more empirical evidence than could be obtained in the past without electronic corpora. Several examples of empirical evidence and their critical relevance to linguistic analysis are cited.
In the present paper we examine the extent to which age, gender, and education affect the use of the Spisz regional dialect. It is widely assumed that only elderly speakers use pure dialect with no influences of the standard variety of Polish, whereas other generations mix the dialectal with the standard grammar. The data are drawn from the Spisz Corpus. Eight features were chosen, six of them pertaining to inflection, two others to syntax. Though the number of non-dialectal features increases with each generation, it remains, however, quite limited. Still, this is not true in the case of the syntactic idiosyncrasies of the regional dialect, which are almost entirely abandoned by younger generations. Also, women are more prone to use dialectal forms compared to men. Finally, the higher the education of the speaker, the higher the amount of non-dialectal forms, again with the notable exception of academic degree holders, who master code-switching better. In general, however, the Spisz regional dialect is well-preserved by its speakers. and W niniejszej pracy badamy, w jakim stopniu wiek, płeć i wykształcenie wpływają na użycie gwary spiskiej. Powszechnie zakłada się, że tylko starsi mówcy używają czystej gwary bez wpływu kodu ogólnego, podczas gdy w mowie młodszych pokoleń notuje się domieszkę tego ostatniego. Dane pochodzą z Korpusu Spiskiego. Wybrano osiem cech, z których sześć dotyczyło fleksji, pozostałe dwie składni. Chociaż z każdym kolejnym pokoleniem udział form ogólnopolskich wzrasta, to jednak ich liczba pozostaje dość ograniczona. Nie dotyczy to jednak cech syntaktycznych (pozycji aglutynantu i zaimka w funkcji jedynego wykładnika osoby), które są niemal zupełnie nieobecne w mowie młodszych pokoleń. Ponadto kobiety, bardziej niż mężczyźni, są skłonne do używania z form dialektalnych. Wreszcie, im wyższe wykształcenie respondenta, tym większa liczba form niegwarowych, ponownie, z godnym uwagi wyjątkiem osób z wykształceniem wyższym, które lepiej opanowały tzw. przełączanie kodów. Generalnie jednak można mówić o dość dobrym zachowaniu większości badanych cech.
Among the German negative-conditional connectors in the range of consequens markers there are the prototypical cases sonst and ansonsten. Morphological alternatives (sonsten and ansonst) are rarely mentioned in contemporary grammars and dictionaries but they actually occur with considerable frequency. The four connectors are used in two functions: as a conjunctional adverb which can occupy various positions within the sentence or as a specific kind of subordinating conjunction (Postponierer). The large IDS corpora allow us to reveal specific distributions of the lexemes and of their different ways of use. Comparing the frequencies and the distributions can indicate to which extent the phenomena are part of the standard language. The paper will report on the results and demonstrate how the findings can be deduced from the corpora. It will draw conclusions for assessing the acceptability of the variants and the extent to which they can be considered standard language additionally testing statistical instruments to visualise and calculate the variance of phenomena as association plots and DPnorm. and Prototypickými případy těchto konektorů jsou v němčině slova sonst (jinak) a ansonsten (jinak). Jejich morfologické alternativy sonsten a ansonst se v současných gramatikách a slovnících téměř nezmiňují, avšak jejich frekvence v textech není zanedbatelná. Všechny tyto čtyři konektory se užívají ve dvou funkcích: jako spojkové adverbium, jež může ve větě zaujímat různé pozice, nebo jako specifický druh subordinační konjunkce (postponent). Velké korpusy IDS umožňují odhalovat specifickou distribuci těchto lexémů a různých způsobů jejich užívání. Srovnávání frekvence a distribuce může indikovat, do jaké míry jsou tyto jevy součástí standardního jazyka. Tato studie při-náší výsledky tohoto srovnávání a ukazuje, jak lze korpusové nálezy interpretovat. Prostřednictvím testování statistických nástrojů se vyslovuje k akceptabilitě variant a míře, v níž mohou náležet standardnímu spisovnému jazyku.
The semantic aspectuality of the German present participle (participle I) is not mentioned in Grammars of German, and in specialized studies it is taken for granted that the aspect of this sort of verbal derivative (e. g. besuchende ''visiting'') is only imperfective. In Štícha (2009) it is shown that the German attributive participle I can also be used and interpreted in the meaning of the Slavic perfective aspect. In this article, a special attention is paid to the aspectual meaning of the modal usage of the present participle with the free syntactic morpheme zu (zu besuchende ''to be visited''). Examples of sentences containing this sort of modal attribute are selected from the corpus material (Corpus W - all free accessible corpora - of the Institute for the German Language in Mannheim, Germany) to show that the modal participle must be interpreted as perfective in most of its sentence usages. Some elementary statistics are added to strengthen the arguments. and Vidový význam německého modálního participia I v německých gramatikách není zmiňován a ve speciální literatuře se předpokládá, že tento druh verbálního derivátu (např. besuchende - navštěvující/navštívící) má význam imperfektiva. Ve Štícha (2009) bylo ukázáno, že atributivní participium I bývá v němčině užíváno a chápáno také ve významu slovanského perfektiva. V tomto článku se speciálně zabýváme vidovým významem modálně užívaného participia I s volným syntaktickým morfémem zu (zu besuchende - ''mající být navštíven''). Na korpusovém materiálu (prohledáván byl Korpus W - všechny veřejně přístupné korpusy - mannheimského Ústavu pro německý jazyk) se ukazuje, že ve většině případů modálního užití participia I s zu jde o význam perfektivní. Na podporu teoretických argumentů je připojeno několik elementárních statistik.