The use of bohemisms in current Slovak is being increasingly discussed not only among Slovak linguists, but also by the lay public. Using the language data in the Slovak national corpus and comparing the contact (KV) and non-contact (NV) variants, the author seeks to prove the validity of the opinion that bohemisms are spreading in Slovak to a more than acceptable extent, i.e. above all at the expense of the original Slovak vocabulary. The examined sample contained 306 bohemisms (i.e. KV) and non-contact variants; another part of the analysis consisted of comparing the attributive extension of the pronouns nič and niečo by a postponed adjective in genitive (bohemism) and in accusative/nominative (NV, original variant) - tested with 150 adjectives. Using frequency distribution as basis, we determined the quantitative relation between the contact variant (bohemism) and its non-contact counterpart. According to the level of competition we defined 3 groups. Group I: the non-contact (original) variant prevails over a bohemism; group II: the bohemism and the non-contact variant exist next to each other in a balanced ratio; group III: the bohemism has a higher frequency than the non-contact variant. The established values have shown that a considerable amount of the bohemisms we followed on one hand covers a not neglectable space but - with a few exceptions -bohemisms do not push out the original variants into the margin of the language system.
Tento článek používá empirická data za účelem kontextualizace a shrnutí postojů Čechů ke slovenštině a jejich představ o znalosti slovenštiny. Klade si dále za cíl osvětlit změny, které nastaly po roce 1989, a přispět v obecnějším smyslu k existujícím poznatkům o česko-slovenských jazykových vztazích. Zároveň také usiluje o vyzdvižení obtížnosti při vymezení statutu dvou zeměpisně přilehlých kontaktních jazyků, jejichž identitu mluvčí definují ve stejné míře pomocí sdílené politické a historické zkušenosti (zejména ve dvacátém století) a jejich etnických, kulturních a jazykových rozdílů. Evidence je primárně shromážděna ze dvou celonárodních výzkumů, provedených pro autora v Centru pro výzkum veřejného mínění Sociologického ústavu AV ČR, v.v.i.: „Postoje českých mluvčích k lexikálním výpůjčkám“ (dále jen „Postoje“) a „Češi a slovenština“. Obsah a metodologie těchto výzkumů jsou založeny na různé řadě diachronních a synchronních dat, zejména pak studie z roku 1971 v Institutu pro výzkum veřejného mínění (předchůdce CVVM), a tří rozsáhlých průzkumů Evropské unie., This study employs a r ange of up-to-date statistical information, including the findings of two nationwide sur- veys conducted on the author’s behalf, to evaluate current perceptions of Slovak in the Czech Republic. Where appropriate, the results are compared with the evidence of other questionnaires (including Tejnor: 1971)., and Tom Dickins.
Slovak morphological dictionary modeled after the Czech one. It consists of (word form, lemma, POS tag) triples, reusing the Czech morphological system for POS tags and lemma descriptions.
Slovak models for MorphoDiTa, providing morphological analysis, morphological generation and part-of-speech tagging.
The morphological dictionary is created from MorfFlex SK 170914 and the PoS tagger is trained on automatically translated Prague Dependency Treebank 3.0 (PDT).
Testing set from WMT 2011 [1] competition, manually translated from Czech and English into Slovak. Test set contains 3003 sentences in Czech, Slovak and English. Test set is described in [2].
References:
[1] http://www.statmt.org/wmt11/evaluation-task.html
[2] Petra Galuščáková and Ondřej Bojar. Improving SMT by Using Parallel Data of a Closely Related Language. In Human Language Technologies - The Baltic Perspective - Proceedings of the Fifth International Conference Baltic HLT 2012, volume 247 of Frontiers in AI and Applications, pages 58-65, Amsterdam, Netherlands, October 2012. IOS Press. and The work on this project was supported by the grant EuroMatrixPlus (FP7-ICT-
2007-3-231720 of the EU and 7E09003 of the Czech Republic)