Skip to search
Skip to main content
Skip to first result
Search
Search Results
Creator:
Mareček, David , Yu, Zhiwei , Zeman, Daniel , and Žabokrtský, Zdeněk
Publisher:
Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL)
Type:
text and corpus
Subject:
part of speech , tagging , semi-supervised , and cross-language
Language:
Belarusian , Bosnian , Bulgarian , Czech , Serbo-Croatian , Croatian , Upper Sorbian , Macedonian , Polish , Russian , Slovak , Slovenian , Serbian , Ukrainian , Latvian , Lithuanian , Afrikaans , Danish , German , English , Faroese , Western Frisian , Swiss German , Icelandic , Limburgan , Luxembourgish , Low German , Dutch , Norwegian Nynorsk , Norwegian , Scots , Swedish , Yiddish , Aragonese , Asturian , Catalan , French , Galician , Haitian , Italian , Latin , Lombard , Neapolitan , Piemontese , Portuguese , Romanian , Spanish , Venetian , Walloon , Breton , Welsh , Scottish Gaelic , Irish , Modern Greek (1453-) , Armenian , Albanian , Dimli (individual language) , Persian , Gilaki , Kurdish , Tajik , Bengali , Bishnupriya , Gujarati , Fiji Hindi , Hindi , Marathi , Nepali (macrolanguage) , Urdu , Amharic , Arabic , Egyptian Arabic , Hebrew , Estonian , Finnish , Hungarian , Basque , Georgian , Chuvash , Azerbaijani , Turkish , Uzbek , Kazakh , Tatar , Yakut , Korean , Mongolian , Telugu , Kannada , Malayalam , Tamil , Newari , Vietnamese , Indonesian , Javanese , Malagasy , Maori , Malay (macrolanguage) , Pampanga , Sundanese , Tagalog , Waray (Philippines) , Swahili (macrolanguage) , Esperanto , Ido , Interlingua (International Auxiliary Language Association) , and Volapük
Description:
Texts in 107 languages from the W2C corpus (http://hdl.handle.net/11858/00-097C-0000-0022-6133-9), first 1,000,000 tokens per language, tagged by the delexicalized tagger described in Yu et al. (2016, LREC, Portorož, Slovenia).
Rights:
Creative Commons - Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) , http://creativecommons.org/licenses/by-sa/4.0/ , and PUB
Creator:
Mareček, David , Yu, Zhiwei , Zeman, Daniel , and Žabokrtský, Zdeněk
Publisher:
Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL)
Type:
text and corpus
Subject:
part of speech , tagging , semi-supervised , and cross-language
Language:
Belarusian , Bosnian , Bulgarian , Czech , Serbo-Croatian , Croatian , Upper Sorbian , Macedonian , Polish , Russian , Slovak , Slovenian , Serbian , Ukrainian , Latvian , Lithuanian , Afrikaans , Danish , German , English , Faroese , Western Frisian , Swiss German , Icelandic , Limburgan , Luxembourgish , Low German , Dutch , Norwegian Nynorsk , Norwegian , Scots , Swedish , Yiddish , Aragonese , Asturian , Catalan , French , Galician , Haitian , Italian , Latin , Lombard , Neapolitan , Piemontese , Portuguese , Romanian , Spanish , Venetian , Walloon , Breton , Welsh , Scottish Gaelic , Irish , Modern Greek (1453-) , Armenian , Albanian , Dimli (individual language) , Persian , Gilaki , Kurdish , Tajik , Bengali , Bishnupriya , Gujarati , Fiji Hindi , Hindi , Marathi , Nepali (macrolanguage) , Urdu , Amharic , Arabic , Egyptian Arabic , Hebrew , Estonian , Finnish , Hungarian , Basque , Georgian , Chuvash , Azerbaijani , Turkish , Uzbek , Kazakh , Tatar , Yakut , Korean , Mongolian , Telugu , Kannada , Malayalam , Tamil , Newari , Vietnamese , Indonesian , Javanese , Malagasy , Maori , Malay (macrolanguage) , Pampanga , Sundanese , Tagalog , Waray (Philippines) , Swahili (macrolanguage) , Esperanto , Ido , Interlingua (International Auxiliary Language Association) , and Volapük
Description:
Texts in 107 languages from the W2C corpus (http://hdl.handle.net/11858/00-097C-0000-0022-6133-9), first 1,000,000 tokens per language, tagged by the delexicalized tagger described in Yu et al. (2016, LREC, Portorož, Slovenia).
Changes in version 1.1:
1. Universal Dependencies tagset instead of the older and smaller Google Universal POS tagset.
2. SVM classifier trained on Universal Dependencies 1.2 instead of HamleDT 2.0.
3. Balto-Slavic languages, Germanic languages and Romance languages were tagged by classifier trained only on the respective group of languages. Other languages were tagged by a classifier trained on all available languages. The "c7" combination from version 1.0 is no longer used.
Rights:
Creative Commons - Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) , http://creativecommons.org/licenses/by-sa/4.0/ , and PUB
Type:
text and sborníky
Subject:
Genealogie. Heraldika. Šlechta. Vlajky , dvory , rezidence , and české (československé) sborníky a kolektivní monografie
Language:
Czech , English , French , German , Latin , and Polish
Description:
Příspěvky z 2. kolokvia konaného 18.-19. října 2007, které uspořádal Historický ústav Akademie věd České republiky ve spolupráci s Archivem hlavního města Prahy a Ústavem českých dějin Filozofické fakulty Univerzity Karlovy
Rights:
unknown
Type:
text and sborníky
Subject:
Genealogie. Heraldika. Šlechta. Vlajky , dvory , rezidence , and české (československé) sborníky a kolektivní monografie
Language:
Czech , English , French , German , Latin , and Polish
Description:
Příspěvky z 2. kolokvia konaného 18.-19. října 2007, které uspořádal Historický ústav Akademie věd České republiky ve spolupráci s Archivem hlavního města Prahy a Ústavem českých dějin Filozofické fakulty Univerzity Karlovy
Rights:
unknown
Creator:
Zeman, Daniel , Mareček, David , Mašek, Jan , Popel, Martin , Ramasamy, Loganathan , Rosa, Rudolf , Štěpánek, Jan , and Žabokrtský, Zdeněk
Publisher:
Charles University
Type:
text and corpus
Subject:
annotated corpus , morphology , syntax , dependency , treebank , harmonized annotation , and common annotation style
Language:
Arabic , Basque , Bengali , Bulgarian , Catalan , Croatian , Czech , Danish , Dutch , English , Estonian , Finnish , French , German , Modern Greek (1453-) , Ancient Greek (to 1453) , Hebrew , Hindi , Hungarian , Indonesian , Irish , Italian , Japanese , Latin , Persian , Polish , Portuguese , Romanian , Russian , Slovak , Slovenian , Spanish , Swedish , Tamil , Telugu , and Turkish
Description:
HamleDT (HArmonized Multi-LanguagE Dependency Treebank) is a compilation of existing dependency treebanks (or dependency conversions of other treebanks), transformed so that they all conform to the same annotation style. This version uses Universal Dependencies as the common annotation style.
Update (November 1017): for a current collection of harmonized dependency treebanks, we recommend using the Universal Dependencies (UD). All of the corpora that are distributed in HamleDT in full are also part of the UD project; only some corpora from the Patch group (where HamleDT provides only the harmonizing scripts but not the full corpus data) are available in HamleDT but not in UD.
Rights:
HamleDT 3.0 License Terms , https://lindat.mff.cuni.cz/repository/xmlui/page/licence-hamledt-3.0 , and PUB
Type:
text and sborníky jubilejní
Subject:
Dějiny Česka a Slovenska , Šmahel, František, , husitství , reformace , renesance , dějiny české , dějiny evropské , české (československé) sborníky a kolektivní monografie , české země 1306-1526 , přehledná zpracování (tematicky) , and světové dějiny středověku (do r. 1492)
Language:
Czech , English , French , German , Polish , and Latin
Description:
Souběžná anglická titulní strana and Z technických důvodů vydáno ve 3 svazcích
Rights:
unknown
Creator:
Davies, Norman,
Type:
text and monografie
Subject:
Dějiny zemí střední Evropy , města polská , dějiny měst , Polsko , přehledná zpracování světových dějin (chronologicky) , města, obce , and české země 1306-1526
Language:
Czech , English , French , German , Latin , and Polish
Description:
Přeloženo z angličtiny
Rights:
unknown
Creator:
Davies, Norman,
Type:
text and monografie
Subject:
Dějiny zemí střední Evropy , města polská , dějiny měst , Polsko , města, obce , přehledná zpracování světových dějin (chronologicky) , and české země 1306-1526
Language:
Czech , English , French , German , Latin , and Polish
Description:
Přeloženo z angličtiny
Rights:
unknown
Type:
text and sborníky jubilejní
Subject:
Historická věda. Pomocné vědy historické. Archivnictví , Hlaváček, Ivan, , dvory panovnické , prameny písemné , kultura písemná , panovníci , české (československé) sborníky a kolektivní monografie , české země od příchodu Slovanů do roku 1306 , české země 1306-1526 , přehledná zpracování (tematicky) , světové dějiny středověku (do r. 1492) , and pomocné vědy historické
Language:
Czech , English , French , German , Latin , and Polish
Rights:
unknown
Type:
text and sborníky jubilejní
Subject:
Historická věda. Pomocné vědy historické. Archivnictví , Hlaváček, Ivan, , dvory panovnické , prameny písemné , kultura písemná , panovníci , české (československé) sborníky a kolektivní monografie , české země od příchodu Slovanů do roku 1306 , české země 1306-1526 , přehledná zpracování (tematicky) , světové dějiny středověku (do r. 1492) , and pomocné vědy historické
Language:
Czech , English , French , German , Latin , and Polish
Rights:
unknown