Automatic segmentation, tokenization and morphological and syntactic annotations of raw texts in 45 languages, generated by UDPipe (http://ufal.mff.cuni.cz/udpipe), together with word embeddings of dimension 100 computed from lowercased texts by word2vec (https://code.google.com/archive/p/word2vec/).
For each language, automatic annotations in CoNLL-U format are provided in a separate archive. The word embeddings for all languages are distributed in one archive.
Note that the CC BY-SA-NC 4.0 license applies to the automatically generated annotations and word embeddings, not to the underlying data, which may have different license and impose additional restrictions.
Update 2018-09-03
===============
Added data in the 4 “surprise languages” from the 2017 ST: Buryat, Kurmanji, North Sami and Upper Sorbian. This has been promised before, during CoNLL-ST 2018 we gave the participants a link to this record saying the data was here. It wasn't, sorry. But now it is.
Baseline UDPipe models for CoNLL 2017 Shared Task in UD Parsing, and supplementary material.
The models require UDPipe version at least 1.1 and are evaluated using the official evaluation script.
The models are trained on a slightly different split of the official UD 2.0 CoNLL 2017 training data, so called baselinemodel split, in order to allow comparison of models even during the shared task. This baselinemodel split of UD 2.0 CoNLL 2017 training data is available for download.
Furthermore, we also provide UD 2.0 CoNLL 2017 training data with automatically predicted morphology. We utilize the baseline models on development data and perform 10-fold jack-knifing (each fold is predicted with a model trained on the rest of the folds) on the training data.
Finally, we supply all required data and hyperparameter values needed to replicate the baseline models.
Baseline UDPipe models for CoNLL 2018 Shared Task in UD Parsing, and supplementary material.
The models require UDPipe version at least 1.2 and are evaluated using the official evaluation script. The models were trained using a custom data split for treebanks where no development data is provided. Also, we trained an additional "Mixed" model, which uses 200 sentences from every training data. All information needed to replicate the model training (hyperparameters, modified train-dev split, and pre-computed word embeddings for the parser) are included in the archive.
Additionaly, we provide UD 2.2 CoNLL 2018 training data with automatically predicted morphology. We utilize the baseline models on development data and perform 10-fold jack-knifing (each fold is predicted with a model trained on the rest of the folds) on the training data.
Obsah: F. Kavka: La Bohême hussite et les projets de paix de Georges de Podiěbrad; F. Seibt: Die hussitische Revolution und die europäische Gesellschaft; J. Irmscher: Die Gestalt Georgs von Poděbrad im deutschen historischen Lied; V. Vaněček: Le projet du roi Georges sous l'aspect de l'histoire du droit; R. Bierzanek: Les nouveaux éléments politiques et sociaux dans le projet du roi Georges Podiébrad; J. Kejř: Manuscrits, éditions et traductions du projet; F.G. Heymann: International Relations in Mid-fifteenth Century Europe and Their Significance for the Peace Plan of King George; R. Heck: Polen und das Friedensprojekt Georgs von Podiebrad; V.L. Tapié: Le projet pacifique de Georges et la politique française: V. Outrata: Some Legal Principles Reflected in the Project and Their Historical Perspective; T. Kardos: Die Ideen des Humanismus und des allgemeinen Friedens; E. Winter: vom Defensor pacis des Marsilius von Padua (1324) bis zum Amator pacis Georg von Podiebrad (1464); V.M. Koreckij: Projekt Irži Podebrada ob organizacii mira i sovremennost'; F. Šmahel: Problěmes rattachés aux recherches sur le projet pacifique du roi Georges; R. Kalivoda: Die hussitische Revolution und die Podiebrader Epoche; L.P. Lapteva: Epocha Irži iz Podebrad v russkoj dorevoljucionnoj istoriografii; M. Horvat: Comparaison des projets de paix de Georges de Podiébrad avec les projets précé dents et suivants.
Edice německo-česko-latinské cechovní knihy pražských malířů a štítařů z let 1348-1527 s německým historicko-kodikologickým úvodem a poznámkami pod textem edice., Rukopis, jehož edice jest obsahem této knihy, byl darován hr. Kašparem Šternberkem r. 1802 Společnosti vlasteneckých přátel umění, předchůdkyni dnešní Národní galerie v Praze (s. 2). Úvod dále seznamuje čtenáře nejen s vlatními dějinami cechu, ale i s lingvistickými proplémy při luštění jeho německého i českého textu. Vlastní edice (s. 61-97) přináší k roku založení cechu (r. 1348) cechovní statuta v paralenmí středohornoněmeckém a českém znění. Zápisy - vesměs latiské nebo české - k dalším rokům zaznamenávají jak usnesení cechovních schůzí, včetně změn stanov, tak i dobové přehledy jeho členů., Oborové slovníky, encyklopedie, bibliografie., Osobnosti., Dějiny., and Autoři komentářů:
Pangerl, Matthias, 1834-1879 ;
Woltmann, Alfred, 1841-1880