Skip to search
Skip to main content
Skip to first result
Search
Search Results
Creator:
Danova, Nadja
Type:
text and studie
Subject:
Lingvistika. Jazyky , Dobrovski, Ivan, , jazyk bulharský , časopisy , Bulharsko , světové dějiny 1789-1918 , jazyk, písmo , české země 1848-1914 , and dějiny slavistiky
Language:
Bulgarian
Description:
Ivan Dobrovsky's Reflections on XIXth century Bulgarian Laguage (Bulgarian Journal "Mirozrenie").
Rights:
unknown
Creator:
Baeva, Iskra,
Subject:
vztahy mezinárodní , dějiny politické , Pražské jaro (1968) , Mnichov 1938, Pražské jaro 1968, okupace 1939, 1968 , and Československo 1948-1969
Language:
Bulgarian
Description:
The Eastern Bloc Countries year of Crisis.
Rights:
unknown
Type:
text and sborníky konferenční
Subject:
Dějiny zemí starověkého světa , konference vědecké , antika , antický svět , zahraniční periodika a sborníky , and zahraniční konference, kongresy
Language:
Bulgarian
Rights:
unknown
Creator:
Angelov, Dimităr Simeonov,
Type:
text and monografie
Subject:
Dějiny států a území na Balkánském poloostrově , dějiny hospodářské , zemědělství , zemědělci , hospodářství vrchnostenské , Makedonie , církevní správa a hospodářství , světové dějiny středověku (do r. 1492) , and zemědělci, řemeslníci, poddaní
Language:
Bulgarian
Rights:
unknown
Creator:
Savary, Agata , Ramisch, Carlos , Cordeiro, Silvio Ricardo , Sangati, Federico , Vincze, Veronika , QasemiZadeh, Behrang , Candito, Marie , Cap, Fabienne , Giouli, Voula , Stoyanova, Ivelina , Doucet, Antoine , Adalı, Kübra , Barbu Mititelu, Verginica , Bejček, Eduard , El Maarouf, Ismail , Eryiğit, Gülşen , Galea, Luke , Ha-Cohen Kerner, Yaakov , Liebeskind, Chaya , Monti, Johanna , Parra Escartín, Carla , Kovalevskaitė, Jolanta , Krek, Simon , van der Plas, Lonneke , Aceta, Cristina , Aduriz, Itziar , Antoine, Jean-Yves , Attard, Greta , Azzopardi, Kirsty , Boizou, Loic , Bonnici, Janice , Boz, Mert , Bumbulienė, Ieva , Busuttil, Jael , Caruso, Valeria , Cherchi, Manuela , Constant, Matthieu , Czerepowicka, Monika , De Santis, Anna , Dimitrova, Tsvetana , Dinç, Tutkum , Elyovich, Hevi , Fabri, Ray , Farrugia, Alison , Findlay, Jamie , Fotopoulou, Aggeliki , Foufi, Vassiliki , Galea, Sara Anne , Gantar, Polona , Gatt, Albert , Gatt, Anabelle , Herrero, Carlos , Iñurrieta, Uxoa , Jagfeld, Glorianna , Hnátková, Milena , Ionescu, Mihaela , Klyueva, Natalia , Koeva, Svetla , Kovács, Viktória , Kuzman, Taja , Leseva, Svetlozara , Louisou, Sevi , Lynn, Teresa , Malka, Ruth , Martínez Alonso, Héctor , McCrae, John , de Medeiros Caseli, Helena , Miral, Ayşenur , Muscat, Amanda , Nivre, Joakim , Oakes, Michael , Onofrei, Mihaela , Parmentier, Yannick , Pasquer, Caroline , Pia di Buono, Maria , Priego Sanchez, Belem , Raffone, Annalisa , Ramisch, Renata , Rimkutė, Erika , Rizea, Monica-Mihaela , Simkó, Katalin , Spagnol, Michael , Stefanova, Valentina , Stymne, Sara , Sulubacak, Umut , Tabone, Nicole , Tanti, Marc , Todorova, Maria , Urešová, Zdenka , Villavicencio, Aline , and Zilio, Leonardo
Publisher:
PARSEME
Type:
text and corpus
Subject:
Multiword expressions , verbal multiword expressions , idioms , light-verb constructions , verb-particle constructions , and inherently reflexive verbs
Language:
Bulgarian , Czech , German , Modern Greek (1453-) , Spanish , Persian , French , Hebrew , Hungarian , Italian , Lithuanian , Maltese , Polish , Portuguese , Romanian , Slovenian , Swedish , and Turkish
Description:
The PARSEME shared task aims at identifying verbal MWEs in running texts. Verbal MWEs include idioms (let the cat out of the bag), light verb constructions (make a decision), verb-particle constructions (give up), and inherently reflexive verbs (se suicider 'to suicide' in French). VMWEs were annotated according to the universal guidelines in 18 languages. The corpora are provided in the parsemetsv format, inspired by the CONLL-U format.
For most languages, paired files in the CONLL-U format - not necessarily using UD tagsets - containing parts of speech, lemmas, morphological features and/or syntactic dependencies are also provided. Depending on the language, the information comes from treebanks (e.g., Universal Dependencies) or from automatic parsers trained on treebanks (e.g., UDPipe).
This item contains training and test data, tools and the universal guidelines file.
Rights:
PARSEME Shared Task Data (v. 1.0) Agreement , https://lindat.mff.cuni.cz/repository/xmlui/page/licence-mwe-1.0 , and PUB
Creator:
Ramisch, Carlos , Cordeiro, Silvio Ricardo , Savary, Agata , Vincze, Veronika , Barbu Mititelu, Verginica , Bhatia, Archna , Buljan, Maja , Candito, Marie , Gantar, Polona , Giouli, Voula , Güngör, Tunga , Hawwari, Abdelati , Iñurrieta, Uxoa , Kovalevskaitė, Jolanta , Krek, Simon , Lichte, Timm , Liebeskind, Chaya , Monti, Johanna , Parra Escartín, Carla , QasemiZadeh, Behrang , Ramisch, Renata , Schneider, Nathan , Stoyanova, Ivelina , Vaidya, Ashwini , Walsh, Abigail , Aceta, Cristina , Aduriz, Itziar , Antoine, Jean-Yves , Arhar Holdt, Špela , Berk, Gözde , Bielinskienė, Agnė , Blagus, Goranka , Boizou, Loic , Bonial, Claire , Caruso, Valeria , Čibej, Jaka , Constant, Matthieu , Cook, Paul , Diab, Mona , Dimitrova, Tsvetana , Ehren, Rafael , Elbadrashiny, Mohamed , Elyovich, Hevi , Erden, Berna , Estarrona, Ainara , Fotopoulou, Aggeliki , Foufi, Vassiliki , Geeraert, Kristina , van Gompel, Maarten , Gonzalez, Itziar , Gurrutxaga, Antton , Ha-Cohen Kerner, Yaakov , Ibrahim, Rehab , Ionescu, Mihaela , Jain, Kanishka , Jazbec, Ivo-Pavao , Kavčič, Teja , Klyueva, Natalia , Kocijan, Kristina , Kovács, Viktória , Kuzman, Taja , Leseva, Svetlozara , Ljubešić, Nikola , Malka, Ruth , Markantonatou, Stella , Martínez Alonso, Héctor , Matas, Ivana , McCrae, John , de Medeiros Caseli, Helena , Onofrei, Mihaela , Palka-Binkiewicz, Emilia , Papadelli, Stella , Parmentier, Yannick , Pascucci, Antonio , Pasquer, Caroline , Pia di Buono, Maria , Puri, Vandana , Raffone, Annalisa , Ratori, Shraddha , Riccio, Anna , Sangati, Federico , Shukla, Vishakha , Simkó, Katalin , Šnajder, Jan , Somers, Clarissa , Srivastava, Shubham , Stefanova, Valentina , Taslimipoor, Shiva , Theoxari, Natasa , Todorova, Maria , Urizar, Ruben , Villavicencio, Aline , and Zilio, Leonardo
Publisher:
PARSEME
Type:
text and corpus
Subject:
Multiword expressions , verbal multiword expressions , light-verb constructions , verb-particle constructions , inherently reflexive verbs , verbal idioms , and multi-verb constructions
Language:
Bulgarian , German , Modern Greek (1453-) , Spanish , Persian , French , Hebrew , Hungarian , Italian , Lithuanian , Polish , Portuguese , Romanian , Slovenian , Turkish , Hindi , Basque , English , and Croatian
Description:
This multilingual resource contains corpora in which verbal MWEs have been manually annotated. VMWEs include idioms (let the cat out of the bag), light-verb constructions (make a decision), verb-particle constructions (give up), inherently reflexive verbs (help oneself), and multi-verb constructions (make do). VMWEs were annotated according to the universal guidelines in 19 languages. The corpora are provided in the cupt format, inspired by the CONLL-U format. The corpora were used in the 1.1 edition of the PARSEME Shared Task (2018).
For most languages, morphological and syntactic information – not necessarily using UD tagsets – including parts of speech, lemmas, morphological features and/or syntactic dependencies are also provided. Depending on the language, the information comes from treebanks (e.g., Universal Dependencies) or from automatic parsers trained on treebanks (e.g., UDPipe).
This item contains training, development and test data, as well as the evaluation tools used in the PARSEME Shared Task 1.1 (2018).
The annotation guidelines are available online: http://parsemefr.lif.univ-mrs.fr/parseme-st-guidelines/1.1
Rights:
PARSEME Shared Task Data (v. 1.1) Agreement , https://lindat.mff.cuni.cz/repository/xmlui/page/licence-mwe-1.1 , and PUB
Creator:
Marcholeva, Krasimira Laleva,
Subject:
Sís, Vladimír, , novináři , válka první světová (1914-1918) , politici , Češi bulharští , vztahy česko-bulharské , odboj první (protirakouský) , politické dějiny, politici , světové dějiny 1914-1918 , Bulharsko , and české země 1914-1918
Language:
Bulgarian
Description:
The Anti-Habsburg Propaganda of Vladimir Sis and the "Čech" Organization During Bulgarian Neutrality in WWI (1914-1915).
Rights:
unknown
Type:
text and sborníky
Subject:
Mezinárodní vztahy, světová politika , hnutí protiválečná , and zahraniční periodika a sborníky
Language:
Bulgarian
Rights:
unknown
Creator:
Karag'ozov, Panajot,
Type:
text and medailony
Subject:
Slovanské literatury (o nich) , Wollman, Slavomír, , slavisté , české země od r. 1993 do současnosti , Československo 1945-1992 , and dějiny slavistiky
Language:
Bulgarian
Rights:
unknown
Creator:
Černý, Marcel,
Type:
text and studie
Subject:
Dějiny států a území na Balkánském poloostrově , Sáva, , Onufrij Popovič Chilendarski, , kláštery řecké , korespondence , mniši , edice , církve bulharské , buditelé , Bulhaři , Bulharsko , světové dějiny 1789-1918 , and církevní a náboženské dějiny
Language:
Bulgarian
Description:
Archimandrite Onufrij Popovič of Hilandar (Bogdan Popivanov) in the Light of his Correspondence (on the Forgotten edition prepared by the Czech Monk Sava of Hilandar).
Rights:
unknown
Creator:
Vačkova, Kina,
Subject:
Stojanov, Vasil, , vztahy česko-bulharské , vztahy kulturní , prameny archivní , světové dějiny 1789-1918 , Bulharsko , české země 1792-1918 , and dějiny vědy, umění, kultury a techniky, kulturní vztahy
Language:
Bulgarian
Rights:
unknown
Creator:
Mutafčiev, Petăr,
Type:
text and monografie
Subject:
Dějiny států a území na Balkánském poloostrově , středověk , Bulharsko , Rumunsko , politické dějiny, politici , and světové dějiny středověku (do r. 1492)
Language:
Bulgarian
Rights:
unknown
Creator:
Baeva, Iskra,
Type:
text and monografie
Subject:
Mezinárodní vztahy, světová politika , vztahy mezinárodní , Bulharsko , světové dějiny od r. 1918 do současnosti , and politické dějiny, politici
Language:
Bulgarian
Rights:
unknown
Creator:
Dančeva-Vasileva, Anka Jankova,
Type:
text and monografie
Subject:
Mezinárodní vztahy, světová politika , vztahy mezinárodní , Bulharsko , světové dějiny středověku (do r. 1492) , and zahraniční politika, mezinárodní vztahy
Language:
Bulgarian
Rights:
unknown
Creator:
Primov, Borislav Svetozarov
Type:
text and studie
Subject:
Dějiny států a území na Balkánském poloostrově , hereze , bogomilové , Bulharsko , církve, sekty , and světové dějiny středověku (do r. 1492)
Language:
Bulgarian
Rights:
unknown
Creator:
Lazarov, Michail G.,
Type:
text and bibliografie
Subject:
Dějiny států a území na Balkánském poloostrově , bibliografie oborové , historiografie bulharská , and bibliografie oborové a tematické, rejstříky časopisů
Language:
Bulgarian
Rights:
unknown
Creator:
Rychlík, Jan,
Type:
studie
Subject:
Dějiny Česka a Slovenska , služby zpravodajské , vztahy česko-bulharské , Bulharsko , světové dějiny 1939-1945 , politické dějiny, politici , Československo 1938-1945 , and zahraniční politika, mezinárodní vztahy
Language:
Bulgarian
Rights:
unknown
Creator:
Mišev, Dimităr,
Type:
text and monografie
Subject:
Dějiny států a území na Balkánském poloostrově , dějiny států , Bulharsko , přehledná zpracování světových dějin (chronologicky) , and přehledná zpracování (tematicky)
Language:
Bulgarian
Rights:
unknown
Creator:
Dimitrov, Božidar,
Type:
text and monografie
Subject:
Geodezie. Kartografie , kartografie , mapy námořní , mapy portolánové , geografie historická , Bulharsko , and zahraniční historická geografie a kartografie
Language:
Bulgarian
Rights:
unknown
Creator:
Angelov, Dimităr Simeonov,
Type:
text and monografie
Subject:
Dějiny států a území na Balkánském poloostrově , kultura duchovní , ideologie , etika , filozofie , myšlení středověké , Bulharsko , dějiny společnosti , and světové dějiny středověku (do r. 1492)
Language:
Bulgarian
Rights:
unknown
Creator:
Vasilev, Vasil Atanasov,
Type:
text
Subject:
Mezinárodní vztahy, světová politika , vztahy československo-bulharské , politika zahraniční , Bulharsko , zahraniční politika, mezinárodní vztahy , Československo 1918-1938 , and světové dějiny 1918-1945
Language:
Bulgarian
Rights:
unknown
Type:
text and sborníky
Subject:
Slovanské literatury , literatura česká , literatura bulharská , vztahy literární , and zahraniční periodika a sborníky
Language:
Czech and Bulgarian
Rights:
unknown
Type:
text and sborníky
Subject:
Dějiny států a území na Balkánském poloostrově , Simeon , historiografie bulharská , Bulharsko , politické dějiny, politici , světové dějiny středověku (do r. 1492) , and zahraniční periodika a sborníky
Language:
Bulgarian
Rights:
unknown
Creator:
Jireček, Konstantin Josef,
Type:
text and deníky
Subject:
Dějiny civilizace. Kulturní dějiny , Jireček, Konstantin Josef, , světové dějiny 1789-1918 , Bulharsko , historici (jubilea, nekrology apod.) , české země 1848-1914 , dějiny vědy, umění, kultury a techniky, kulturní vztahy , and dějepisectví, historické vědy, historici
Language:
Bulgarian
Description:
Fototyp. vydání z roku 1930, přel. St. Argirov
Rights:
unknown
Creator:
Jireček, Konstantin Josef,
Type:
text and deníky
Subject:
Dějiny civilizace. Kulturní dějiny , Jireček, Konstantin Josef, , světové dějiny 1789-1918 , Bulharsko , historici (jubilea, nekrology apod.) , české země 1848-1914 , dějiny vědy, umění, kultury a techniky, kulturní vztahy , and dějepisectví, historické vědy, historici
Language:
Bulgarian
Description:
Fototyp. vydání z roku 1930, přel. St. Argirov.
Rights:
unknown
Creator:
Jireček, Konstantin Josef,
Type:
text and deníky
Subject:
Dějiny států a území na Balkánském poloostrově , Jireček, Konstantin Josef, , deníky , vztahy česko-bulharské , Bulhaři , historici , slavisté , české země 1848-1914 , Bulharsko , světové dějiny 1789-1918 , dějiny vědy, umění, kultury a techniky, kulturní vztahy , and zahraniční politika, mezinárodní vztahy
Language:
Bulgarian
Rights:
unknown
Creator:
Zdvořáková, Radomíra
Type:
text and studie
Subject:
Mezinárodní vztahy, světová politika , Masaryk, Tomáš Garrigue, , politické dějiny, politici , zahraniční politika, mezinárodní vztahy , světové dějiny 1918-1945 , Bulharsko , and Československo 1918-1938
Language:
Bulgarian
Rights:
unknown
Creator:
Ivanov, Jordan Nikolov,
Type:
text and prameny
Subject:
Historická věda. Pomocné vědy historické. Archivnictví , Slované , Bulhaři , Bulharsko , přehledná zpracování (tematicky) , and světové dějiny středověku (do r. 1492)
Language:
Bulgarian
Rights:
unknown
Creator:
Jakoubková Budilová, Lenka,
Type:
text and monografie
Subject:
Sociologie kultury. Kulturní život , Češi bulharští , antropologie sociální , život náboženský , Bulharsko , světové dějiny od r. 1918 do současnosti , migrace, vystěhovalectví, kolonizace , and Československo 1918-1992
Language:
Bulgarian
Rights:
unknown
Creator:
Penčev, Vladimir Georgiev,
Type:
text and monografie
Subject:
Globální společnosti. Sociální struktura. Sociální skupiny , Bulhaři čeští , Bulhaři slovenští , Bulhaři rakouští , menšiny národnostní , vystěhovalectví , identita národnostní , české země 1848-1918 , Československo 1918-1992 , Bulharsko , Rakousko , světové dějiny 1789-1918 , světové dějiny od r. 1918 do současnosti , migrace, vystěhovalectví, kolonizace , and jiné národnostní menšiny (Poláci, Rusíni, Lužičtí Srbové atd.)
Language:
Bulgarian
Rights:
unknown
Creator:
Grigorova, Žoržeta
Type:
text and sborníky
Subject:
Dějiny států a území na Balkánském poloostrově , vztahy mezinárodní , zahraniční politika, mezinárodní vztahy , and světové dějiny od r. 1945 do současnosti
Language:
Bulgarian
Rights:
unknown
Creator:
Kuzmanova, Antonina Nikolova,
Type:
text and monografie
Subject:
Mezinárodní vztahy, světová politika , politika zahraniční , Rumunsko , politické dějiny, politici , and světové dějiny 1918-1945
Language:
Bulgarian
Rights:
unknown
Creator:
Vasileva-Karag'ozova, Svetlana
Type:
text and studie
Subject:
Slovanské literatury (o nich) , Bechyňová, Věnceslava, , bulharistika , bulharisté , baroko , literatura bulharská , světové dějiny novověku (1492-1918) , Bulharsko , Československo 1918-1992 , literatura, spisovatelé , and dějiny slavistiky
Language:
Bulgarian
Rights:
unknown
Creator:
Georgieva, Sonja
Type:
text and bibliografie
Subject:
Archeologie , Bulharsko , dějepisectví, historické vědy, historici , světové dějiny 1789-1918 , světové dějiny od r. 1918 do současnosti , přehledná zpracování (tematicky) , přehledná zpracování světových dějin (chronologicky) , bibliografie oborové a tematické, rejstříky časopisů , and dějiny archeologie
Language:
Bulgarian
Description:
S paralel. nazv. i prod. na frenski ezik and BAN. Archeologičeski institut. Centralna biblioteka
Rights:
unknown
Creator:
Kosev, Konstantin Dimitrov,
Type:
text and monografie
Subject:
Mezinárodní vztahy, světová politika , Bismarck, Otto von, , vztahy německo-bulharské , válka rusko-turecká (1877-1878) , Bulharsko , světové dějiny 1789-1918 , zahraniční politika, mezinárodní vztahy , and Německo
Language:
Bulgarian
Rights:
unknown
Creator:
Chakov, Džengiz
Subject:
vztahy bulharsko-turecké , dokumenty archivní , zahraniční politika, mezinárodní vztahy , světové dějiny 1918-1945 , Bulharsko , and Turecko
Language:
Bulgarian
Rights:
unknown
Creator:
Kolev, Stojko
Type:
text and monografie
Subject:
Dějiny států a území na Balkánském poloostrově , strany politické komunistické , hnutí antifašistická , Bulharsko , politické strany a hnutí, volby , and světové dějiny 1918-1945
Language:
Bulgarian
Rights:
unknown
Creator:
Todorov, Angel,
Type:
text and monografie
Subject:
Dějiny států a území na Balkánském poloostrově , strany politické sociálně demokratické , strany politické socialistické , Bulharsko , politické strany a hnutí, volby , and světové dějiny 1789-1918
Language:
Bulgarian
Rights:
unknown
Type:
text and sborníky
Subject:
Mezinárodní vztahy, světová politika , odbory , třída dělnická , sborníky tematické , země rozvojové , sociální péče, odbory , and světové dějiny od r. 1945 do současnosti
Language:
Bulgarian
Rights:
unknown
Type:
text and bibliografie
Subject:
Literatura (teorie) , Bibliografie. Katalogy , Jocov, Boris, , slavisté bulharští , bohemisté bulharští , historici literární , bibliografie personální , Bulharsko , světové dějiny 1918-1945 , dějiny slavistiky , and personální bibliografie
Language:
Bulgarian
Rights:
unknown
Type:
corpus
Language:
Bulgarian
Description:
Written, synchronic, general (newspapers)
Rights:
Not specified
Type:
corpus
Language:
Bulgarian and Croatian
Description:
written; domain-specific (newspaper); diachronic; bilingual; comparable; ca 3,500,000 tokens (393 Kw Bulgarian; 3.1 Mw Croatian)
Rights:
Not specified
Type:
corpus
Language:
Bulgarian
Description:
HPSG-based annotation including: constituent structure, dependency relations, named entities (classified as person, organisation, location or other names), coreferential relations. Annotation in XML
Rights:
Not specified
Type:
lexicalConceptualResource
Language:
Bulgarian
Description:
100 000 most frequent Cyrillic tokens in the BulTreeBank text archive, UTF-16 list of token-frequency pairs
Rights:
Not specified
Type:
corpus
Language:
Bulgarian
Description:
Written, synchronic, general, manually annotated, 1 000 000 tokens divided in three sets: 215 000 tokens used in BulTreeBank HPSG Treebank (see below), additionally 300 000 checked second time, rest about 480 000 checked by the annotators. Morphosyntactic annotation with the BulTreeBank Tagset (http://www.bultreebank.org/TechRep/BTB-TR03.pdf), XML, annotation description in technical reports of BulTreeBank project http://www.bultreebank.org/TechRep
Rights:
Not specified
Type:
corpus
Language:
Bulgarian
Description:
Written, synchronic, general, manually annotated; 50 000 tokens, 2600 sentences extracted from the BulTreeBank Text Archive in order to contain the most frequent ambiguity classes in Bulgarian
Rights:
Not specified
Type:
lexicalConceptualResource
Language:
Bulgarian
Description:
805 prepositions, pronouns, etc stop words, UTF-16 list of wordforms
Rights:
Not specified
Type:
corpus
Language:
Bulgarian
Description:
72 000 000 tokens, 15% fiction, 78% newspapers and 7% legal texts, government bulletins and others
Rights:
Not specified
Creator:
Gurevych, Iryna , Habernal, Ivan , and Zayed, Omnia
Publisher:
Technische Universität Darmstadt
Type:
text and corpus
Subject:
CommonCrawl , Creative Commons , Web corpus , and Amazon Web Services
Language:
Afrikaans , Arabic , Bengali , Bulgarian , Czech , Danish , German , Modern Greek (1453-) , English , Estonian , Persian , Finnish , French , Hebrew , Hindi , Croatian , Hungarian , Indonesian , Italian , Japanese , Kannada , Korean , Latvian , Lithuanian , Malayalam , Macedonian , Nepali (macrolanguage) , Dutch , Norwegian , Panjabi , Polish , Portuguese , Romanian , Russian , Slovak , Slovenian , Somali , Spanish , Albanian , Swahili (macrolanguage) , Swedish , Tamil , Telugu , Tagalog , Thai , Turkish , Ukrainian , Undetermined , Vietnamese , and Chinese
Description:
A large web corpus (over 10 billion tokens) licensed under CreativeCommons license family in 50+ languages that has been extracted from CommonCrawl, the largest publicly available general Web crawl to date with about 2 billion crawled URLs.
Rights:
Creative Commons - Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) , http://creativecommons.org/licenses/by-nc/4.0/ , and PUB
Creator:
Gurevych, Iryna , Habernal, Ivan , and Zayed, Omnia
Publisher:
Technische Universität Darmstadt
Type:
text and corpus
Subject:
CommonCrawl , Creative Commons , Web corpus , and Amazon Web Services
Language:
Afrikaans , Arabic , Bengali , Bulgarian , Czech , Danish , German , Modern Greek (1453-) , English , Estonian , Persian , Finnish , French , Gujarati , Hebrew , Hindi , Croatian , Hungarian , Indonesian , Italian , Japanese , Kannada , Korean , Latvian , Lithuanian , Malayalam , Marathi , Macedonian , Nepali (macrolanguage) , Dutch , Norwegian , Polish , Portuguese , Romanian , Russian , Slovak , Slovenian , Somali , Spanish , Albanian , Swahili (macrolanguage) , Swedish , Tamil , Telugu , Tagalog , Thai , Turkish , Ukrainian , Undetermined , Urdu , Vietnamese , and Chinese
Description:
A large web corpus (over 10 billion tokens) licensed under CreativeCommons license family in 50+ languages that has been extracted from CommonCrawl, the largest publicly available general Web crawl to date with about 2 billion crawled URLs.
Rights:
Creative Commons - Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0) , http://creativecommons.org/licenses/by-nc-nd/4.0/ , and PUB