dc.contributor.author | Ansari, Ebrahim |
dc.contributor.author | Žabokrtský, Zdeněk |
dc.contributor.author | Haghdoost, Hamid |
dc.contributor.author | Nikravesh, Mahshid |
dc.date.accessioned | 2019-06-28T13:20:51Z |
dc.date.available | 2019-06-28T13:20:51Z |
dc.date.issued | 2019-06-27 |
dc.identifier.uri | http://hdl.handle.net/11234/1-3011 |
dc.description | This dataset includes 45300 Persian word forms which are manually segmented into sequences of morphemes. |
dc.language.iso | fas |
dc.publisher | Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL) |
dc.rights | Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.subject | morphological analysis, |
dc.subject | lemmatization |
dc.title | Persian Morphologically Segmented Lexicon 0.5 |
dc.type | lexicalConceptualResource |
metashare.ResourceInfo#ContentInfo.mediaType | text |
metashare.ResourceInfo#ContentInfo.detailedType | lexicon |
dc.rights.label | PUB |
has.files | yes |
branding | LINDAT / CLARIAH-CZ |
contact.person | Ebrahim Ansari ansari@ufal.mff.cuni.cz Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL) |
contact.person | Zdeněk Žabokrtský zdenek.zabokrtsky@mff.cuni.cz Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL) |
sponsor | Ministerstvo školství, mládeže a tělovýchovy České republiky CZ.02.2.69/0.0/0.0/16_027/0008495 OP VVV Mezinárodní mobilita výzkumných pracovníků Univerzity Karlovy nationalFunds |
sponsor | Grantová agentura České Republiky 19-14534S Popis slovotvorné struktury českých slov na základě jazykových dat nationalFunds |
sponsor | Ministerstvo školství, mládeže a tělovýchovy České republiky LM2015071 LINDAT/CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat nationalFunds |
size.info | 45300 words |
files.size | 2152189 |
files.count | 4 |
Soubory tohoto záznamu
Stáhnout všechny soubory záznamu (2.05 MB)Licenční kategorie:
Licence: Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
Publicly Available
Licence: Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
- Název
- readme.txt
- Velikost
- 4.82 KB
- Formát
- Textový soubor
- Popis
- README
- MD5
- 4f7fbb0bbb6dd0c19e9417ae325355b7
This dataset includes 45300 Persian word forms which are manually segmented into sequences of morphemes. Lemmas and some extra information about those words are also included. Words are separated by "\n" and in each line (for each word) we have this information: word lemma form ambiguity segments_1 segment_2 ... segment_n where "form" could be one of these: V: verb E: Name entity word I: Irregular plural X: none of the above and "ambiguity" field could be 0 which means the word has only one meaning and is 1 when the word has more than one meaning. For more information about this dataset, you can see [1]. Methodology: We extracted our primary word list from a collection of three corpora. The first one contains sentences extracted from the Persian Wikipedia [2]. The second one is a popular Persian corpusBijanKhan [3], and the last one is Persian Named Entity corpus [4]. For all those corpora, we used the Hazm toolkit (Persian preprocessing and tokenization tools) [5] and the stemm . . .
- Název
- train.txt
- Velikost
- 1.66 MB
- Formát
- Textový soubor
- Popis
- training set
- MD5
- 2205b9ceb514b88431091893930cc4a3
آرمیک آرمیک E 0 آرمیک آرنا آرنا E 0 آرنا آرناس آرناس E 0 آرناس آرنالدو آرنالدو E 0 آرنالدو آرنت آرنت E 0 آرنت آرنج آرنج X 0 آرنج آرنجش آرنج X 0 آرنج ش آرنجها آرنج X 0 آرنج ها آرندت آرندت E 0 آرندت آرنلد آرنلد E 0 آرنلد آرنو آرنو E 0 آرنو آرنور آرنور E 0 آرنور آرنولف آرنولف E 0 آرنولف آرنی آرنی E 0 آرنی آرنیوس آرنیوس E 0 آرنیوس آرنیکهها آرنیکه X 0 آرنیکه ها آره آره X 0 آره آرواره آرواره X 0 آرواره آروارهای آرواره X 0 آرواره ای آروارهها آرواره X 0 آرواره ها آروارههای آرواره X 0 آرواره ها ی آروزی آروز X 0 آروز ی آروس آروس E 0 آروس آروشا آروشا E 0 آروشا آروغ آروغ X 0 آروغ آروماتیک آروماتیک X 0 آرومات یک آروماتیکی آروماتیک X 0 آرومات یک ی آروماتیکها آروماتیک X 0 آرومات یک ها آرونا آرونا E 0 آرونا آرونسون آرونسون E 0 آرونسون آرونوفسکی آرونوفسکی E 0 آرونوفسکی آروو آروو E 0 آروو آروین آروین E 0 آروین آرویو آرویو E 0 آرویو آرپ آرپ E 0 آرپ آرپا آرپا X 0 آرپا آرپانت آرپانت X 0 آرپا نت آرپاچای آرپاچای X 0 آرپا چای آرپژ آرپژ X 0 آرپژ آرپی آرپی E 0 آرپی آرپیجی آرپیجی X 0 آر پی جی آرچ آرچ E . . .
- Název
- dev.txt
- Velikost
- 197.25 KB
- Formát
- Textový soubor
- Popis
- development set
- MD5
- ad5227aa79f421a109c90447b672d6d1
آرنه آرنه E 0 آرنه آرنولد آرنولد E 0 آرنولد آرورا آرورا E 0 آرورا آرون آرون E 0 آرون آرونیان آرونیان E 0 آرون ی ان آریستید آریستید E 0 آریستید آزاداسلامی آزاداسلامی X 0 آزاد اسلام ی آزادانه آزادانه X 0 آزاد انه آزادانهای آزادانه X 0 آزاد انه ای آزادانهتر آزادانه X 0 آزاد انه تر آزادیبخش آزادیبخش E 0 آزاد ی بخش آزادیخواهانه آزادیخواه X 0 آزاد ی خواه انه آزوریت آزوریت X 0 آز ور یت آس آس E 0 آس آسانسور آسانسور X 0 آسانسور آسانسورها آسانسور X 0 آسانسور ها آسانسورهای آسانسور X 0 آسانسور ها ی آسانسوری آسانسور X 0 آسانسور ی آسایش آسایش E 0 آسای ش آسایشگاه آسایشگاه X 0 آسای ش گاه آسایشگاهی آسایشگاه X 0 آسای ش گاه ی آسایشگاههای آسایشگاه X 0 آسای ش گاه ها ی آسایشی آسایش X 0 آسای ش ی آستنیت آستنیت X 0 آستن یت آستیاگ آستیاگ E 0 آستیاگ آسرایی آسرایی E 0 آسرا یی آسپرگر آسپرگر X 0 آسپرگ ر آسهای آس X 0 آس ها ی آشتیجویانه آشتیجویانه X 0 آشتی جوی انه آشر آشر E 0 آشر آشوربانیپال آشوربانیپال E 0 آشوربانیپال آشوکا آشوکا E 0 آشوکا آشوکای آشوکای E 0 آشوکای آشکار آشکار X 0 آشکار آشکارا آشکارا X 0 آ . . .
- Název
- test.txt
- Velikost
- 199.96 KB
- Formát
- Textový soubor
- Popis
- test set
- MD5
- 57d71429e62a0534ac06fff9be734465
آرنس آرنس E 0 آرنس آروارهداران آروارهدار X 0 آرواره دار ان آرودا آرودا E 0 آرودا آرکین آرکین E 0 آرکین آریاشهر آریاشهر X 0 آریا شهر آزادشهر آزادشهر E 0 آزاد شهر آزادماهی آزادماهی X 0 آزاد ماهی آزادماهیان آزادماهی X 0 آزاد ماهی ان آزادوار آزادوار X 0 آزاد وار آزادواری آزادواری E 0 آزاد وار ی آزرم آزرم E 0 آزرم آزرمیدخت آزرمیدخت E 0 آزر می دخت آزمودنی آزمودن X 0 آزمود نی آزمودنیها آزمودن X 0 آزمود نی ها آسانژ آسانژ E 0 آسانژ آستانهاشرفیه آستانهاشرفیه E 0 آستان ه اشرف یه آسفالت آسفالت X 0 آسفالت آسفالته آسفالت X 0 آسفالت ه آسفالتهاست آسفالتهاست V 0 آسفالت ه است آسفالتهای آسفالت X 0 آسفالت ه ای آسفالتی آسفالت X 0 آسفالت ی آسماننما آسماننما X 0 آسمان نما آسوس آسوس X 0 آسوس آشام آشام X 0 آشام آشامی آشامی X 0 آشام ی آشامیدن آشامیدن X 0 آشام ید ن آشامیدنی آشامیدن X 0 آشام ید نی آشامها آشام X 0 آشام ها آشناییزدایی آشناییزدایی X 0 آشنا یی زدا یی آشور آشور E 0 آشور آشوراده آشوراده X 0 آشورا ده آشورشناسی آشورشناسی X 0 آشور شناس ی آشوری آشور E 0 آشور ی آشوریان آشور E 0 آشور ی ان آشوری . . .