LINDAT / CLARIAH-CZ Data & Tools

LINDAT / CLARIAH-CZ Data & Tools Data and Tools from partner institutions of LINDAT/CLARIAH-CZ project, formerly LINDAT/CLARIN. http://hdl.handle.net/11858/00-097C-0000-0001-4877-A 2024-12-24T13:56:03Z 2024-12-24T13:56:03Z MorfFlex CZ 2.1 (2024-12-23) Hajič, Jan Hlaváčová, Jaroslava Mikulová, Marie Straka, Milan Štěpánková, Barbora http://hdl.handle.net/11234/1-5833 2024-12-23T13:53:53Z 2024-12-23T00:00:00Z

MorfFlex CZ 2.1 (2024-12-23) Hajič, Jan; Hlaváčová, Jaroslava; Mikulová, Marie; Straka, Milan; Štěpánková, Barbora MorfFlex CZ 2.1 is the Czech morphological dictionary developed originally by Jan Hajič as a spelling checker and lemmatization dictionary. MorfFlex CZ 2.1 is a part of the PDT-C 2.0 release https://hdl.handle.net/11234/1-5813. It is a minor upgrade from MorfFlex CZ 2.0, with the tagset unchanged, but with some additions and corrections for full compatibility with PDT-C 2.0 morphological annotation. MorfFlex is a flat list of lemma-tag-wordform triples. For each wordform, full inflectional information is coded in a positional tag. Wordforms are organized into entries (paradigm instances or paradigms in short) according to their formal morphological behavior. The paradigm (set of wordforms) is identified by a unique lemma. Apart from traditional morphological categories, the description also contains some semantic, stylistic and derivational information. For more details see a comprehensive specification of the Czech morphological annotation https://ufal.mff.cuni.cz/techrep/tr64.pdf .

2024-12-23T00:00:00Z Prague Discourse Treebank 4.0 Synková, Pavlína Mírovský, Jiří Paclíková, Marie Poláková, Lucie Rysová, Magdaléna Scheller, Veronika Zdeňková, Jana Zikánová, Šárka Hajičová, Eva http://hdl.handle.net/11234/1-5680 2024-12-22T21:55:06Z 2024-12-18T00:00:00Z

Prague Discourse Treebank 4.0 Synková, Pavlína; Mírovský, Jiří; Paclíková, Marie; Poláková, Lucie; Rysová, Magdaléna; Scheller, Veronika; Zdeňková, Jana; Zikánová, Šárka; Hajičová, Eva The Prague Discourse Treebank 4.0 (PDiT 4.0; Synková et al., 2024) is an annotation of discourse relations marked by primary and secondary discourse connectives in the whole data of the Prague Dependency Treebank - Consolidated 2.0 (PDT-C 2.0; Hajič et al., 2024). With respect to the previous versions of PDiT, annotating discourse relations in the whole PDT-C 2.0 means a significant increase in the size of the annotated data.

2024-12-18T00:00:00Z EdUKate Czech-Ukrainian translation model 2024 Popel, Martin Anisimova, Mariia Balhar, Jiří Kloudová, Věra Novák, Michal Poláková, Lucie http://hdl.handle.net/11234/1-5825 2024-12-22T21:51:35Z 2024-12-17T00:00:00Z

EdUKate Czech-Ukrainian translation model 2024 Popel, Martin; Anisimova, Mariia; Balhar, Jiří; Kloudová, Věra; Novák, Michal; Poláková, Lucie This package includes Czech-to-Ukrainian translation model adapted for the educational domain. The model is exported into the TensorFlow Serving format (using Tensor2tensor version 1.6.6), so it can be used in the Charles Translator service (https://translator.cuni.cz) and in the web portal Škola s nadhledem. This model was developed within the EdUKate project, which aims to help mitigate language barriers between non-Czech-speaking children in the Czech Republic and the education in the Czech school system. The project focuses on the development and dissemination of multilingual digital learning materials for students in primary and secondary schools.

2024-12-17T00:00:00Z SynSemClass 5.1 Urešová, Zdeňka Alcaina, Cristina Fernández Bourgonje, Peter Fučíková, Eva Hajič, Jan Hajičová, Eva Rehm, Georg Rysová, Kateřina Zaczynska, Karolina http://hdl.handle.net/11234/1-5808 2024-12-16T16:06:23Z 2024-12-11T00:00:00Z

SynSemClass 5.1 Urešová, Zdeňka; Alcaina, Cristina Fernández; Bourgonje, Peter; Fučíková, Eva; Hajič, Jan; Hajičová, Eva; Rehm, Georg; Rysová, Kateřina; Zaczynska, Karolina The SynSemClass synonym verb lexicon version 5.1 is a multilingual resource that enriches previous editions of this event-type ontology with a new language, Spanish. The existing languages, English, Czech and German, are further substantially extended by a larger number of classes. SSC 5.1 data also contain lists (in a separate removed_cms.zip file) with originally (pre-)proposed but later rejected class members. All languages are organized into classes and have links to other lexical sources. In addition to the existing links, links to Spanish sources have been added. The major change against v5.0 is that links to English Princeton Wordnet and to German GUP point to their new versions and new websites that host them. English Wordnet now links to the Open English Wordnet, a fork of the Princeton WordNet developed under an open source methodology and released through the Open English Wordnet website (https://en-word.net/). German Universal PropBank (GUP) is now part of the Universal Propbanks and can be viewed at https://github.com/UniversalDependencies/UD_German-GSD. The individual languages are thus now linked as follows: The Spanish entries are linked to ADESSE (http://adesse.uvigo.es/), Spanish SenSem (http://grial.edu.es/sensem/lexico?idioma=en), Spanish WordNet (https://adimen.ehu.eus/cgi-bin/wei/public/wei.consult.perl), AnCora (https://clic.ub.edu/corpus/en/ancoraverb_es), and Spanish FrameNet (http://sfn.spanishfn.org/SFNreports.php). The English entries are linked to EngVallex (http://hdl.handle.net/11858/00-097C-0000-0023-4337-2), CzEngVallex (http://hdl.handle.net/11234/1-1512), FrameNet (https://framenet.icsi.berkeley.edu/), VerbNet (https://uvi.colorado.edu/ and http://verbs.colorado.edu/verbnet/index.html), PropBank (http://propbank.github.io/), Ontonotes (http://clear.colorado.edu/compsem/index.php?page=lexicalresources&sub=ontonotes), and the Open English Wordnet (https://en-word.net/). The Czech entries are linked to PDT-Vallex (http://hdl.handle.net/11858/00-097C-0000-0023-4338-F), Vallex (http://hdl.handle.net/11234/1-3524), and CzEngVallex (http://hdl.handle.net/11234/1-1512). The German entries are linked to Woxikon (https://synonyme.woxikon.de), E-VALBU (https://grammis.ids-mannheim.de/verbvalenz), and GUP (https://github.com/UniversalDependencies/UD_German-GSD).

2024-12-11T00:00:00Z Human Label Variation in Attribution and Discourse (Hlava AD) Zikánová, Šárka Mírovský, Jiří Nedoluzhko, Anna Hajičová, Eva Dohnalová, Šárka Kmječová, Anna Nodlová, Eliška Teska, Dominik http://hdl.handle.net/11234/1-5819 2024-12-16T15:35:07Z 2024-12-13T00:00:00Z

Human Label Variation in Attribution and Discourse (Hlava AD) Zikánová, Šárka; Mírovský, Jiří; Nedoluzhko, Anna; Hajičová, Eva; Dohnalová, Šárka; Kmječová, Anna; Nodlová, Eliška; Teska, Dominik Human Label Variation in Attribution and Discourse (Hlava AD) is a collection of commented multiple annotations (5 annotators) of inter-sentential explicit discourse relations between complex sentences containing verbs of attribution (saying, thinking) and following sentences in Czech. The main aim of the annotation is to capture how often the following sentence is seen as a follow-up of the direct/reported speech OR the author's speech. The dataset contains fillers (complex sentences with other types of verbs). Please visit https://ufal.mff.cuni.cz/hvar/hlava-ad for detailed and updated information about the corpus.

2024-12-13T00:00:00Z Universal Dependencies 2.15 models for UDPipe 2 (2024-11-21) Straka, Milan http://hdl.handle.net/11234/1-5797 2024-11-29T11:27:57Z 2024-11-21T00:00:00Z

Universal Dependencies 2.15 models for UDPipe 2 (2024-11-21) Straka, Milan Tokenizer, POS Tagger, Lemmatizer and Parser models for 147 treebanks of 78 languages of Universal Depenencies 2.15 Treebanks, created solely using UD 2.15 data (https://hdl.handle.net/11234/1-5787). The model documentation including performance can be found at https://ufal.mff.cuni.cz/udpipe/2/models#universal_dependencies_215_models . To use these models, you need UDPipe version 2.0, which you can download from https://ufal.mff.cuni.cz/udpipe/2 .

2024-11-21T00:00:00Z Universal Dependencies 2.15 Zeman, Daniel Nivre, Joakim Abrams, Mitchell Ackermann, Elia Aepli, Noëmi Aghaei, Hamid Agić, Željko Ahmadi, Amir Ahrenberg, Lars Ajede, Chika Kennedy Akhundjanova, Arofat Akkurt, Furkan Aleksandravičiūtė, Gabrielė Alfina, Ika Algom, Avner Alnajjar, Khalid Alzetta, Chiara Andersen, Erik Andrews, Matthew Antonsen, Lene Aoyama, Tatsuya Aplonova, Katya Aquino, Angelina Aragon, Carolina Aranes, Glyd Aranzabe, Maria Jesus Arıcan, Bilge Nas Arnardóttir, Þórunn Arutie, Gashaw Arwidarasti, Jessica Naraiswari Asahara, Masayuki Ásgeirsdóttir, Katla Aslan, Deniz Baran Asmazoğlu, Cengiz Ateyah, Luma Atmaca, Furkan Attia, Mohammed Atutxa, Aitziber Augustinus, Liesbeth Avelãs, Mariana Badmaeva, Elena Balasubramani, Keerthana Ballesteros, Miguel Banerjee, Esha Bank, Sebastian Barbosa, Bryan Khelven da Silva Barbu Mititelu, Verginica Barkarson, Starkaður Basile, Rodolfo Basmov, Victoria Batchelor, Colin Bauer, John Bedir, Seyyit Talha Behzad, Shabnam Belieni, Juan Bengoetxea, Kepa Benli, İbrahim Ben Moshe, Yifat Berg, Ansu Berk, Gözde Bhat, Riyaz Ahmad Biagetti, Erica Bick, Eckhard Bielinskienė, Agnė Bilgin Taşdemir, Esma Fatıma Bjarnadóttir, Kristín Blaschke, Verena Blokland, Rogier Böbel, Nina Bobicev, Victoria Boizou, Loïc Bonilla, Johnatan Borges Völker, Emanuel Börstell, Carl Bosco, Cristina Bouma, Gosse Bowman, Sam Boyd, Adriane Braggaar, Anouck Branco, António Brokaitė, Kristina Burchardt, Aljoscha Cabeza, Carmen Cáceres Arandia, Natalia Campos, Marisa Candito, Marie Caron, Bernard Caron, Gauthier Carvalheiro, Catarina Carvalho, Rita Cassidy, Lauren Castro, Maria Clara Castro, Sérgio Cavalcanti, Tatiana Cebiroğlu Eryiğit, Gülşen Cecchini, Flavio Massimiliano Celano, Giuseppe G. A. Çepani, Anila Čéplö, Slavomír Cesur, Neslihan Cetin, Savas Çetinoğlu, Özlem Chalub, Fabricio Chamila, Liyanage Chamoreau, Claudine Chauhan, Shweta Chen, Yifei Chi, Ethan Chika, Taishi Cho, Yongseok Choi, Jinho Chontaeva, Bermet Chun, Jayeol Chung, Juyeon Cignarella, Alessandra T. Cinková, Silvie Collomb, Aurélie Çöltekin, Çağrı Connor, Miriam Corbetta, Claudia Corbetta, Daniela Costa, Francisco Courtin, Marine Crabbé, Benoît Cristescu, Mihaela Cvetkoski, Vladimir Dahan, Netanel Dale, Ingerid Løyning Daniel, Philemon Davidson, Elizabeth de Alencar, Leonel Figueiredo Dehouck, Mathieu de Laurentiis, Martina de Marneffe, Marie-Catherine de Paiva, Valeria Derin, Mehmet Oguz de Souza, Elvis Diaz de Ilarraza, Arantza Díaz Hernández, Roberto Antonio Dickerson, Carly Di Felippo, Ariani Dinakaramani, Arawinda Di Nuovo, Elisa Dione, Bamba Dirix, Peter Do, Hoa Dobrovoljc, Kaja Döhmer, Caroline Doyle, Adrian Dozat, Timothy Droganova, Kira Duran, Magali Sanches Dwivedi, Puneet Ebert, Christian Eckhoff, Hanne Eguchi, Masaki Eiche, Sandra Eiselen, Roald Eli, Marhaba Elkahky, Ali Ephrem, Binyam Erina, Olga Erjavec, Tomaž Eslami, Soudabeh Essaidi, Farah Etienne, Aline Evelyn, Wograine Facundes, Sidney Farkas, Richárd Faryad, Ján Favero, Federica Ferdaousi, Jannatul Fernanda, Marília Fernandez Alcalde, Hector Fethi, Amal Foster, Jennifer Fransen, Theodorus Freitas, Cláudia Fujita, Kazunori Gajdošová, Katarína Galbraith, Daniel Galy, Edith Gamba, Federica Garcia, Marcos García-Miguel, José María Gärdenfors, Moa Gaustad, Tanja Genç, Efe Eren Gerardi, Fabrício Ferraz Gerdes, Kim Gessler, Luke Ginter, Filip Godoy, Gustavo Goenaga, Iakes Gojenola, Koldo Gökırmak, Memduh Goldberg, Yoav Goldin, Gili Gómez Guinovart, Xavier González Saavedra, Berta Griciūtė, Bernadeta Grioni, Matias Grobol, Loïc Grūzītis, Normunds Guillaume, Bruno Guiller, Kirian Guillot-Barbance, Céline Güngör, Tunga Gurevich, Vladimir Habash, Nizar Hafsteinsson, Hinrik Hajič, Jan Hajič jr., Jan Hämäläinen, Mika Hà Mỹ, Linh Han, Na-Rae Hanifmuti, Muhammad Yudistira Harada, Takahiro Hardwick, Sam Harris, Kim Hassert, Naïma Haug, Dag Heinecke, Johannes Hellwig, Oliver Hennig, Felix Hladká, Barbora Hlaváčová, Jaroslava Hociung, Florinel Hoefels, Diana Hohle, Petter Howell, Nick Huang, Yidi Huerta Mendez, Marivel Hwang, Jena Ikeda, Takumi Iliadou, Inessa Ingason, Anton Karl Ion, Radu Irimia, Elena Ishola, Ọlájídé Islamaj, Artan Ito, Kaoru Iurescia, Federica Jagodzińska, Sandra Jannat, Siratun Jelínek, Tomáš Jha, Apoorva Jiang, Katharine Jobanputra, Mayank Johannsen, Anders Jónsdóttir, Hildur Jørgensen, Fredrik Juutinen, Markus Kaşıkara, Hüner Kabaeva, Nadezhda Kahane, Sylvain Kanayama, Hiroshi Kanerva, Jenna Kara, Neslihan Karahóǧa, Ritván Kåsen, Andre Kayadelen, Tolga Kengatharaiyer, Sarveswaran Kettnerová, Václava Kharatyan, Lilit Kirchner, Jesse Klementieva, Elena Klyachko, Elena Kocharov, Petr Köhn, Arne Köksal, Abdullatif Kopacewicz, Kamil Korkiakangas, Timo Köse, Mehmet Koshevoy, Alexey Kote, Nelda Kotsyba, Natalia Kovačić, Barbara Kovalevskaitė, Jolanta Kowner, Emmanuelle Krek, Simon Krishnamurthy, Parameswari Kübler, Sandra Kuqi, Adrian Kuyrukçu, Oğuzhan Kuzgun, Aslı Kwak, Sookyoung Kyle, Kris Laan, Käbi Laippala, Veronika Lambertino, Lorenzo Landau, Israel Lando, Tatiana Larasati, Septina Dian Lavrentiev, Alexei Lee, John Lê Hồng, Phương Lenci, Alessandro Lertpradit, Saran Leung, Herman Levina, Maria Levine, Lauren Li, Cheuk Ying Li, Josie Li, Keying Li, Yixuan Li, Yuan Lim, KyungTae Lima Padovani, Bruna Lin, Yi-Ju Jessica Lindén, Krister Liu, Yang Janet Ljubešić, Nikola Lobzhanidze, Irina Loginova, Olga Lopes, Lucelene Luftiu, Edita Lukashevskyi, Arsenii Lusito, Stefano Lutgen, Anne-Marie Luthfi, Andry Luukko, Mikko Lyashevskaya, Olga Lynn, Teresa Macketanz, Vivien Mahamdi, Menel Maillard, Jean Makarchuk, Ilya Makazhanov, Aibek Mambrini, Francesco Mandl, Michael Manning, Christopher Manurung, Ruli Marşan, Büşra Mărănduc, Cătălina Mareček, David Marheinecke, Katrin Markantonatou, Stella Martínez Alonso, Héctor Martín Rodríguez, Lorena Martins, André Martins, Cláudia Mašek, Jan Matsuda, Hiroshi Matsumoto, Yuji Mazzei, Alessandro McDonald, Ryan McGuinness, Sarah Mehta, Maitrey Ménard, Pierre André Mendonça, Gustavo Merhav, Hilla Merzhevich, Tatiana Meurer, Paul Miekka, Niko Milano, Emilia Miller, Aaron Minerbi, Yael Mischenkova, Karina Missilä, Anna Mititelu, Cătălin Mitrofan, Maria Miyao, Yusuke Mojiri Foroushani, AmirHossein Molnár, Judit Moloodi, Amirsaeid Montemagni, Simonetta More, Amir Moreno Romero, Laura Moretti, Giovanni Mori, Shinsuke Morioka, Tomohiko Moro, Shigeki Mortensen, Bjartur Moskalevskyi, Bohdan Muischnek, Kadri Munro, Robert Murawaki, Yugo Müürisep, Kaili Nainwani, Pinkey Nakhlé, Mariam Navarro Horñiacek, Juan Ignacio Nedoluzhko, Anna Nešpore-Bērzkalne, Gunta Nevaci, Manuela Nguyễn Thị, Lương Nguyễn Thị Minh, Huyền Nikaido, Yoshihiro Nikolaev, Vitaly Nitisaroj, Rattima Norrman, Victor Nourian, Alireza Nunes, Maria das Graças Volpe Nurmi, Hanna Ojala, Stina Ojha, Atul Kr. Óladóttir, Hulda Olúòkun, Adédayọ̀ Omura, Mai Onwuegbuzia, Emeka Ordan, Noam Osenova, Petya Östling, Robert Ott, Annika Øvrelid, Lilja Özateş, Şaziye Betül Özçelik, Merve Özgür, Arzucan Öztürk Başaran, Balkız Paccosi, Teresa Palmero Aprosio, Alessio Panova, Anastasia Pardo, Thiago Alexandre Salgueiro Park, Hyunji Hayley Partanen, Niko Pascual, Elena Passarotti, Marco Patejuk, Agnieszka Paulino-Passos, Guilherme Pedonese, Giulia Peeters, Oggi Peljak-Łapińska, Angelika Peng, Siyao Peng, Siyao Logan Pereira, Rita Pereira, Sílvia Perez, Cenel-Augusto Perkova, Natalia Perrier, Guy Petrov, Slav Petrova, Daria Peverelli, Andrea Phelan, Jason Pierre-Louis, Claudel Piitulainen, Jussi Pinter, Yuval Pinto, Clara Pintucci, Rodrigo Pirinen, Tommi A Pitler, Emily Plamada, Magdalena Plank, Barbara Plum, Alistair Poibeau, Thierry Ponomareva, Larisa Popel, Martin Pretkalniņa, Lauma Pretorius, Rigardt Prévost, Sophie Prokopidis, Prokopis Przepiórkowski, Adam Pugh, Robert Puolakainen, Tiina Purschke, Christoph Pyysalo, Sampo Qi, Peng Querido, Andreia Rääbis, Andriela Rabinovich, Ella Rademaker, Alexandre Rahoman, Mizanur Rama, Taraka Ramasamy, Loganathan Ramisch, Carlos Ramos, Joana Rashel, Fam Rasooli, Mohammad Sadegh Ravishankar, Vinit Real, Livy Rebeja, Petru Reddy, Siva Regnault, Mathilde Rehm, Georg Riabi, Arij Riabov, Ivan Rießler, Michael Rimkutė, Erika Rinaldi, Larissa Rituma, Laura Rizqiyah, Putri Rocha, Luisa Rögnvaldsson, Eiríkur Roksandic, Ivan Roman, Norton Trevisan Romanenko, Mykhailo Rosa, Rudolf Roșca, Valentin Roulon, Paulette Rovati, Davide Rozonoyer, Ben Rudina, Olga Rueter, Jack Ruffolo, Paolo Rúnarsson, Kristján Rushiti, Rozana Sadde, Shoval Safari, Pegah Sahala, Aleksi Saleh, Shadi Salomoni, Alessio Samardžić, Tanja Sampanis, Konstantinos Samson, Stephanie Sánchez-Rodríguez, Xulia Sanguinetti, Manuela Sanıyar, Ezgi Särg, Dage Sartor, Marta Sarymsakova, Albina Sasaki, Mitsuya Saulīte, Baiba Savary, Agata Sawanakunanon, Yanin Saxena, Shefali Scannell, Kevin Scarlata, Salvatore Schang, Emmanuel Schneider, Nathan Schuster, Sebastian Schwartz, Lane Seddah, Djamé Seeker, Wolfgang Sellmer, Sven Seraji, Mojgan Shahzadi, Syeda Shen, Mo Shimada, Atsuko Shin, Gyu-Ho Shirasu, Hiroyuki Shishkina, Yana Shohibussirri, Muh Shvedova, Maria Siewert, Janine Sigurðsson, Einar Freyr Silva, João Silveira, Aline Silveira, Natalia Silveira, Sara Simi, Maria Simionescu, Radu Simkó, Katalin Šimková, Mária Símonarson, Haukur Barri Simov, Kiril Sitchinava, Dmitri Sither, Ted Smith, Aaron Soares-Bastos, Isabela Solberg, Per Erik Sonnenhauser, Barbara Sourov, Shafi Sprugnoli, Rachele Stamou, Vivian Steingrímsson, Steinþór Stella, Antonio Stephen, Abishek Straka, Milan Strass, Omer Strickland, Emmett Strnadová, Jana Suhr, Alane Sulestio, Yogi Lesmana Sulubacak, Umut Sung, Hakyung Suzuki, Shingo Swanson, Daniel Szántó, Zsolt Taguchi, Chihiro Taji, Dima Talamo, Luigi Tamburini, Fabio Tan, Mary Ann C. Tanaka, Takaaki Tanaya, Dipta Tavoni, Mirko Tella, Samson Tellier, Isabelle Testori, Marinella Thomas, Guillaume Tıraş, Tarık Emre Tonelli, Sara Torga, Liisi Toska, Marsida Trosterud, Trond Trukhina, Anna Tsarfaty, Reut Türk, Utku Tyers, Francis Þórðarson, Sveinbjörn Þorsteinsson, Vilhjálmur Uematsu, Sumire Untilov, Roman Urešová, Zdeňka Uria, Larraitz Uszkoreit, Hans Utka, Andrius Vagnoni, Elena Vajjala, Sowmya Vak, Socrates van der Goot, Rob Vanhove, Martine van Niekerk, Daniel van Noord, Gertjan Varga, Viktor Vedenina, Uliana Venturi, Giulia Villemonte de la Clergerie, Eric Vincze, Veronika Vissamsetty, Anishka Vlasova, Natalia Vligouridou, Eleni Wakasa, Aya Wallenberg, Joel C. Wallin, Lars Walsh, Abigail Wang, John Washington, Jonathan North Weissweiler, Leonie Wendt, Maximilan Widmer, Paul Wigderson, Shira Wijono, Sri Hartati Wille, Vanessa Berwanger Williams, Seyi Winkler, Miriam Wintner, Shuly Wirén, Mats Wittern, Christian Woldemariam, Tsegay Wong, Tak-sum Wróblewska, Alina Wu, Qishen Yako, Mary Yamashita, Kayo Yamazaki, Naoki Yan, Chunxiao Yasuoka, Koichi Yavrumyan, Marat M. Yenice, Arife Betül Yılandiloğlu, Enes Yıldız, Olcay Taner Yu, Zhuoran Yuliawati, Arlisa Žabokrtský, Zdeněk Zahra, Shorouq Zeldes, Amir Zhou, He Zhu, Hanzhi Zhu, Yilun Zhuravleva, Anna Ziane, Rayan Znotiņš, Artūrs http://hdl.handle.net/11234/1-5787 2024-11-15T10:19:42Z 2024-11-15T00:00:00Z

Universal Dependencies 2.15 Zeman, Daniel; Nivre, Joakim; Abrams, Mitchell; Ackermann, Elia; Aepli, Noëmi; Aghaei, Hamid; Agić, Željko; Ahmadi, Amir; Ahrenberg, Lars; Ajede, Chika Kennedy; Akhundjanova, Arofat; Akkurt, Furkan; Aleksandravičiūtė, Gabrielė; Alfina, Ika; Algom, Avner; Alnajjar, Khalid; Alzetta, Chiara; Andersen, Erik; Andrews, Matthew; Antonsen, Lene; Aoyama, Tatsuya; Aplonova, Katya; Aquino, Angelina; Aragon, Carolina; Aranes, Glyd; Aranzabe, Maria Jesus; Arıcan, Bilge Nas; Arnardóttir, Þórunn; Arutie, Gashaw; Arwidarasti, Jessica Naraiswari; Asahara, Masayuki; Ásgeirsdóttir, Katla; Aslan, Deniz Baran; Asmazoğlu, Cengiz; Ateyah, Luma; Atmaca, Furkan; Attia, Mohammed; Atutxa, Aitziber; Augustinus, Liesbeth; Avelãs, Mariana; Badmaeva, Elena; Balasubramani, Keerthana; Ballesteros, Miguel; Banerjee, Esha; Bank, Sebastian; Barbosa, Bryan Khelven da Silva; Barbu Mititelu, Verginica; Barkarson, Starkaður; Basile, Rodolfo; Basmov, Victoria; Batchelor, Colin; Bauer, John; Bedir, Seyyit Talha; Behzad, Shabnam; Belieni, Juan; Bengoetxea, Kepa; Benli, İbrahim; Ben Moshe, Yifat; Berg, Ansu; Berk, Gözde; Bhat, Riyaz Ahmad; Biagetti, Erica; Bick, Eckhard; Bielinskienė, Agnė; Bilgin Taşdemir, Esma Fatıma; Bjarnadóttir, Kristín; Blaschke, Verena; Blokland, Rogier; Böbel, Nina; Bobicev, Victoria; Boizou, Loïc; Bonilla, Johnatan; Borges Völker, Emanuel; Börstell, Carl; Bosco, Cristina; Bouma, Gosse; Bowman, Sam; Boyd, Adriane; Braggaar, Anouck; Branco, António; Brokaitė, Kristina; Burchardt, Aljoscha; Cabeza, Carmen; Cáceres Arandia, Natalia; Campos, Marisa; Candito, Marie; Caron, Bernard; Caron, Gauthier; Carvalheiro, Catarina; Carvalho, Rita; Cassidy, Lauren; Castro, Maria Clara; Castro, Sérgio; Cavalcanti, Tatiana; Cebiroğlu Eryiğit, Gülşen; Cecchini, Flavio Massimiliano; Celano, Giuseppe G. A.; Çepani, Anila; Čéplö, Slavomír; Cesur, Neslihan; Cetin, Savas; Çetinoğlu, Özlem; Chalub, Fabricio; Chamila, Liyanage; Chamoreau, Claudine; Chauhan, Shweta; Chen, Yifei; Chi, Ethan; Chika, Taishi; Cho, Yongseok; Choi, Jinho; Chontaeva, Bermet; Chun, Jayeol; Chung, Juyeon; Cignarella, Alessandra T.; Cinková, Silvie; Collomb, Aurélie; Çöltekin, Çağrı; Connor, Miriam; Corbetta, Claudia; Corbetta, Daniela; Costa, Francisco; Courtin, Marine; Crabbé, Benoît; Cristescu, Mihaela; Cvetkoski, Vladimir; Dahan, Netanel; Dale, Ingerid Løyning; Daniel, Philemon; Davidson, Elizabeth; de Alencar, Leonel Figueiredo; Dehouck, Mathieu; de Laurentiis, Martina; de Marneffe, Marie-Catherine; de Paiva, Valeria; Derin, Mehmet Oguz; de Souza, Elvis; Diaz de Ilarraza, Arantza; Díaz Hernández, Roberto Antonio; Dickerson, Carly; Di Felippo, Ariani; Dinakaramani, Arawinda; Di Nuovo, Elisa; Dione, Bamba; Dirix, Peter; Do, Hoa; Dobrovoljc, Kaja; Döhmer, Caroline; Doyle, Adrian; Dozat, Timothy; Droganova, Kira; Duran, Magali Sanches; Dwivedi, Puneet; Ebert, Christian; Eckhoff, Hanne; Eguchi, Masaki; Eiche, Sandra; Eiselen, Roald; Eli, Marhaba; Elkahky, Ali; Ephrem, Binyam; Erina, Olga; Erjavec, Tomaž; Eslami, Soudabeh; Essaidi, Farah; Etienne, Aline; Evelyn, Wograine; Facundes, Sidney; Farkas, Richárd; Faryad, Ján; Favero, Federica; Ferdaousi, Jannatul; Fernanda, Marília; Fernandez Alcalde, Hector; Fethi, Amal; Foster, Jennifer; Fransen, Theodorus; Freitas, Cláudia; Fujita, Kazunori; Gajdošová, Katarína; Galbraith, Daniel; Galy, Edith; Gamba, Federica; Garcia, Marcos; García-Miguel, José María; Gärdenfors, Moa; Gaustad, Tanja; Genç, Efe Eren; Gerardi, Fabrício Ferraz; Gerdes, Kim; Gessler, Luke; Ginter, Filip; Godoy, Gustavo; Goenaga, Iakes; Gojenola, Koldo; Gökırmak, Memduh; Goldberg, Yoav; Goldin, Gili; Gómez Guinovart, Xavier; González Saavedra, Berta; Griciūtė, Bernadeta; Grioni, Matias; Grobol, Loïc; Grūzītis, Normunds; Guillaume, Bruno; Guiller, Kirian; Guillot-Barbance, Céline; Güngör, Tunga; Gurevich, Vladimir; Habash, Nizar; Hafsteinsson, Hinrik; Hajič, Jan; Hajič jr., Jan; Hämäläinen, Mika; Hà Mỹ, Linh; Han, Na-Rae; Hanifmuti, Muhammad Yudistira; Harada, Takahiro; Hardwick, Sam; Harris, Kim; Hassert, Naïma; Haug, Dag; Heinecke, Johannes; Hellwig, Oliver; Hennig, Felix; Hladká, Barbora; Hlaváčová, Jaroslava; Hociung, Florinel; Hoefels, Diana; Hohle, Petter; Howell, Nick; Huang, Yidi; Huerta Mendez, Marivel; Hwang, Jena; Ikeda, Takumi; Iliadou, Inessa; Ingason, Anton Karl; Ion, Radu; Irimia, Elena; Ishola, Ọlájídé; Islamaj, Artan; Ito, Kaoru; Iurescia, Federica; Jagodzińska, Sandra; Jannat, Siratun; Jelínek, Tomáš; Jha, Apoorva; Jiang, Katharine; Jobanputra, Mayank; Johannsen, Anders; Jónsdóttir, Hildur; Jørgensen, Fredrik; Juutinen, Markus; Kaşıkara, Hüner; Kabaeva, Nadezhda; Kahane, Sylvain; Kanayama, Hiroshi; Kanerva, Jenna; Kara, Neslihan; Karahóǧa, Ritván; Kåsen, Andre; Kayadelen, Tolga; Kengatharaiyer, Sarveswaran; Kettnerová, Václava; Kharatyan, Lilit; Kirchner, Jesse; Klementieva, Elena; Klyachko, Elena; Kocharov, Petr; Köhn, Arne; Köksal, Abdullatif; Kopacewicz, Kamil; Korkiakangas, Timo; Köse, Mehmet; Koshevoy, Alexey; Kote, Nelda; Kotsyba, Natalia; Kovačić, Barbara; Kovalevskaitė, Jolanta; Kowner, Emmanuelle; Krek, Simon; Krishnamurthy, Parameswari; Kübler, Sandra; Kuqi, Adrian; Kuyrukçu, Oğuzhan; Kuzgun, Aslı; Kwak, Sookyoung; Kyle, Kris; Laan, Käbi; Laippala, Veronika; Lambertino, Lorenzo; Landau, Israel; Lando, Tatiana; Larasati, Septina Dian; Lavrentiev, Alexei; Lee, John; Lê Hồng, Phương; Lenci, Alessandro; Lertpradit, Saran; Leung, Herman; Levina, Maria; Levine, Lauren; Li, Cheuk Ying; Li, Josie; Li, Keying; Li, Yixuan; Li, Yuan; Lim, KyungTae; Lima Padovani, Bruna; Lin, Yi-Ju Jessica; Lindén, Krister; Liu, Yang Janet; Ljubešić, Nikola; Lobzhanidze, Irina; Loginova, Olga; Lopes, Lucelene; Luftiu, Edita; Lukashevskyi, Arsenii; Lusito, Stefano; Lutgen, Anne-Marie; Luthfi, Andry; Luukko, Mikko; Lyashevskaya, Olga; Lynn, Teresa; Macketanz, Vivien; Mahamdi, Menel; Maillard, Jean; Makarchuk, Ilya; Makazhanov, Aibek; Mambrini, Francesco; Mandl, Michael; Manning, Christopher; Manurung, Ruli; Marşan, Büşra; Mărănduc, Cătălina; Mareček, David; Marheinecke, Katrin; Markantonatou, Stella; Martínez Alonso, Héctor; Martín Rodríguez, Lorena; Martins, André; Martins, Cláudia; Mašek, Jan; Matsuda, Hiroshi; Matsumoto, Yuji; Mazzei, Alessandro; McDonald, Ryan; McGuinness, Sarah; Mehta, Maitrey; Ménard, Pierre André; Mendonça, Gustavo; Merhav, Hilla; Merzhevich, Tatiana; Meurer, Paul; Miekka, Niko; Milano, Emilia; Miller, Aaron; Minerbi, Yael; Mischenkova, Karina; Missilä, Anna; Mititelu, Cătălin; Mitrofan, Maria; Miyao, Yusuke; Mojiri Foroushani, AmirHossein; Molnár, Judit; Moloodi, Amirsaeid; Montemagni, Simonetta; More, Amir; Moreno Romero, Laura; Moretti, Giovanni; Mori, Shinsuke; Morioka, Tomohiko; Moro, Shigeki; Mortensen, Bjartur; Moskalevskyi, Bohdan; Muischnek, Kadri; Munro, Robert; Murawaki, Yugo; Müürisep, Kaili; Nainwani, Pinkey; Nakhlé, Mariam; Navarro Horñiacek, Juan Ignacio; Nedoluzhko, Anna; Nešpore-Bērzkalne, Gunta; Nevaci, Manuela; Nguyễn Thị, Lương; Nguyễn Thị Minh, Huyền; Nikaido, Yoshihiro; Nikolaev, Vitaly; Nitisaroj, Rattima; Norrman, Victor; Nourian, Alireza; Nunes, Maria das Graças Volpe; Nurmi, Hanna; Ojala, Stina; Ojha, Atul Kr.; Óladóttir, Hulda; Olúòkun, Adédayọ̀; Omura, Mai; Onwuegbuzia, Emeka; Ordan, Noam; Osenova, Petya; Östling, Robert; Ott, Annika; Øvrelid, Lilja; Özateş, Şaziye Betül; Özçelik, Merve; Özgür, Arzucan; Öztürk Başaran, Balkız; Paccosi, Teresa; Palmero Aprosio, Alessio; Panova, Anastasia; Pardo, Thiago Alexandre Salgueiro; Park, Hyunji Hayley; Partanen, Niko; Pascual, Elena; Passarotti, Marco; Patejuk, Agnieszka; Paulino-Passos, Guilherme; Pedonese, Giulia; Peeters, Oggi; Peljak-Łapińska, Angelika; Peng, Siyao; Peng, Siyao Logan; Pereira, Rita; Pereira, Sílvia; Perez, Cenel-Augusto; Perkova, Natalia; Perrier, Guy; Petrov, Slav; Petrova, Daria; Peverelli, Andrea; Phelan, Jason; Pierre-Louis, Claudel; Piitulainen, Jussi; Pinter, Yuval; Pinto, Clara; Pintucci, Rodrigo; Pirinen, Tommi A; Pitler, Emily; Plamada, Magdalena; Plank, Barbara; Plum, Alistair; Poibeau, Thierry; Ponomareva, Larisa; Popel, Martin; Pretkalniņa, Lauma; Pretorius, Rigardt; Prévost, Sophie; Prokopidis, Prokopis; Przepiórkowski, Adam; Pugh, Robert; Puolakainen, Tiina; Purschke, Christoph; Pyysalo, Sampo; Qi, Peng; Querido, Andreia; Rääbis, Andriela; Rabinovich, Ella; Rademaker, Alexandre; Rahoman, Mizanur; Rama, Taraka; Ramasamy, Loganathan; Ramisch, Carlos; Ramos, Joana; Rashel, Fam; Rasooli, Mohammad Sadegh; Ravishankar, Vinit; Real, Livy; Rebeja, Petru; Reddy, Siva; Regnault, Mathilde; Rehm, Georg; Riabi, Arij; Riabov, Ivan; Rießler, Michael; Rimkutė, Erika; Rinaldi, Larissa; Rituma, Laura; Rizqiyah, Putri; Rocha, Luisa; Rögnvaldsson, Eiríkur; Roksandic, Ivan; Roman, Norton Trevisan; Romanenko, Mykhailo; Rosa, Rudolf; Roșca, Valentin; Roulon, Paulette; Rovati, Davide; Rozonoyer, Ben; Rudina, Olga; Rueter, Jack; Ruffolo, Paolo; Rúnarsson, Kristján; Rushiti, Rozana; Sadde, Shoval; Safari, Pegah; Sahala, Aleksi; Saleh, Shadi; Salomoni, Alessio; Samardžić, Tanja; Sampanis, Konstantinos; Samson, Stephanie; Sánchez-Rodríguez, Xulia; Sanguinetti, Manuela; Sanıyar, Ezgi; Särg, Dage; Sartor, Marta; Sarymsakova, Albina; Sasaki, Mitsuya; Saulīte, Baiba; Savary, Agata; Sawanakunanon, Yanin; Saxena, Shefali; Scannell, Kevin; Scarlata, Salvatore; Schang, Emmanuel; Schneider, Nathan; Schuster, Sebastian; Schwartz, Lane; Seddah, Djamé; Seeker, Wolfgang; Sellmer, Sven; Seraji, Mojgan; Shahzadi, Syeda; Shen, Mo; Shimada, Atsuko; Shin, Gyu-Ho; Shirasu, Hiroyuki; Shishkina, Yana; Shohibussirri, Muh; Shvedova, Maria; Siewert, Janine; Sigurðsson, Einar Freyr; Silva, João; Silveira, Aline; Silveira, Natalia; Silveira, Sara; Simi, Maria; Simionescu, Radu; Simkó, Katalin; Šimková, Mária; Símonarson, Haukur Barri; Simov, Kiril; Sitchinava, Dmitri; Sither, Ted; Smith, Aaron; Soares-Bastos, Isabela; Solberg, Per Erik; Sonnenhauser, Barbara; Sourov, Shafi; Sprugnoli, Rachele; Stamou, Vivian; Steingrímsson, Steinþór; Stella, Antonio; Stephen, Abishek; Straka, Milan; Strass, Omer; Strickland, Emmett; Strnadová, Jana; Suhr, Alane; Sulestio, Yogi Lesmana; Sulubacak, Umut; Sung, Hakyung; Suzuki, Shingo; Swanson, Daniel; Szántó, Zsolt; Taguchi, Chihiro; Taji, Dima; Talamo, Luigi; Tamburini, Fabio; Tan, Mary Ann C.; Tanaka, Takaaki; Tanaya, Dipta; Tavoni, Mirko; Tella, Samson; Tellier, Isabelle; Testori, Marinella; Thomas, Guillaume; Tıraş, Tarık Emre; Tonelli, Sara; Torga, Liisi; Toska, Marsida; Trosterud, Trond; Trukhina, Anna; Tsarfaty, Reut; Türk, Utku; Tyers, Francis; Þórðarson, Sveinbjörn; Þorsteinsson, Vilhjálmur; Uematsu, Sumire; Untilov, Roman; Urešová, Zdeňka; Uria, Larraitz; Uszkoreit, Hans; Utka, Andrius; Vagnoni, Elena; Vajjala, Sowmya; Vak, Socrates; van der Goot, Rob; Vanhove, Martine; van Niekerk, Daniel; van Noord, Gertjan; Varga, Viktor; Vedenina, Uliana; Venturi, Giulia; Villemonte de la Clergerie, Eric; Vincze, Veronika; Vissamsetty, Anishka; Vlasova, Natalia; Vligouridou, Eleni; Wakasa, Aya; Wallenberg, Joel C.; Wallin, Lars; Walsh, Abigail; Wang, John; Washington, Jonathan North; Weissweiler, Leonie; Wendt, Maximilan; Widmer, Paul; Wigderson, Shira; Wijono, Sri Hartati; Wille, Vanessa Berwanger; Williams, Seyi; Winkler, Miriam; Wintner, Shuly; Wirén, Mats; Wittern, Christian; Woldemariam, Tsegay; Wong, Tak-sum; Wróblewska, Alina; Wu, Qishen; Yako, Mary; Yamashita, Kayo; Yamazaki, Naoki; Yan, Chunxiao; Yasuoka, Koichi; Yavrumyan, Marat M.; Yenice, Arife Betül; Yılandiloğlu, Enes; Yıldız, Olcay Taner; Yu, Zhuoran; Yuliawati, Arlisa; Žabokrtský, Zdeněk; Zahra, Shorouq; Zeldes, Amir; Zhou, He; Zhu, Hanzhi; Zhu, Yilun; Zhuravleva, Anna; Ziane, Rayan; Znotiņš, Artūrs Universal Dependencies is a project that seeks to develop cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008).

2024-11-15T00:00:00Z EvaldioData 1.0 Rysová, Kateřina Novák, Michal Rysová, Magdaléna Polák, Peter Bojar, Ondřej http://hdl.handle.net/11234/1-5731 2024-11-08T08:02:15Z 2024-10-31T00:00:00Z

EvaldioData 1.0 Rysová, Kateřina; Novák, Michal; Rysová, Magdaléna; Polák, Peter; Bojar, Ondřej EvaldioData 1.0 is the language corpus of spoken performances by non-native speakers of Czech. It includes recordings capturing the oral part of the Czech Language Certificate Exam. The recordings consist of dialogues between the examiner (a native speaker) and the candidate (a non-native speaker). In addition to the recordings, the corpus also contains their transcriptions, which are richly linguistically annotated. Some recordings are accompanied by multiple transcriptions from different annotators, allowing for comparisons of various transcripts of the same recording and evaluations of the degree of consistency in converting spoken language into written text. The current version focuses on the A2 level (according to the CEFR), which is required for the granting of permanent residency in the Czech Republic.

2024-10-31T00:00:00Z CoDipA UNSC 1.0 Anisimova, Mariia Zikánová, Šárka http://hdl.handle.net/11234/1-5532 2024-10-15T10:41:45Z 2024-05-01T00:00:00Z

CoDipA UNSC 1.0 Anisimova, Mariia; Zikánová, Šárka CoDipA UNSC 1.0, or a Corpus of Diplomatic Attitudes of the United Nations Security Council is a language resource manually annotated with the attitude-part of Appraisal theory. The speeches were selected according to topic-related and temporal criteria, and are representative of 5 major international military conflicts that have occurred between 1995 and 2020. The texts were annotated according to the predefined annotation scenario, which is based on the original Appraisal theory and later available commentaries on specificity of its implementation. The annotated texts are available in JSON Lines format. The corpus also contains double annotations of the 8 selected speeches.

2024-05-01T00:00:00Z ORTOFON v3: corpus of informal spoken Czech with multi-tier transcription (transcriptions) Lukeš, David Kopřivová, Marie Laubeová, Zuzana Poukarová, Petra Horký, Václav Jelínek, Tomáš Křivan, Jan Waclawičová, Martina Benešová, Lucie Škarpová, Marie http://hdl.handle.net/11234/1-5687 2024-10-10T10:40:18Z 2024-07-15T00:00:00Z

ORTOFON v3: corpus of informal spoken Czech with multi-tier transcription (transcriptions) Lukeš, David; Kopřivová, Marie; Laubeová, Zuzana; Poukarová, Petra; Horký, Václav; Jelínek, Tomáš; Křivan, Jan; Waclawičová, Martina; Benešová, Lucie; Škarpová, Marie ORTOFON v3 is a corpus of authentic spoken Czech used in informal situations (private environment, spontaneity, unpreparedness etc.) that covers the area of the whole Czech Republic. The corpus is composed of 697 recordings from 2012–2020 and contains 2 445 793 orthographic words (i.e. a total of 2 976 742 tokens including punctuation); a total of 1 121 different speakers appear in the probes. ORTOFON v3 is partially balanced regarding the basic sociolinguistic speaker categories (gender, age group, level of education and region of childhood residence). The transcription is linked to the corresponding audio track. Unlike the ORAL-series corpora, the transcription was carried out on two main tiers, orthographic and phonetic, supplemented by an additional metalanguage tier. ORTOFON v3 is lemmatized and morphologically tagged according to the SYN2020 standard. This was performed with special attention paid to the specificity of the informal spoken Czech and includes also spoken training data. The (anonymized) corpus is provided in a (semi-XML) vertical format used as an input to the Manatee query engine. The data thus correspond to the corpus available via the KonText query engine to registered users of the CNC at http://www.korpus.cz Please note: this item includes only the transcriptions, audio (and the transcripts in their original format) is available under more restrictive non-CC license at http://hdl.handle.net/11234/1-5686

2024-07-15T00:00:00Z