Přejít k hlavnímu obsahu

JavaScript is disabled for your browser. Some features of this site may not work without it.
 
 
Strojový překlad
Authors:
Martin Popel, Dušan Variš, Ondřej Košarko
Description:
Překladová služba skrze jednoduché UI a API zpřístupňuje modely neuronových sítí natrénované našimi experty. V současnosti je k dispozici pět modelů a postupně budou přibývat další.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
UDPipe
Authors:
Milan Straka, Jana Straková
Description:
UDPipe je trénovatelný nástroj pro tokenizaci, tagging, lemmatizaci a závislostní parsing CoNLL-U souborů. UDPipe je jazykově nezávislý a pro natrénování jazykového modelu stačí označkovaná data v CoNLL-U formátu. Předtrénované jazykové modely jsou k dispozici pro téměř všechny UD korpusy. UDPipe je k dispozici jako spustitelný soubor, jako knihovna pro C++, Python, Perl, Java, C#, a také jako webová služba. UDPipe je svobodný software licencovaný pod Mozilla Public License 2.0 a jazykové modely jsou k dispozici pro nekomerční použití pod licencí CC BY-NC-SA, nicméně původní data použitá k vytvoření modelů mohou v některých případech ukládat další licenční omezení.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
NameTag
Authors:
Milan Straka, Jana Straková
Description:
NameTag je open-source nástroj pro rozpoznávání jmenných entity (Named Entity Recognition - NER). NameTag identifikuje vlastní jména v textu a zařazuje je do předem definovaných kategorií, jako jsou názvy osob, míst, organizací, atd. NameTag je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje NameTag state-of-the-art výkonu (Straková et al.,. 2013). NameTag je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použítá k vytvoření modelu implikovat další licenční podmínky.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
MorphoDiTa
Authors:
Milan Straka, Jana Straková
Description:
MorphoDiTa (morfologický slovník a tagger) je open-source nástroj pro morfologickou analýzu textů v přirozených jazycích. Provádí morfologickou analýzu, morfologické generování, tagování a tokenizaci a je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje MorphoDiTa state-of-the-art výsledků s průchodností kolem 10-200K slov za sekundu. MorphoDiTa je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použitá k vytvoření modelu implikovat další licenční podmínky.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Treex::Web
Authors:
Martin Popel, Zdeněk Žabokrtský, Jan Ptáček, Petr Pajas
Description:
Treex (dříve TectoMT) je vysoce modulární NLP softwarový systém implementovaný pod Linuxem v programovacím jazyce Perl. Systém je zaměřený především na strojový překlad a využívá myšlenek a technologií vytvořených v rámci projektu Prague Dependency Treebank. Zároveň se předpokládá, že může významně usnadnit a urychlit vývoj softwarových řešení mnoha dalších úkolů NLP, a to zejména s ohledem na znovuvyužitelnost mnoha integrovaných procesních modulů (tzv. bloků), které jsou vybaveny jednotným objektově orientovaným rozhraním.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Česílko
Authors:
Jan Hajič, Vladislav Kuboň, Petr Homola
Description:
Systém Česílko byl navržen jako nástroj pro rychlý a efektivní překlad z jednoho zdrojového jazyka do mnoha cílových jazyků, které jsou si vzájemně blízké. Systém přijímá na vstupu vysoce kvalitní lidský překlad originálu do češtiny (z jakéhokoliv jazyka) a překládá český vstup do mnoha jazyků příbuzných češtině. Systém aktuálně obsahuje 5 jazykových párů, 4 z nich jen jako experimenty, zejména z češtiny do polštiny, litevštiny, makedonštiny a dolnolužické srbštiny. Bohužel, systém nemůže být testován na libovolných textech pro tyto jazykové páry z důvodu malé velikosti všech slovníků. Jediný funkční jazykový pár (a zároveň i využitelný mimo výše uvedené podmínky) je pátý, z češtiny do slovenštiny. Podobně jako jiné systémy pro strojový překlad i Česílko vyžaduje dodatečné úpravy lidmi. Systém je vyvíjen od roku 1998.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
PML-Tree Query
Authors:
Petr Pajas, Jan Štěpánek
Description:
PML-TQ je výkonný open-source vyhledávací nástroj pro všechny druhy lingvisticky anotovaných treebanků s několika klientskými rozhraními a dvěma vyhledávácími backendy (jedním založeným na SQL databázi a druhým na Perlu a TrEd toolkitu) , Nástroj nativně pracuje s treebanky zakódovanými v PML formátu (konverzní skripty jsou k dispozici pro mnoho zavedených treebankových formátů).
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
PDT-Vallex
Authors:
Zdeňka Urešová, Jan Štěpánek, Jan Hajič, Jarmila Panevová, Marie Mikulová
Description:
Valenční slovník PDT-Vallex byl vytvořen v těsné vazbě na anotaci projektu Prague Dependency Treebank (PDT) a jeho nástupců (zejména projektu Prague Czech-English Dependency Treebank, PCEDT). Obsahuje více než 11.000 valenčních rámců pro více než 7000 sloves, která se vyskytovala v PDT nebo PCEDT. Je k dispozici v elektronicky zpracovatelném formátu (XML) spolu s výše uvedenými treebanky (prohledávatelnými a editovatelnými pomocí TrEdu, hlavního anotačního nástroje PDT/PCEDT), a také v čitelnější podobě spolu s příklady z korpusů (viz odkaz na webové stránky níže). Hlavním rysem slovníku je jeho propojení s anotovanými korpusy - každý výskyt každého slovesa je propojen s příslušným valenčním rámcem s další (zobecněnou) informací o způsobu jeho použití a alternativních povrchových morfosyntaktických formách.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
EngVallex
Authors:
Silvie Cinková, Eva Fučíková, Jana Šindlerová, Jan Hajič
Description:
EngVallex je anglickým protějškem valenčního slovníku PDT-Vallex, využívajícím stejný náhled na valenci, valenční rámce a popis povrchové formy slovesných argumentů. EngVallex obsahuje i odkazy do PropBanku a Verbnetu, dvou existujících anglických predikátově-argumentových slovníků používaných m.j. v projektu PropBank. Slovník EngVallex je plně propojený s anglickou částí paralelního treebanku PCEDT, který je ve skutečnosti PTB přeanotovaným anotačním stylem používaným v projektu Prague Dependency Treebank. EngVallex je v našem archivu k dispozici ve formátu XML a je také k dispozici v prohledávatelné podobě (viz níže uvedený odkaz na webové stránky) s příklady z PCEDT.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
CzEngVallex
Authors:
Zdeňka Urešová, Eva Fučíková, Jan Hajič, Jana Šindlerová
Description:
CzEngVallex je dvojjazyčný valenční slovník, který obsahuje provázané dvojice českých a anglických sloves. Zahrnuje 20835 odpovídajících slovesných dvojic (překladových ekvivalentů) valenčních rámců (významů slovesa) a zachycuje také propojení jejich argumentů. Tato databáze dvojic rámců a jejich argumentů je založena na reálných textech a může být využita například v aplikacích pro strojový překlad. Používá data z projektu Prague Czech-English Dependency Treebank (PCEDT 2.0) a těží také ze dvou již existujících valenčních slovníků (PDT-Vallexu pro češtinu a EngVallexu pro angličtinu) zpracovaných na základě stejného přístupu k valenci (vytvořeného v rámci teorie Funkčního generativního popisu). Slovník CzEngVallex je dostupný v XML formátu v repozitáři LINDAT/CLARIN. Pro jeho prohlížení lze využít též prohlížeč (viz záložka Aplikace), kde je provázán se slovníky PDT-Vallex, EngVallex a také s příklady z PCEDT.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
SynSemClass
Authors:
Zdeňka Urešová, Peter Bourgonje, Eva Fučíková, Jan Hajič, Eva Hajičová, Georg Rehm, Kateřina Rysová, Karolina Zaczynska
Description:
SynSemClass lexikon verze 4.0 zkoumá kontextovou sémantickou „ekvivalenci“ českých, anglických a německých sloves spolu s jejich valenčním chováním v paralelních česko-anglických a německo-anglických textech. SynSemClass4.0 je ontologie založená na třídách vícejazyčných slovesných synonym, doplněných sémantickými rolemi. Ontologie je obohacena o značné množství nových tříd a ve srovnání se staršími verzemi je novinkou zařazení definic rolí a definic tříd. Opět obsahuje i odkazy do jiných sémantických lexikálních zdrojů. Kromě již použitých odkazů do PDT-Vallexu, EngVallexu, CzEngVallexu, FrameNetu, VerbNetu, PropBanku, Ontonotes a anglického WordNetu pro česká a anglická synonyma, jsou ve slovníku zařazeny nově i odkazy do německých jazykových lexikálních zdrojů: do Woxikonu, E-VALBU a GUPu. Slovník zároveň obsahuje příklady vět, v nichž byla vícejazyčná synonyma použita.
Ústav formální a aplikované lingvistiky, Univerzita Karlova
 
 
Authors:
Ústav pro jazyk český, Akademie věd České republiky; NLP centrum na Fakultě informatiky Masarykovy univerzity
Description:
Internetová jazyková příručka (IRLB) byla vytvořen dvěma spolupracujícími týmy - týmem z Ústavu pro jazyk český Akademie věd České republiky a týmem NLP centra na Fakultě informatiky Masarykovy univerzity (2004-2008). Nástroj se skládá ze dvou částí: slovníkové a referenční (výkladové). Komentáře a připomínky jsou vítány a měly by být zaslány na adresu poradna@ujc.cas.cz. 1. Slovníková část Obsahuje více než 60 000 slovníkových hesel a je založena na heslech školních Pravidel českého pravopisu, Slovníku spisovné češtiny a vybraných hesel z Nového slovníku cizích slov a Slovníku neologismů. Záznamy obvykle obsahují informace, které jsou často dotazované uživateli. Díky morfologickému analyzátoru Ajka vytvořenému na Fakultě informatiky MU jsou v tabulkové formě k dispozici také vyskloňované tvary jednotlivých slov. Slovníková část je propojena s výkladovou hypertextovými odkazy. 2 Referenční část Je tvořena vysvětleními jazykových jevů popsaných v Pravidlech českého pravopisu a současných českých gramatikách, na které se opakovaně a často dotazují uživatelé prostřednictvím poradní linky Ústavu pro jazyk český. V nabízených vysvětleních jsou rozebrány vybrané typické pravopisné problémy včetně uvedení vhodných doporučení. ILRB je pravidelně aktualizována a doplňována, jsou přidávány a upřesňovány nové výrazy.
Ústav pro jazyk český, Akademie věd České republikyNLP centrum na Fakultě informatiky Masarykovy univerzity
 
 
ElixirFM ​​
Authors:
Otakar Smrž
Description:
ElixirFM ​​je vyskoúrovňová implementace funkční arabské morfologie. ElixirFM ​​může zpracovávat slova moderní psané arabštiny ve čtyřech různých režimech. Zde se můžete dozvědět, jak používat tyto režimy k různým účelům.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Authors:
Nino Peterek
Description:
Systém Dialogy.Org umožňuje uživatelům prohledávat texty (přepisy), sledovat videonahrávky a zobrazovat F0 akustické vlny. Systém Dialogy.Org pracuje na principu webového rozhraní, takže instalace dalších programů na vašem počítači není nutná. Musíte mít Flash Player pro přehrávání videozáznamů.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Korektor
Authors:
Michal Richter, Pavel Straňák, Milan Straka
Description:
Korektor je statistický nástroj pro kontrolu pravopisu a (částečně) gramatiky. Tento nástroj vznikl jako součást diplomové práce Michala Richtera Pokročilý korektor češtiny, ale je dále rozvíjen. Existují dvě verze: unixová command-line utilita (testováno na Debian, Ubuntu a OS X) a OS X SpellServer se systémovou službou, která je integrována do nativních OS X GUI aplikací.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Authors:
NLP centrum, Masarykova univerzita (Brno), Ústav Českého národního korpusu (Praha), Ústav formální a aplikované lingvistiky (Praha)
Description:
Kontext je jednoduchá webová aplikace pro dotazování korpusů dostupných v rámci projektu LINDAT/CLARIN. Umožňuje vyhodnocení jednoduchých i složitých dotazů, zobrazení jejich výsledků jako konkordancí, výpočet rozložení četnosti, výpočet vztahových metrik pro slovní spojení a další práci s jazykovými daty. Tato instance je forkem aplikace KonText (vytvořené Ústavem Českého národního korpusu), která byla dále rozšířena na Ústavu formální a aplikované lingvistiky, tak aby vyhovovala potřebám projektu LINDAT/CLARIN.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Authors:
Jindřich Libovický
Description:
KER je extraktor klíčových slov, který byl navržen pro naskenované texty v češtině a angličtině. Je založen na standardním tf-idf algoritmu. Idf tabulky jsou natrénovány na textech z Wikipedie. S řídkostí dat se vypořádává předzpracováním textů morfologickým slovníkem a taggerem Morphodita.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
EVALD
Authors:
Novák, Michal, Mírovský, Jiří, Rysová, Kateřina, Rysová, Magdaléna, Hajičová, Eva
Description:
Software EVALD 4.0 slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných rodilými mluvčími češtiny.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
EVALD pro cizince
Authors:
Novák, Michal, Mírovský, Jiří, Rysová, Kateřina, Rysová, Magdaléna, Hajičová, Eva
Description:
Software EVALD 1.0 pro cizince slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
EVALD pro začátečníky
Authors:
Novák, Michal, Mírovský, Jiří, Rysová, Kateřina, Rysová, Magdaléna, Hajičová, Eva
Description:
Software EVALD 4.0 pro začátečníky slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny - začátečníky.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
UWebASR
Authors:
Jan Švec, Martin Bulín, Aleš Pražák
Description:
UWebASR je uživatelsky přívětivý webový ASR engine pro češtinu a slovenštinu. Je volně použitelný pro výzkumné účely a nevyžaduje žádné znalosti o vnitřním fungování enginu nebo API. Nahraný zvukový záznam je automaticky přepsán a uložen ve strukturovaném XML formátu, který umožňuje efektivní ruční post-processing.
Katedra kybernetiky, Západočeská univerzita v Plzni
 
TEITOK
Authors:
Maarten Janssen
Description:
TEITOK je online platforma pro vyhledávání, vizualizaci a správu jazykových korpusů, ve které jsou soubory korpusu uchovávány v bohatém formátu souborů TEI / XML. Na LINDATu je TEITOK integrován s Kontextem a PML-TQ, které umožňují přístup ke stejnému korpusu z řady různých rozhraní.
Institute of Formal and Applied Linguistics, Charles University in Prague