Description:
Překladová služba skrze jednoduché UI a API zpřístupňuje modely neuronových sítí natrénované našimi experty. V současnosti je k dispozici pět modelů a postupně budou přibývat další.
Description:
UDPipe je trénovatelný nástroj pro tokenizaci, tagging, lemmatizaci a závislostní parsing CoNLL-U souborů. UDPipe je jazykově nezávislý a pro natrénování jazykového modelu stačí označkovaná data v CoNLL-U formátu. Předtrénované jazykové modely jsou k dispozici pro téměř všechny UD korpusy. UDPipe je k dispozici jako spustitelný soubor, jako knihovna pro C++, Python, Perl, Java, C#, a také jako webová služba.
UDPipe je svobodný software licencovaný pod Mozilla Public License 2.0 a jazykové modely jsou k dispozici pro nekomerční použití pod licencí CC BY-NC-SA, nicméně původní data použitá k vytvoření modelů mohou v některých případech ukládat další licenční omezení.
Description:
NameTag je open-source nástroj pro rozpoznávání jmenných entity (Named Entity Recognition - NER). NameTag identifikuje vlastní jména v textu a zařazuje je do předem definovaných kategorií, jako jsou názvy osob, míst, organizací, atd. NameTag je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje NameTag state-of-the-art výkonu (Straková et al.,. 2013). NameTag je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použítá k vytvoření modelu implikovat další licenční podmínky.
Description:
MorphoDiTa (morfologický slovník a tagger) je open-source nástroj pro morfologickou analýzu textů v přirozených jazycích. Provádí morfologickou analýzu, morfologické generování, tagování a tokenizaci a je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje MorphoDiTa state-of-the-art výsledků s průchodností kolem 10-200K slov za sekundu. MorphoDiTa je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použitá k vytvoření modelu implikovat další licenční podmínky.
Description:
Treex (dříve TectoMT) je vysoce modulární NLP softwarový systém implementovaný pod Linuxem v programovacím jazyce Perl. Systém je zaměřený především na strojový překlad a využívá myšlenek a technologií vytvořených v rámci projektu Prague Dependency Treebank. Zároveň se předpokládá, že může významně usnadnit a urychlit vývoj softwarových řešení mnoha dalších úkolů NLP, a to zejména s ohledem na znovuvyužitelnost mnoha integrovaných procesních modulů (tzv. bloků), které jsou vybaveny jednotným objektově orientovaným rozhraním.
Description:
Systém Česílko byl navržen jako nástroj pro rychlý a efektivní překlad z jednoho zdrojového jazyka do mnoha cílových jazyků, které jsou si vzájemně blízké. Systém přijímá na vstupu vysoce kvalitní lidský překlad originálu do češtiny (z jakéhokoliv jazyka) a překládá český vstup do mnoha jazyků příbuzných češtině. Systém aktuálně obsahuje 5 jazykových párů, 4 z nich jen jako experimenty, zejména z češtiny do polštiny, litevštiny, makedonštiny a dolnolužické srbštiny. Bohužel, systém nemůže být testován na libovolných textech pro tyto jazykové páry z důvodu malé velikosti všech slovníků. Jediný funkční jazykový pár (a zároveň i využitelný mimo výše uvedené podmínky) je pátý, z češtiny do slovenštiny. Podobně jako jiné systémy pro strojový překlad i Česílko vyžaduje dodatečné úpravy lidmi. Systém je vyvíjen od roku 1998.
Description:
PML-TQ je výkonný open-source vyhledávací nástroj pro všechny druhy lingvisticky anotovaných treebanků s několika klientskými rozhraními a dvěma vyhledávácími backendy (jedním založeným na SQL databázi a druhým na Perlu a TrEd toolkitu) , Nástroj nativně pracuje s treebanky zakódovanými v PML formátu (konverzní skripty jsou k dispozici pro mnoho zavedených treebankových formátů).
Description:
Valenční slovník PDT-Vallex byl vytvořen v těsné vazbě na anotaci projektu Prague Dependency Treebank (PDT) a jeho nástupců (zejména projektu Prague Czech-English Dependency Treebank, PCEDT). Obsahuje více než 11.000 valenčních rámců pro více než 7000 sloves, která se vyskytovala v PDT nebo PCEDT. Je k dispozici v elektronicky zpracovatelném formátu (XML) spolu s výše uvedenými treebanky (prohledávatelnými a editovatelnými pomocí TrEdu, hlavního anotačního nástroje PDT/PCEDT), a také v čitelnější podobě spolu s příklady z korpusů (viz odkaz na webové stránky níže). Hlavním rysem slovníku je jeho propojení s anotovanými korpusy - každý výskyt každého slovesa je propojen s příslušným valenčním rámcem s další (zobecněnou) informací o způsobu jeho použití a alternativních povrchových morfosyntaktických formách.
Description:
EngVallex je anglickým protějškem valenčního slovníku PDT-Vallex, využívajícím stejný náhled na valenci, valenční rámce a popis povrchové formy slovesných argumentů. EngVallex obsahuje i odkazy do PropBanku a Verbnetu, dvou existujících anglických predikátově-argumentových slovníků používaných m.j. v projektu PropBank. Slovník EngVallex je plně propojený s anglickou částí paralelního treebanku PCEDT, který je ve skutečnosti PTB přeanotovaným anotačním stylem používaným v projektu Prague Dependency Treebank. EngVallex je v našem archivu k dispozici ve formátu XML a je také k dispozici v prohledávatelné podobě (viz níže uvedený odkaz na webové stránky) s příklady z PCEDT.
Description:
CzEngVallex je dvojjazyčný valenční slovník, který obsahuje provázané dvojice českých a anglických sloves. Zahrnuje 20835 odpovídajících slovesných dvojic (překladových ekvivalentů) valenčních rámců (významů slovesa) a zachycuje také propojení jejich argumentů. Tato databáze dvojic rámců a jejich argumentů je založena na reálných textech a může být využita například v aplikacích pro strojový překlad. Používá data z projektu Prague Czech-English Dependency Treebank (PCEDT 2.0) a těží také ze dvou již existujících valenčních slovníků (PDT-Vallexu pro češtinu a EngVallexu pro angličtinu) zpracovaných na základě stejného přístupu k valenci (vytvořeného v rámci teorie Funkčního generativního popisu). Slovník CzEngVallex je dostupný v XML formátu v repozitáři LINDAT/CLARIN. Pro jeho prohlížení lze využít též prohlížeč (viz záložka Aplikace), kde je provázán se slovníky PDT-Vallex, EngVallex a také s příklady z PCEDT.
Description:
SynSemClass je slovník česko-anglických slovesných synonym. Základními hesly ve slovníku jsou dvojjazyčné česko-anglické slovesné synonymní třídy, v nichž jsou obsažena synonymní česká a anglická slovesa (členy třídy), reprezentovaná jako valenční rámce (tj. slovesné významy), jejichž pojetí vychází z teorie Funkčně generativního popisu jazyka. Sémantická ekvivalence jednotlivých členů třídy byla stanovena na základě jejich kontextového valenčního chování usouvztažněného k situačně-kognitivnímu obsahu (sémantickým rolím). Synonymické vztahy jsou ve slovníku chápány volně, jednotlivé členy třídy jsou ve vztahu nikoli striktní (úplné) synonymie, ale ve vztahu významové podobnosti, tj. částečné synonymie. Předností slovníku je použití paralelního česko-anglického korpusu PCEDT jako hlavního zdroje jazykových dat, které umožňuje tzv. "bottom-up" přístup, tj. od praxe k teorii. Předností slovníku je rovněž propojení všech členů jednotlivých synonymních tříd s dalšími lexikálními zdroji, a to s hesly valenčních slovníků (PDT-Vallex, EngVallex, CzEngVallex a Vallex), a s hesly sémantických databází (FrameNet, VerbNet, PropBank, Ontonotes a Wordnet).
Description:
Internetová jazyková příručka (IRLB) byla vytvořen dvěma spolupracujícími týmy - týmem z Ústavu pro jazyk český Akademie věd České republiky a týmem NLP centra na Fakultě informatiky Masarykovy univerzity (2004-2008).
Nástroj se skládá ze dvou částí: slovníkové a referenční (výkladové). Komentáře a připomínky jsou vítány a měly by být zaslány na adresu poradna@ujc.cas.cz.
1. Slovníková část
Obsahuje více než 60 000 slovníkových hesel a je založena na heslech školních Pravidel českého pravopisu, Slovníku spisovné češtiny a vybraných hesel z Nového slovníku cizích slov a Slovníku neologismů. Záznamy obvykle obsahují informace, které jsou často dotazované uživateli. Díky morfologickému analyzátoru Ajka vytvořenému na Fakultě informatiky MU jsou v tabulkové formě k dispozici také vyskloňované tvary jednotlivých slov. Slovníková část je propojena s výkladovou hypertextovými odkazy.
2 Referenční část
Je tvořena vysvětleními jazykových jevů popsaných v Pravidlech českého pravopisu a současných českých gramatikách, na které se opakovaně a často dotazují uživatelé prostřednictvím poradní linky Ústavu pro jazyk český. V nabízených vysvětleních jsou rozebrány vybrané typické pravopisné problémy včetně uvedení vhodných doporučení. ILRB je pravidelně aktualizována a doplňována, jsou přidávány a upřesňovány nové výrazy.
Description:
ElixirFM je vyskoúrovňová implementace funkční arabské morfologie. ElixirFM může zpracovávat slova moderní psané arabštiny ve čtyřech různých režimech. Zde se můžete dozvědět, jak používat tyto režimy k různým účelům.
Description:
Systém Dialogy.Org umožňuje uživatelům prohledávat texty (přepisy), sledovat videonahrávky a zobrazovat F0 akustické vlny. Systém Dialogy.Org pracuje na principu webového rozhraní, takže instalace dalších programů na vašem počítači není nutná. Musíte mít Flash Player pro přehrávání videozáznamů.
Description:
Korektor je statistický nástroj pro kontrolu pravopisu a (částečně) gramatiky. Tento nástroj vznikl jako součást diplomové práce Michala Richtera Pokročilý korektor češtiny, ale je dále rozvíjen. Existují dvě verze: unixová command-line utilita (testováno na Debian, Ubuntu a OS X) a OS X SpellServer se systémovou službou, která je integrována do nativních OS X GUI aplikací.
Description:
Kontext je jednoduchá webová aplikace pro dotazování korpusů dostupných v rámci projektu LINDAT/CLARIN. Umožňuje vyhodnocení jednoduchých i složitých dotazů, zobrazení jejich výsledků jako konkordancí, výpočet rozložení četnosti, výpočet vztahových metrik pro slovní spojení a další práci s jazykovými daty. Tato instance je forkem aplikace KonText (vytvořené Ústavem Českého národního korpusu), která byla dále rozšířena na Ústavu formální a aplikované lingvistiky, tak aby vyhovovala potřebám projektu LINDAT/CLARIN.
Description:
Parsito je rychlý závislostní parser napsaný v C++ vydaný jako open-source. Parsito je založené na transition-based parsingu, má vysokou úspěšnost a dosahuje rychlosti 30 tisíc slov za sekundu. Parsito lze natrénovat na libovolných vstupních datech, bez nutnosti navrhovat jazykově závislé rysy, protože používá klasifikátor založený na neuronových sítích. K dispozici jsou natrénované modely pro všechny treebanky z projektu Universal Dependencies (37 treebanků k prosinci 2015).
Parsito je svobodný software licencovaný pod Mozilla Public License 2.0 a jazykové modely jsou k dispozici pro nekomerční použití pod licencí CC BY-NC-SA, nicméně původní data použitá k vytvoření modelů mohou v některých případech ukládat další licenční omezení.
Description:
KER je extraktor klíčových slov, který byl navržen pro naskenované texty v češtině a angličtině. Je založen na standardním tf-idf algoritmu. Idf tabulky jsou natrénovány na textech z Wikipedie. S řídkostí dat se vypořádává předzpracováním textů morfologickým slovníkem a taggerem Morphodita.
Description:
Software EVALD 4.0 slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných rodilými mluvčími češtiny.
Description:
Software EVALD 1.0 pro cizince slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny.
Description:
Software EVALD 4.0 pro začátečníky slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny - začátečníky.
Description:
UWebASR je uživatelsky přívětivý webový ASR engine pro češtinu a slovenštinu. Je volně použitelný pro výzkumné účely a nevyžaduje žádné znalosti o vnitřním fungování enginu nebo API. Nahraný zvukový záznam je automaticky přepsán a uložen ve strukturovaném XML formátu, který umožňuje efektivní ruční post-processing.