Přejít k hlavnímu obsahu

Osvědčené postupy

Kompilace datových souborů do kolekcí repozitáře LINDAT

Tento text je určen uživatelům, kteří chtějí zpřístunit své lokální soubory jako kolekce ve veřejném datovém repozitáři. My provozujeme repozitář LINDAT, a proto ho upřednostňujeme před ostatními repozitáři. Formáty souborů mohou být různorodé, např. excelovské tabulky, wordovské dokumenty, nahrávky, podklady knih pro vydavatelství, slovníky publikované online, zvukové nahrávky.

LINDAT je digitální uložiště, které je určeno pro jazykové datové kolekce, textové i mluvené. Například zde najdete korpusy k jazykovědnému výzkumu, kolekce soudních rozhodnutí k automatizaci procedur v právní doméně, zvukové nahrávky z dopravních prostředků k implementaci systémů rozpoznávání mluvené řeči aj. Kolekce jsou identifikovány třemi atributy

  • data jsou informace určené k počítačovému zpracování
  • metadata jsou data o datech
  • licence (meta)dat jsou podmínky, za kterých je možné (meta)data používat

V následujících bodech předkládáme tipy a doporučení, jak kompilovat datové soubory. Samotné uložení  do repozitáře LINDAT je popsáno zde.

  • Dohledejte dokumentaci o tom, jak soubory vznikly, a dle potřeby ji upravte
  • Důsledně zdokumentujte obsah souborů, např. v excelovské tabulce doplňte názvy sloupců/řádků
  • Ošetřte licenci dat, metadata jsou k dispozici volně 
  • Uchovejte původní soubory a netrapte se tím, zda-li budou v budoucnu strojově čitelné
  • Pečlivě zvažte konverzi formátu souborů. Berte v úvahu formáty, se kterými pracují dostupné vyhledávací služby
  • Využijte možnost uložit data v repozitáři LINDAT ve více formátech
  • Dokumentujte proces kompilace. Tím se obohatí Osvědčené postupy a může vzniknout pěkná publikace 
  • Konzultujte se svými kolegy srozumitelnost dokumentace
Ilustrační příklad
Odkazy