Towards the lemmatization of Old Czech texts: data, software, applications
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378092%3A_____%2F18%3A00498891" target="_blank" >RIV/68378092:_____/18:00498891 - isvavai.cz</a>
Alternative codes found
RIV/00216208:11210/18:10385955
Result on the web
<a href="https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y" target="_blank" >https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Na cestě k lemmatizaci staročeských textů: data, software, aplikace
Original language description
Cílem článku je představit popis staročeské apelativní deklinace (vydaný knižně v roce 2017), který se využívá mj. při tagování a lemmatizaci transkribovaných digitálních edic staročeských textů. Původní popis se skládá ze čtyř částí: a) kompletní sady deklinačních vzorů, b) analýzy alternací v tvarotvorném základu slovních tvarů, c) přehledu formálních změn souvisejících především s historickým vývojem jazyka, d) rozsáhlého seznamu lemmat extrahovaných z moderních slovníků staré češtiny. V článku jsou dále přiblíženy softwarové nástroje využité při vytváření popisu: existující (OpenRefine) i nově vytvořené (Analýza tokenů, automatické přiřazení vzoru k lemmatu). Závěrem jsou popsány aplikace, které na jeho základě vznikly: přehled staročeských vzorů propojených se slovníky Vokabuláře webového a staročeskou textovou bankou a dále generátor tvarů, který je základem pro tagování a lemmatizaci.
Czech name
Na cestě k lemmatizaci staročeských textů: data, software, aplikace
Czech description
Cílem článku je představit popis staročeské apelativní deklinace (vydaný knižně v roce 2017), který se využívá mj. při tagování a lemmatizaci transkribovaných digitálních edic staročeských textů. Původní popis se skládá ze čtyř částí: a) kompletní sady deklinačních vzorů, b) analýzy alternací v tvarotvorném základu slovních tvarů, c) přehledu formálních změn souvisejících především s historickým vývojem jazyka, d) rozsáhlého seznamu lemmat extrahovaných z moderních slovníků staré češtiny. V článku jsou dále přiblíženy softwarové nástroje využité při vytváření popisu: existující (OpenRefine) i nově vytvořené (Analýza tokenů, automatické přiřazení vzoru k lemmatu). Závěrem jsou popsány aplikace, které na jeho základě vznikly: přehled staročeských vzorů propojených se slovníky Vokabuláře webového a staročeskou textovou bankou a dále generátor tvarů, který je základem pro tagování a lemmatizaci.
Classification
Type
J<sub>ost</sub> - Miscellaneous article in a specialist periodical
CEP classification
—
OECD FORD branch
60203 - Linguistics
Result continuities
Project
<a href="/en/project/LM2015081" target="_blank" >LM2015081: Research Infrastructure for Diachronic Czech Studies</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2018
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Name of the periodical
Studie z aplikované lingvistiky
ISSN
1804-3240
e-ISSN
—
Volume of the periodical
9
Issue of the periodical within the volume
zvláštní vydání
Country of publishing house
CZ - CZECH REPUBLIC
Number of pages
19
Pages from-to
66-84
UT code for WoS article
—
EID of the result in the Scopus database
—