Towards the lemmatization of Old Czech texts: data, software, applications

The result's identifiers

Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378092%3A_____%2F18%3A00498891" target="_blank" >RIV/68378092:_____/18:00498891 - isvavai.cz</a>
Alternative codes found
RIV/00216208:11210/18:10385955
Result on the web
<a href="https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y" target="_blank" >https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y</a>
DOI - Digital Object Identifier
—

Alternative languages

Result language
čeština
Original language name
Na cestě k lemmatizaci staročeských textů: data, software, aplikace
Original language description
Cílem článku je představit popis staročeské apelativní deklinace (vydaný knižně v roce 2017), který se využívá mj. při tagování a lemmatizaci transkribovaných digitálních edic staročeských textů. Původní popis se skládá ze čtyř částí: a) kompletní sady deklinačních vzorů, b) analýzy alternací v tvarotvorném základu slovních tvarů, c) přehledu formálních změn souvisejících především s historickým vývojem jazyka, d) rozsáhlého seznamu lemmat extrahovaných z moderních slovníků staré češtiny. V článku jsou dále přiblíženy softwarové nástroje využité při vytváření popisu: existující (OpenRefine) i nově vytvořené (Analýza tokenů, automatické přiřazení vzoru k lemmatu). Závěrem jsou popsány aplikace, které na jeho základě vznikly: přehled staročeských vzorů propojených se slovníky Vokabuláře webového a staročeskou textovou bankou a dále generátor tvarů, který je základem pro tagování a lemmatizaci.
Czech name
Na cestě k lemmatizaci staročeských textů: data, software, aplikace
Czech description
Cílem článku je představit popis staročeské apelativní deklinace (vydaný knižně v roce 2017), který se využívá mj. při tagování a lemmatizaci transkribovaných digitálních edic staročeských textů. Původní popis se skládá ze čtyř částí: a) kompletní sady deklinačních vzorů, b) analýzy alternací v tvarotvorném základu slovních tvarů, c) přehledu formálních změn souvisejících především s historickým vývojem jazyka, d) rozsáhlého seznamu lemmat extrahovaných z moderních slovníků staré češtiny. V článku jsou dále přiblíženy softwarové nástroje využité při vytváření popisu: existující (OpenRefine) i nově vytvořené (Analýza tokenů, automatické přiřazení vzoru k lemmatu). Závěrem jsou popsány aplikace, které na jeho základě vznikly: přehled staročeských vzorů propojených se slovníky Vokabuláře webového a staročeskou textovou bankou a dále generátor tvarů, který je základem pro tagování a lemmatizaci.

Classification

Type
J<sub>ost</sub> - Miscellaneous article in a specialist periodical
CEP classification
—
OECD FORD branch
60203 - Linguistics

Result continuities

Project
<a href="/en/project/LM2015081" target="_blank" >LM2015081: Research Infrastructure for Diachronic Czech Studies</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

Publication year
2018
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

Name of the periodical
Studie z aplikované lingvistiky
ISSN
1804-3240
e-ISSN
—
Volume of the periodical
9
Issue of the periodical within the volume
zvláštní vydání
Country of publishing house
CZ - CZECH REPUBLIC
Number of pages
19
Pages from-to
66-84
UT code for WoS article
—
EID of the result in the Scopus database
—

Similar results(10)

Description of Old Czech Common Nouns Declension (with regard to Automatic Morphological Analysis of Texts in Old Czech Text Bank)Automatic Lemmatizer Construction with Focus on OOV Words Lemmatization Do we use an appropriate system of pattern words for the description of Czech grammar?

What are you looking for?

Quick search

Smart search

Towards the lemmatization of Old Czech texts: data, software, applications

The result's identifiers

Alternative languages

Classification

Result continuities

Others

Data specific for result type

Similar results(10)

What are you looking for?

Quick search

Smart search

Result description

The result's identifiers

The result's identifiers

Alternative languages

Alternative languages

Classification

Classification

Result continuities

Result continuities

Others

Others

Data specific for result type

Data specific for result type

Similar results(10)