Na cestě k lemmatizaci staročeských textů: data, software, aplikace
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378092%3A_____%2F18%3A00498891" target="_blank" >RIV/68378092:_____/18:00498891 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11210/18:10385955
Výsledek na webu
<a href="https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y" target="_blank" >https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Na cestě k lemmatizaci staročeských textů: data, software, aplikace
Popis výsledku v původním jazyce
Cílem článku je představit popis staročeské apelativní deklinace (vydaný knižně v roce 2017), který se využívá mj. při tagování a lemmatizaci transkribovaných digitálních edic staročeských textů. Původní popis se skládá ze čtyř částí: a) kompletní sady deklinačních vzorů, b) analýzy alternací v tvarotvorném základu slovních tvarů, c) přehledu formálních změn souvisejících především s historickým vývojem jazyka, d) rozsáhlého seznamu lemmat extrahovaných z moderních slovníků staré češtiny. V článku jsou dále přiblíženy softwarové nástroje využité při vytváření popisu: existující (OpenRefine) i nově vytvořené (Analýza tokenů, automatické přiřazení vzoru k lemmatu). Závěrem jsou popsány aplikace, které na jeho základě vznikly: přehled staročeských vzorů propojených se slovníky Vokabuláře webového a staročeskou textovou bankou a dále generátor tvarů, který je základem pro tagování a lemmatizaci.
Název v anglickém jazyce
Towards the lemmatization of Old Czech texts: data, software, applications
Popis výsledku anglicky
The paper introduces a description of declension of Old Czech common nouns (published in print in 2017) employed, among other uses, for tagging and lemmatization of transcribed digital editions of Old Czech text. The original description consists of four parts: a comprehensive set of declension patterns, an analysis of alternations in the morphological basis of word forms, an outline of formal changes mostly related to historical development of the language, and an extensive list of lemmas extracted from modern dictionaries of Old Czech. Further, the paper gives an overview of software tools used to prepare the description: both pre-existing (OpenRefine) and newly created („Tokens analyzer“, automatic assignment of a declension pattern to a lemma). Finally, the paper features applications based on the description: a web presentation of Old Czech common noun declension patterns linked to dictionaries of Vokabulář webový and to the „Old Czech Text Bank“, and also a word form generator used for tagging and lemmatization.
Klasifikace
Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2015081" target="_blank" >LM2015081: Výzkumná infrastruktura pro diachronní bohemistiku</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Studie z aplikované lingvistiky
ISSN
1804-3240
e-ISSN
—
Svazek periodika
9
Číslo periodika v rámci svazku
zvláštní vydání
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
19
Strana od-do
66-84
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—