Na cestě k lemmatizaci staročeských textů: data, software, aplikace

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378092%3A_____%2F18%3A00498891" target="_blank" >RIV/68378092:_____/18:00498891 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11210/18:10385955
Výsledek na webu
<a href="https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y" target="_blank" >https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
Na cestě k lemmatizaci staročeských textů: data, software, aplikace
Popis výsledku v původním jazyce
Cílem článku je představit popis staročeské apelativní deklinace (vydaný knižně v roce 2017), který se využívá mj. při tagování a lemmatizaci transkribovaných digitálních edic staročeských textů. Původní popis se skládá ze čtyř částí: a) kompletní sady deklinačních vzorů, b) analýzy alternací v tvarotvorném základu slovních tvarů, c) přehledu formálních změn souvisejících především s historickým vývojem jazyka, d) rozsáhlého seznamu lemmat extrahovaných z moderních slovníků staré češtiny. V článku jsou dále přiblíženy softwarové nástroje využité při vytváření popisu: existující (OpenRefine) i nově vytvořené (Analýza tokenů, automatické přiřazení vzoru k lemmatu). Závěrem jsou popsány aplikace, které na jeho základě vznikly: přehled staročeských vzorů propojených se slovníky Vokabuláře webového a staročeskou textovou bankou a dále generátor tvarů, který je základem pro tagování a lemmatizaci.
Název v anglickém jazyce
Towards the lemmatization of Old Czech texts: data, software, applications
Popis výsledku anglicky
The paper introduces a description of declension of Old Czech common nouns (published in print in 2017) employed, among other uses, for tagging and lemmatization of transcribed digital editions of Old Czech text. The original description consists of four parts: a comprehensive set of declension patterns, an analysis of alternations in the morphological basis of word forms, an outline of formal changes mostly related to historical development of the language, and an extensive list of lemmas extracted from modern dictionaries of Old Czech. Further, the paper gives an overview of software tools used to prepare the description: both pre-existing (OpenRefine) and newly created („Tokens analyzer“, automatic assignment of a declension pattern to a lemma). Finally, the paper features applications based on the description: a web presentation of Old Czech common noun declension patterns linked to dictionaries of Vokabulář webový and to the „Old Czech Text Bank“, and also a word form generator used for tagging and lemmatization.

Klasifikace

Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
60203 - Linguistics

Návaznosti výsledku

Projekt
<a href="/cs/project/LM2015081" target="_blank" >LM2015081: Výzkumná infrastruktura pro diachronní bohemistiku</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název periodika
Studie z aplikované lingvistiky
ISSN
1804-3240
e-ISSN
—
Svazek periodika
9
Číslo periodika v rámci svazku
zvláštní vydání
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
19
Strana od-do
66-84
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—

Podobné výsledky(10)

Popis staročeské apelativní deklinace (se zřetelem k automatické morfologické analýze textů Staročeské textové banky)Automatická konstrukce lematizátoru se zaměřením na lematizaci OOV slov Používáme k popisu české gramatiky dobře zvolený systém vzorových podstatných jmen?

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Na cestě k lemmatizaci staročeských textů: data, software, aplikace

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)