Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Na cestě k lemmatizaci staročeských textů: data, software, aplikace

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378092%3A_____%2F18%3A00498891" target="_blank" >RIV/68378092:_____/18:00498891 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/00216208:11210/18:10385955

  • Výsledek na webu

    <a href="https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y" target="_blank" >https://dspace.cuni.cz/bitstream/handle/20.500.11956/103953/Pavlina_Synkova_%e2%80%94_Boris_Lehecka_%e2%80%94_Ondrej_Svoboda_66-84.pdf?sequence=1&isAllowed=y</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Na cestě k lemmatizaci staročeských textů: data, software, aplikace

  • Popis výsledku v původním jazyce

    Cílem článku je představit popis staročeské apelativní deklinace (vydaný knižně v roce 2017), který se využívá mj. při tagování a lemmatizaci transkribovaných digitálních edic staročeských textů. Původní popis se skládá ze čtyř částí: a) kompletní sady deklinačních vzorů, b) analýzy alternací v tvarotvorném základu slovních tvarů, c) přehledu formálních změn souvisejících především s historickým vývojem jazyka, d) rozsáhlého seznamu lemmat extrahovaných z moderních slovníků staré češtiny. V článku jsou dále přiblíženy softwarové nástroje využité při vytváření popisu: existující (OpenRefine) i nově vytvořené (Analýza tokenů, automatické přiřazení vzoru k lemmatu). Závěrem jsou popsány aplikace, které na jeho základě vznikly: přehled staročeských vzorů propojených se slovníky Vokabuláře webového a staročeskou textovou bankou a dále generátor tvarů, který je základem pro tagování a lemmatizaci.

  • Název v anglickém jazyce

    Towards the lemmatization of Old Czech texts: data, software, applications

  • Popis výsledku anglicky

    The paper introduces a description of declension of Old Czech common nouns (published in print in 2017) employed, among other uses, for tagging and lemmatization of transcribed digital editions of Old Czech text. The original description consists of four parts: a comprehensive set of declension patterns, an analysis of alternations in the morphological basis of word forms, an outline of formal changes mostly related to historical development of the language, and an extensive list of lemmas extracted from modern dictionaries of Old Czech. Further, the paper gives an overview of software tools used to prepare the description: both pre-existing (OpenRefine) and newly created („Tokens analyzer“, automatic assignment of a declension pattern to a lemma). Finally, the paper features applications based on the description: a web presentation of Old Czech common noun declension patterns linked to dictionaries of Vokabulář webový and to the „Old Czech Text Bank“, and also a word form generator used for tagging and lemmatization.

Klasifikace

  • Druh

    J<sub>ost</sub> - Ostatní články v recenzovaných periodicích

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2015081" target="_blank" >LM2015081: Výzkumná infrastruktura pro diachronní bohemistiku</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2018

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Studie z aplikované lingvistiky

  • ISSN

    1804-3240

  • e-ISSN

  • Svazek periodika

    9

  • Číslo periodika v rámci svazku

    zvláštní vydání

  • Stát vydavatele periodika

    CZ - Česká republika

  • Počet stran výsledku

    19

  • Strana od-do

    66-84

  • Kód UT WoS článku

  • EID výsledku v databázi Scopus