Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Building a Corpus of Old Czech

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F12%3A10130057" target="_blank" >RIV/00216208:11320/12:10130057 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Building a Corpus of Old Czech

  • Popis výsledku v původním jazyce

    In this paper we describe our efforts to build a corpus of Old Czech. We report on tools, resources and methodologies used during the corpus development as well as discuss the corpus sources and structure, the tagset used, the approach to lemmatization,morphological analysis and tagging. Due to practical restrictions we adapt resources and tools developed for Modern Czech. However, some of the described challenges, such as the non-standardized spelling in early Czech and the form and lemma variabilitydue to language change during the covered time-span, are unique and never arise when building synchronic corpora of Modern Czech.

  • Název v anglickém jazyce

    Building a Corpus of Old Czech

  • Popis výsledku anglicky

    In this paper we describe our efforts to build a corpus of Old Czech. We report on tools, resources and methodologies used during the corpus development as well as discuss the corpus sources and structure, the tagset used, the approach to lemmatization,morphological analysis and tagging. Due to practical restrictions we adapt resources and tools developed for Modern Czech. However, some of the described challenges, such as the non-standardized spelling in early Czech and the form and lemma variabilitydue to language change during the covered time-span, are unique and never arise when building synchronic corpora of Modern Czech.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2012

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)

  • ISBN

    978-2-9517408-7-7

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    1

  • Strana od-do

    1

  • Název nakladatele

    European Language Resources Association

  • Místo vydání

    ?stanbul, Turkey

  • Místo konání akce

    ?stanbul, Turkey

  • Datum konání akce

    21. 5. 2012

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku