Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Korpusové chyby

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F07%3A10077932" target="_blank" >RIV/00216208:11320/07:10077932 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Korpusové chyby

  • Popis výsledku v původním jazyce

    Příspěvek popisuje typologii chyb objevujících se v morfologicky anotovaných korpusech. Typy jsou demonstrovány na příkladech z českého korpusu SYN2000. Tři hlavní typy chyb jsou: původní chyby pocházející z originálních textů, kódovací chyby a anotačníchyby.

  • Název v anglickém jazyce

    Corpus Defects

  • Popis výsledku anglicky

    The article proposes a typology of errors that occur in morphologically annotated corpora, demonstrated on the example of the Czech National Corpus, its version SYN2000. It is morphologically annotated corpus with 3 attributes: word form, lemma and morphological tag. Word forms come from original texts acquired from various providers, the other two are added by corpus builders during the annotation. It explains the process of morphological annotation, its three phases - morphological analysis, guesser and disambiguation. It describes types of errors that can occur during the individual phases and why. And it discusses possibilities of their removal. There are three main categories of errors: original errors coming from original texts, coding errors that come from possible recoding of various texts into one common format, and annotation errors due to faults in morphological dictionary and imperfections in the disambiguation - the statistical as well as rule-based. All types of corpus de

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    AI - Jazykověda

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2007

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Gramatika a korpus / Grammar and Corpora 2005

  • ISBN

    978-80-86496-32-0

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    10

  • Strana od-do

  • Název nakladatele

    ÚJČ AV ČR Praha

  • Místo vydání

    Praha, Czechia

  • Místo konání akce

    Praha, Czechia

  • Datum konání akce

    23. 11. 2005

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku