Korpusové chyby

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F07%3A10077932" target="_blank" >RIV/00216208:11320/07:10077932 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—

Jazyk výsledku
čeština
Název v původním jazyce
Korpusové chyby
Popis výsledku v původním jazyce
Příspěvek popisuje typologii chyb objevujících se v morfologicky anotovaných korpusech. Typy jsou demonstrovány na příkladech z českého korpusu SYN2000. Tři hlavní typy chyb jsou: původní chyby pocházející z originálních textů, kódovací chyby a anotačníchyby.
Název v anglickém jazyce
Corpus Defects
Popis výsledku anglicky
The article proposes a typology of errors that occur in morphologically annotated corpora, demonstrated on the example of the Czech National Corpus, its version SYN2000. It is morphologically annotated corpus with 3 attributes: word form, lemma and morphological tag. Word forms come from original texts acquired from various providers, the other two are added by corpus builders during the annotation. It explains the process of morphological annotation, its three phases - morphological analysis, guesser and disambiguation. It describes types of errors that can occur during the individual phases and why. And it discusses possibilities of their removal. There are three main categories of errors: original errors coming from original texts, coding errors that come from possible recoding of various texts into one common format, and annotation errors due to faults in morphological dictionary and imperfections in the disambiguation - the statistical as well as rule-based. All types of corpus de

Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Rok uplatnění
2007
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Podobné výsledky(10)