Korpusové chyby
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F07%3A10077932" target="_blank" >RIV/00216208:11320/07:10077932 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Korpusové chyby
Popis výsledku v původním jazyce
Příspěvek popisuje typologii chyb objevujících se v morfologicky anotovaných korpusech. Typy jsou demonstrovány na příkladech z českého korpusu SYN2000. Tři hlavní typy chyb jsou: původní chyby pocházející z originálních textů, kódovací chyby a anotačníchyby.
Název v anglickém jazyce
Corpus Defects
Popis výsledku anglicky
The article proposes a typology of errors that occur in morphologically annotated corpora, demonstrated on the example of the Czech National Corpus, its version SYN2000. It is morphologically annotated corpus with 3 attributes: word form, lemma and morphological tag. Word forms come from original texts acquired from various providers, the other two are added by corpus builders during the annotation. It explains the process of morphological annotation, its three phases - morphological analysis, guesser and disambiguation. It describes types of errors that can occur during the individual phases and why. And it discusses possibilities of their removal. There are three main categories of errors: original errors coming from original texts, coding errors that come from possible recoding of various texts into one common format, and annotation errors due to faults in morphological dictionary and imperfections in the disambiguation - the statistical as well as rule-based. All types of corpus de
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2007
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Gramatika a korpus / Grammar and Corpora 2005
ISBN
978-80-86496-32-0
ISSN
—
e-ISSN
—
Počet stran výsledku
10
Strana od-do
—
Název nakladatele
ÚJČ AV ČR Praha
Místo vydání
Praha, Czechia
Místo konání akce
Praha, Czechia
Datum konání akce
23. 11. 2005
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—