Improvements to Korektor: A case study with native and non-native Czech
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F15%3A10318156" target="_blank" >RIV/00216208:11320/15:10318156 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11210/15:10318156
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Improvements to Korektor: A case study with native and non-native Czech
Popis výsledku v původním jazyce
We present recent developments of Korektor, a statistical spell checking system. In addition to lexicon, Korektor uses language models to find real-word errors, detectable only in context. The models and error probabilities, learned from error corpora, are also used to suggest the most likely corrections. Korektor was originally trained on a small error corpus and used language models extracted from an in-house corpus WebColl. We show two recent improvements: . We built new language models from freely avail- able (shuffled) versions of the Czech National Corpus and show that these perform consistently better on texts produced both by native speakers and non-native learners of Czech. . We trained new error models on a manually annotated learner corpus and show that they perform better than the standard error model (in error detection) not only for the learners' texts, but also for our standard eval- uation data of native Czech. For error correction, the standard error model outperformed
Název v anglickém jazyce
Improvements to Korektor: A case study with native and non-native Czech
Popis výsledku anglicky
We present recent developments of Korektor, a statistical spell checking system. In addition to lexicon, Korektor uses language models to find real-word errors, detectable only in context. The models and error probabilities, learned from error corpora, are also used to suggest the most likely corrections. Korektor was originally trained on a small error corpus and used language models extracted from an in-house corpus WebColl. We show two recent improvements: . We built new language models from freely avail- able (shuffled) versions of the Czech National Corpus and show that these perform consistently better on texts produced both by native speakers and non-native learners of Czech. . We trained new error models on a manually annotated learner corpus and show that they perform better than the standard error model (in error detection) not only for the learners' texts, but also for our standard eval- uation data of native Czech. For error correction, the standard error model outperformed
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 15th conference ITAT 2015: Slovenskočeský NLP workshop (SloNLP 2015)
ISBN
978-1-5151-2065-0
ISSN
1613-0073
e-ISSN
—
Počet stran výsledku
8
Strana od-do
73-80
Název nakladatele
CreateSpace Independent Publishing Platform
Místo vydání
Praha, Czechia
Místo konání akce
Smižany, Slovakia
Datum konání akce
20. 9. 2015
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—