Automatic Identification of Learners' Language Background based on their Writing in Czech
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F13%3A10194613" target="_blank" >RIV/00216208:11320/13:10194613 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Automatic Identification of Learners' Language Background based on their Writing in Czech
Popis výsledku v původním jazyce
The goal of this study is to investigate whether learners' written data in highly inflectional Czech can suggest a consistent set of clues for automatic identification of the learners' L1 background. For our experiments, we use texts written by learnersof Czech, which have been automatically and manually annotated for errors. We define two classes of learners: speakers of Indo-European languages and speakers of non-Indo-European languages. We use an SVM classifier to perform the binary classification.We show that non-content based features perform well on highly inflectional data. In particular, features reflecting errors in orthography are the most useful, yielding about 89% precision and the same recall. A detailed discussion of the best performingfeatures is provided.
Název v anglickém jazyce
Automatic Identification of Learners' Language Background based on their Writing in Czech
Popis výsledku anglicky
The goal of this study is to investigate whether learners' written data in highly inflectional Czech can suggest a consistent set of clues for automatic identification of the learners' L1 background. For our experiments, we use texts written by learnersof Czech, which have been automatically and manually annotated for errors. We define two classes of learners: speakers of Indo-European languages and speakers of non-Indo-European languages. We use an SVM classifier to perform the binary classification.We show that non-content based features perform well on highly inflectional data. In particular, features reflecting errors in orthography are the most useful, yielding about 89% precision and the same recall. A detailed discussion of the best performingfeatures is provided.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GPP406%2F10%2FP328" target="_blank" >GPP406/10/P328: Morfologická analýza a tagging s minimálními zdroji</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2013
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 6th International Joint Conference on Natural Language Processing
ISBN
978-4-9907348-0-0
ISSN
—
e-ISSN
—
Počet stran výsledku
9
Strana od-do
1428-1436
Název nakladatele
Asian Federation of Natural Language Processing
Místo vydání
Nagoya, Japan
Místo konání akce
Nagoya, Japan
Datum konání akce
14. 10. 2013
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—