Automatic evaluation of surface coherence in L2 texts in Czech
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F16%3A10335521" target="_blank" >RIV/00216208:11320/16:10335521 - isvavai.cz</a>
Výsledek na webu
<a href="http://aclweb.org/anthology/O/O16/O16-1021.pdf" target="_blank" >http://aclweb.org/anthology/O/O16/O16-1021.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Automatic evaluation of surface coherence in L2 texts in Czech
Popis výsledku v původním jazyce
We introduce possibilities of automatic evaluation of surface text coherence (cohesion) in texts written by learners of Czech during certified exams for non-native speakers. On the basis of a corpus analysis, we focus on finding and describing relevant distinctive features for automatic detection of A1-C1 levels (established by CEFR - the Common European Framework of Reference for Languages) in terms of surface text coherence. The CEFR levels are evaluated by human assessors and we try to reach this assessment automatically by using several discourse features like frequency and diversity of discourse connectives, density of discourse relations etc. We present experiments with various features using two machine learning algorithms. Our results of automatic evaluation of CEFR coherence/cohesion marks (compared to human assessment) achieved 73.2% success rate for the detection of A1-C1 levels and 74.9% for the detection of A2-B2 levels.
Název v anglickém jazyce
Automatic evaluation of surface coherence in L2 texts in Czech
Popis výsledku anglicky
We introduce possibilities of automatic evaluation of surface text coherence (cohesion) in texts written by learners of Czech during certified exams for non-native speakers. On the basis of a corpus analysis, we focus on finding and describing relevant distinctive features for automatic detection of A1-C1 levels (established by CEFR - the Common European Framework of Reference for Languages) in terms of surface text coherence. The CEFR levels are evaluated by human assessors and we try to reach this assessment automatically by using several discourse features like frequency and diversity of discourse connectives, density of discourse relations etc. We present experiments with various features using two machine learning algorithms. Our results of automatic evaluation of CEFR coherence/cohesion marks (compared to human assessment) achieved 73.2% success rate for the detection of A1-C1 levels and 74.9% for the detection of A2-B2 levels.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
AM - Pedagogika a školství
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/DG16P02B016" target="_blank" >DG16P02B016: Automatické vyhodnocování koherence textu v češtině</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2016
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 28th Conference on Computational Linguistics and Speech Processing ROCLING XXVIII (2016)
ISBN
978-957-30792-9-3
ISSN
—
e-ISSN
—
Počet stran výsledku
15
Strana od-do
214-228
Název nakladatele
The Association for Computational Linguistics and Chinese Language Processing (ACLCLP)
Místo vydání
Taipei, Taiwan
Místo konání akce
Tainan, Taiwan
Datum konání akce
6. 10. 2016
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—