Partial Accuracy Rates and Agreements of Parsers: Two Experiments With Ensemble Parsing of Czech
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F16%3A10330274" target="_blank" >RIV/00216208:11210/16:10330274 - isvavai.cz</a>
Výsledek na webu
<a href="http://ceur-ws.org/Vol-1649/42.pdf" target="_blank" >http://ceur-ws.org/Vol-1649/42.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Partial Accuracy Rates and Agreements of Parsers: Two Experiments With Ensemble Parsing of Czech
Popis výsledku v původním jazyce
The paper presents two experiments with ensemble parsing, in which we obtain a 1.4% improvement of UAS compared to the best parser. We use five parsers: MateParser, TurboParser, Parsito, MaltParser a MSTParser, and the data of the analytical layer of Prague Dependency Treebank (1.5 million tokens). We split training data into 10 data-splits and run a 10-fold cross-validation scheme with each of the five parsers. In this way, we obtain large parsed data to experiment with. In one experiment, we calculate partial accuracy rates of each parser according to a list of parameters, which we then use as weights in a combination of parsers using an algorithm for finding the maximum spanning tree. In the other experiment, we calculate success rates for agreements of parsers (e.g. Mate+MST vs. Turbo+Malt), and use these rates in another combination of parsers. Both experiments achieve an UAS above 90.0% (1.4% higher than TurboParser), the experiment with accuracy rates achieves better LAS.
Název v anglickém jazyce
Partial Accuracy Rates and Agreements of Parsers: Two Experiments With Ensemble Parsing of Czech
Popis výsledku anglicky
The paper presents two experiments with ensemble parsing, in which we obtain a 1.4% improvement of UAS compared to the best parser. We use five parsers: MateParser, TurboParser, Parsito, MaltParser a MSTParser, and the data of the analytical layer of Prague Dependency Treebank (1.5 million tokens). We split training data into 10 data-splits and run a 10-fold cross-validation scheme with each of the five parsers. In this way, we obtain large parsed data to experiment with. In one experiment, we calculate partial accuracy rates of each parser according to a list of parameters, which we then use as weights in a combination of parsers using an algorithm for finding the maximum spanning tree. In the other experiment, we calculate success rates for agreements of parsers (e.g. Mate+MST vs. Turbo+Malt), and use these rates in another combination of parsers. Both experiments achieve an UAS above 90.0% (1.4% higher than TurboParser), the experiment with accuracy rates achieves better LAS.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/GA13-27184S" target="_blank" >GA13-27184S: Treebank češtiny na základě gramatiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2016
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 16th ITAT: Slovenskočeský NLP workshop (SloNLP 2016)
ISBN
978-1-5370-1674-0
ISSN
1613-0073
e-ISSN
—
Počet stran výsledku
6
Strana od-do
42-47
Název nakladatele
CreateSpace Independent Publishing Platform
Místo vydání
Bratislava
Místo konání akce
Tatranské Matliare, Slovensko
Datum konání akce
17. 9. 2016
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—