Universal Dependencies-Based PoS Tagging Refinement Through Linguistic Resources
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F21%3A10441780" target="_blank" >RIV/00216208:11320/21:10441780 - isvavai.cz</a>
Výsledek na webu
<a href="https://doi.org/10.1007/978-3-030-91699-2_41" target="_blank" >https://doi.org/10.1007/978-3-030-91699-2_41</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-91699-2_41" target="_blank" >10.1007/978-3-030-91699-2_41</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Universal Dependencies-Based PoS Tagging Refinement Through Linguistic Resources
Popis výsledku v původním jazyce
This paper presents a technique that employs linguistic resources to refine PoS tagging using the Universal Dependencies (UD) model. The technique is based on the development and use of lists of non-ambiguous single tokens and non-ambiguous co-occuring tokens in Portuguese (regardless of whether they constitute multiword expressions or not). These lists are meant to automatically correct the tags for such tokens after tagging. The technique is applied over the output of two well-known state of the art systems - UDPipe and UDify - and the results for a real data set have shown a significant improvement of annotation accuracy. Overall, we improve tagging accuracy by up to 1.4%, and, in terms of the number of fully correct tagged sentences, our technique produces results that are 13.9% more accurate than the corresponding original system.
Název v anglickém jazyce
Universal Dependencies-Based PoS Tagging Refinement Through Linguistic Resources
Popis výsledku anglicky
This paper presents a technique that employs linguistic resources to refine PoS tagging using the Universal Dependencies (UD) model. The technique is based on the development and use of lists of non-ambiguous single tokens and non-ambiguous co-occuring tokens in Portuguese (regardless of whether they constitute multiword expressions or not). These lists are meant to automatically correct the tags for such tokens after tagging. The technique is applied over the output of two well-known state of the art systems - UDPipe and UDify - and the results for a real data set have shown a significant improvement of annotation accuracy. Overall, we improve tagging accuracy by up to 1.4%, and, in terms of the number of fully correct tagged sentences, our technique produces results that are 13.9% more accurate than the corresponding original system.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
—
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)
ISBN
978-3-030-91698-5
ISSN
—
e-ISSN
—
Počet stran výsledku
15
Strana od-do
601-615
Název nakladatele
Springer
Místo vydání
Berlin
Místo konání akce
online
Datum konání akce
29. 11. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—