Evaluating large language models for the tasks of PoS tagging within the Universal Dependency framework
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F25%3ALDFJCHAJ" target="_blank" >RIV/00216208:11320/25:LDFJCHAJ - isvavai.cz</a>
Výsledek na webu
<a href="https://aclanthology.org/2024.propor-1.46" target="_blank" >https://aclanthology.org/2024.propor-1.46</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Evaluating large language models for the tasks of PoS tagging within the Universal Dependency framework
Popis výsledku v původním jazyce
Large language models (LLMs) have emerged as a valuable tool for a variety of natural lan- guage processing tasks. This study focuses on assessing the capabilities of three language models in the context of part-of-speech tagging using the Universal Dependency (UPoS) tagset in texts written in Brazilian Portuguese. Our experiments reveal that LLMs can effectively leverage prior knowledge from existing tagged datasets and can also extract linguistic structure with arbitrary labels. Furthermore, we present results indicating an accuracy of 90% in UPoS tagging for a multilingual model, while smaller monolingual models achieve an accuracy of 48%.
Název v anglickém jazyce
Evaluating large language models for the tasks of PoS tagging within the Universal Dependency framework
Popis výsledku anglicky
Large language models (LLMs) have emerged as a valuable tool for a variety of natural lan- guage processing tasks. This study focuses on assessing the capabilities of three language models in the context of part-of-speech tagging using the Universal Dependency (UPoS) tagset in texts written in Brazilian Portuguese. Our experiments reveal that LLMs can effectively leverage prior knowledge from existing tagged datasets and can also extract linguistic structure with arbitrary labels. Furthermore, we present results indicating an accuracy of 90% in UPoS tagging for a multilingual model, while smaller monolingual models achieve an accuracy of 48%.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
—
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1
ISBN
979-8-89176-062-2
ISSN
—
e-ISSN
—
Počet stran výsledku
7
Strana od-do
454-460
Název nakladatele
Association for Computational Lingustics
Místo vydání
—
Místo konání akce
Santiago de Compostela, Galicia/Spain
Datum konání akce
1. 1. 2025
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—