Universal Dependencies for the Slovakian language: upgrading the guidelines, learning data and analysis model
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F22%3AGP3EESKK" target="_blank" >RIV/00216208:11320/22:GP3EESKK - isvavai.cz</a>
Výsledek na webu
<a href="https://nl.ijs.si/jtdh22/pdf/JTDH2022_Dobrovoljc-et-al_Universal-Dependencies-za-slovenscino.pdf" target="_blank" >https://nl.ijs.si/jtdh22/pdf/JTDH2022_Dobrovoljc-et-al_Universal-Dependencies-za-slovenscino.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
—
Název v původním jazyce
Universal Dependencies za slovensˇcˇino: nadgradnja smernic, ucˇnih podatkov in razcˇlenjevalnega modela
Popis výsledku v původním jazyce
Universal Dependencies (UD) je mednarodno usklajena oznaˇcevalna shema za medjezikovno primerljivo oblikoslovno in skladenjsko oznaˇcevanje besedil po naˇcelih odvisnostne slovnice, ki je bila ob veˇc kot 130 drugih svetovnih jezikih uspeˇsno uporabljena tudi za oznaˇcevanje besedil v slovenˇsˇcini. V prispevku predstavimo rezultate nedavnih aktivnosti v povezavi s shemo UD znotraj projekta Razvoj slovenˇsˇcine v digitalnem okolju, v okviru katerega smo obstojeˇco infrastrukturo nadgradili s prenovo in podrobno dokumentacijo oznaˇcevalnih smernic UD za slovenˇsˇcino, razˇsiritvijo drevesnice SSJ-UD za pisno slovenˇsˇcino z novimi povedmi iz korpusov ssj500k in ELEXIS-WSD ter izdelavo novega strojnega modela skladenjskega razˇclenjevanja v oznaˇcevalnem orodju CLASSLA-Stanza. V podporo nadaljnjim aplikacijam na razliˇcnih podroˇcjih strojnega procesiranja slovenˇsˇcine novi model podrobneje ovrednotimo, in sicer poleg sploˇsne evalvacije natanˇcnosti razˇclenjevanja poroˇcamo tudi o natanˇcnosti na ravni posamiˇcnih skladenjskih relacij in o najpogostejˇsih tipih napak.
Název v anglickém jazyce
Universal Dependencies for the Slovakian language: upgrading the guidelines, learning data and analysis model
Popis výsledku anglicky
Universal Dependencies (UD) is an internationally harmonized marking scheme for cross-linguistically comparable morphological and syntactic marking of texts according to the principles of dependency grammar, which has been successfully used for more than 130 other world languages Marking of texts in Slovenian. In this paper, we present the results of recent activities in connection with the UD scheme within the project The development of the Slovenian language in the digital environment, within the framework of which we upgraded the existing infrastructure with renovation and detailed documentation marking guidelines of the UD for Slovene, expansion of the SSJ-UD nursery for written Slovene with new sentences from the ssj500k corpora and ELEXIS-WSD and creation of a new machine model of syntactic parsing in the markup tool CLASSLA-Stanza. In support for further applications in various fields of machine processing of Slovenian language, we will evaluate the new model in more detail, namely, in addition to general evaluation of parsing accuracy, we also report on accuracy at the level of individual syntactic relations and on the most frequent types of errors.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
—
Ostatní
Rok uplatnění
2022
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Conference on Language Technologies & Digital Humanities
ISBN
978-961-7104-20-2
ISSN
—
e-ISSN
—
Počet stran výsledku
10
Strana od-do
30-39
Název nakladatele
Inštitut za novejšo zgodovino
Místo vydání
—
Místo konání akce
Ljubljana, Slovenia
Datum konání akce
1. 1. 2022
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—