Fine-Grained Language Relatedness for Zero-Shot Silesian-English Translation
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F23%3A00136158" target="_blank" >RIV/00216224:14330/23:00136158 - isvavai.cz</a>
Výsledek na webu
<a href="https://nlp.fi.muni.cz/raslan/raslan23.pdf#page=153" target="_blank" >https://nlp.fi.muni.cz/raslan/raslan23.pdf#page=153</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Fine-Grained Language Relatedness for Zero-Shot Silesian-English Translation
Popis výsledku v původním jazyce
When parallel corpora are not available to train or fine-tune Machine Translation (MT) systems, one solution is to use data from a related language, and operate in a zero-shot setting. We explore the behaviour and performance of two pre-trained Large Language Models (LLMs) for zero-shot Silesian-English translation, by fine-tuning them on increasingly related languages. Our experiment shows that using data from related languages generally improves the zero-shot translation performance for our language pair, but the optimal fine-grained choice inside the Slavic language family is non-trivial and depends on the model characteristics.
Název v anglickém jazyce
Fine-Grained Language Relatedness for Zero-Shot Silesian-English Translation
Popis výsledku anglicky
When parallel corpora are not available to train or fine-tune Machine Translation (MT) systems, one solution is to use data from a related language, and operate in a zero-shot setting. We explore the behaviour and performance of two pre-trained Large Language Models (LLMs) for zero-shot Silesian-English translation, by fine-tuning them on increasingly related languages. Our experiment shows that using data from related languages generally improves the zero-shot translation performance for our language pair, but the optimal fine-grained choice inside the Slavic language family is non-trivial and depends on the model characteristics.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10200 - Computer and information sciences
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2018101" target="_blank" >LM2018101: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
RASLAN 2023 Recent Advances in Slavonic Natural Language Processing
ISBN
9788026317937
ISSN
2336-4289
e-ISSN
—
Počet stran výsledku
12
Strana od-do
145-156
Název nakladatele
Tribun EU
Místo vydání
Brno
Místo konání akce
Kouty nad Desnou
Datum konání akce
1. 1. 2023
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—