You Can Have Your Data and Balance It Too: Towards Balanced and Efficient Multilingual Models
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F23%3A10476179" target="_blank" >RIV/00216208:11320/23:10476179 - isvavai.cz</a>
Výsledek na webu
<a href="https://aclanthology.org/2023.sigtyp-1.1.pdf" target="_blank" >https://aclanthology.org/2023.sigtyp-1.1.pdf</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.18653/v1/2023.sigtyp-1.1" target="_blank" >10.18653/v1/2023.sigtyp-1.1</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
You Can Have Your Data and Balance It Too: Towards Balanced and Efficient Multilingual Models
Popis výsledku v původním jazyce
Multilingual models have been widely used for the cross-lingual transfer to low-resource languages. However, the performance on these languages is hindered by their under-representation in the pretraining data. To alleviate this problem, we propose a novel multilingual training technique based on teacher-student knowledge distillation. In this setting, we utilize monolingual teacher models optimized for their language. We use those teachers along with balanced (sub-sampled) data to distill the teachers' knowledge into a single multilingual student. Our method outperforms standard training methods in low-resource languages and retains performance on high-resource languages while using the same amount of data. If applied widely, our approach can increase the representation of low-resource languages in NLP systems.
Název v anglickém jazyce
You Can Have Your Data and Balance It Too: Towards Balanced and Efficient Multilingual Models
Popis výsledku anglicky
Multilingual models have been widely used for the cross-lingual transfer to low-resource languages. However, the performance on these languages is hindered by their under-representation in the pretraining data. To alleviate this problem, we propose a novel multilingual training technique based on teacher-student knowledge distillation. In this setting, we utilize monolingual teacher models optimized for their language. We use those teachers along with balanced (sub-sampled) data to distill the teachers' knowledge into a single multilingual student. Our method outperforms standard training methods in low-resource languages and retains performance on high-resource languages while using the same amount of data. If applied widely, our approach can increase the representation of low-resource languages in NLP systems.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 5th Workshop on Research in Computational Linguistic Typology and Multilingual NLP
ISBN
978-1-959429-56-2
ISSN
—
e-ISSN
—
Počet stran výsledku
11
Strana od-do
1-11
Název nakladatele
Association for Computational Linguistics
Místo vydání
Stroudsburg, PA, USA
Místo konání akce
Dubrovnik, Croatia
Datum konání akce
2. 5. 2023
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—