CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task Information Retrieval
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F23%3A10476079" target="_blank" >RIV/00216208:11320/23:10476079 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task Information Retrieval
Popis výsledku v původním jazyce
We present the Charles University system for the MRL 2023 Shared Task on Multi-lingual Multi-task Information Retrieval.The goal of the shared task was to develop systems for named entity recognition and question answering in several under-represented languages.Our solutions to both subtasks rely on the translate-test approach.We first translate the unlabeled examples into English using a multilingual machine translation model.Then, we run inference on the translated data using a strong task-specific model.Finally, we project the labeled data back into the original language.To keep the inferred tags on the correct positions in the original language, we propose a method based on scoring the candidate positions using a label-sensitive translation model.In both settings, we experiment with finetuning the classification models on the translated data.However, due to a domain mismatch between the development data and the shared task validation and test sets, the finetuned models could not outperform our baselines.
Název v anglickém jazyce
CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task Information Retrieval
Popis výsledku anglicky
We present the Charles University system for the MRL 2023 Shared Task on Multi-lingual Multi-task Information Retrieval.The goal of the shared task was to develop systems for named entity recognition and question answering in several under-represented languages.Our solutions to both subtasks rely on the translate-test approach.We first translate the unlabeled examples into English using a multilingual machine translation model.Then, we run inference on the translated data using a strong task-specific model.Finally, we project the labeled data back into the original language.To keep the inferred tags on the correct positions in the original language, we propose a method based on scoring the candidate positions using a label-sensitive translation model.In both settings, we experiment with finetuning the classification models on the translated data.However, due to a domain mismatch between the development data and the shared task validation and test sets, the finetuned models could not outperform our baselines.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the The 2nd Workshop on Multi-lingual Representation Learning (MRL)
ISBN
979-8-89176-056-1
ISSN
—
e-ISSN
—
Počet stran výsledku
8
Strana od-do
302-309
Název nakladatele
Association for Computational Linguistics
Místo vydání
Stroudsburg, PA, USA
Místo konání akce
Singapore, Singapore
Datum konání akce
7. 12. 2023
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—