CUNI Transformer Neural MT System for WMT18
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F18%3A10390199" target="_blank" >RIV/00216208:11320/18:10390199 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.statmt.org/wmt18/pdf/WMT051.pdf" target="_blank" >http://www.statmt.org/wmt18/pdf/WMT051.pdf</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.18653/v1/W18-64051" target="_blank" >10.18653/v1/W18-64051</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
CUNI Transformer Neural MT System for WMT18
Popis výsledku v původním jazyce
We describe our NMT system submitted to the WMT2018 shared task in news translation. Our system is based on the Transformer model (Vaswani et al., 2017). We use an improved technique of backtranslation, where we iterate the process of translating monolingual data in one direction and training an NMT model for the opposite direction using synthetic parallel data. We apply a simple but effective filtering of the synthetic data. We pre-process the input sentences using coreference resolution in order to disambiguate the gender of pro-dropped personal pronouns. Finally, we apply two simple post-processing substitutions on the translated output. Our system is significantly (p < 0.05) better than all other English-Czech and Czech-English systems in WMT2018.
Název v anglickém jazyce
CUNI Transformer Neural MT System for WMT18
Popis výsledku anglicky
We describe our NMT system submitted to the WMT2018 shared task in news translation. Our system is based on the Transformer model (Vaswani et al., 2017). We use an improved technique of backtranslation, where we iterate the process of translating monolingual data in one direction and training an NMT model for the opposite direction using synthetic parallel data. We apply a simple but effective filtering of the synthetic data. We pre-process the input sentences using coreference resolution in order to disambiguate the gender of pro-dropped personal pronouns. Finally, we apply two simple post-processing substitutions on the translated output. Our system is significantly (p < 0.05) better than all other English-Czech and Czech-English systems in WMT2018.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/DG16P02B048" target="_blank" >DG16P02B048: Systém pro trvalé uchování dokumentace a prezentaci historických pramenů z období totalitních režimů</a><br>
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the Third Conference on Machine Translation, Volume 2: Shared Tasks
ISBN
978-1-948087-81-0
ISSN
—
e-ISSN
neuvedeno
Počet stran výsledku
6
Strana od-do
486-491
Název nakladatele
Association for Computational Linguistics
Místo vydání
Stroudsburg, PA, USA
Místo konání akce
Bruxelles, Belgium
Datum konání akce
31. 10. 2018
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—