Exploiting Linguistic Data in Machine Translation
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F09%3A00207410" target="_blank" >RIV/00216208:11320/09:00207410 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Exploiting Linguistic Data in Machine Translation
Popis výsledku v původním jazyce
First, we examine methods for automatic extraction of verb valency dictionaries based on corpus data. We propose an automatic metric for estimating how much lexicographers' labour was saved and evaluate various frame extraction techniques using this metric. Second, we design and implement an MT system with transfer at various layers of language description, as defined in the framework of FGD. We primarily focus on the tectogrammatical (deep syntactic) layer. Third, we leave the framework of FGD and experiment with a rather direct, phrase-based MT system. Comparing various setups of the system and specifically treating target-side morphological coherence, we are able to significantly improve MT quality and out-perform a commercial MT system within a pre-defined text domain. The concluding chapter provides a broader perspective on the utility of lexicons in various applications, highlighting the successful features.
Název v anglickém jazyce
Exploiting Linguistic Data in Machine Translation
Popis výsledku anglicky
First, we examine methods for automatic extraction of verb valency dictionaries based on corpus data. We propose an automatic metric for estimating how much lexicographers' labour was saved and evaluate various frame extraction techniques using this metric. Second, we design and implement an MT system with transfer at various layers of language description, as defined in the framework of FGD. We primarily focus on the tectogrammatical (deep syntactic) layer. Third, we leave the framework of FGD and experiment with a rather direct, phrase-based MT system. Comparing various setups of the system and specifically treating target-side morphological coherence, we are able to significantly improve MT quality and out-perform a commercial MT system within a pre-defined text domain. The concluding chapter provides a broader perspective on the utility of lexicons in various applications, highlighting the successful features.
Klasifikace
Druh
B - Odborná kniha
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2009
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
ISBN
978-80-904175-8-8
Počet stran knihy
119
Název nakladatele
Institute of Formal and Applied Linguistics, Charles University
Místo vydání
—
Kód UT WoS knihy
—