Improving Word Alignment Using Alignment of Deep Structures
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F09%3A00206909" target="_blank" >RIV/00216208:11320/09:00206909 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Improving Word Alignment Using Alignment of Deep Structures
Popis výsledku v původním jazyce
In this paper, we describe differences between a classical word alignment on the surface (word-layer alignment) and an alignment of deep syntactic sentence representations (tectogrammatical alignment). The deep structures we use are dependency trees containing content (autosemantic) words as their nodes. Most of other functional words, such as prepositions, articles, and auxiliary verbs are hidden. We introduce an algorithm which aligns such trees using perceptron-based scoring function. For evaluationpurposes, a set of parallel sentences was manually aligned. We show that using statistical word alignment (GIZA ) can improve the tectogrammatical alignment. Surprisingly, we also show that the tectogrammatical alignment can be then used to significantlyimprove the original word alignment.
Název v anglickém jazyce
Improving Word Alignment Using Alignment of Deep Structures
Popis výsledku anglicky
In this paper, we describe differences between a classical word alignment on the surface (word-layer alignment) and an alignment of deep syntactic sentence representations (tectogrammatical alignment). The deep structures we use are dependency trees containing content (autosemantic) words as their nodes. Most of other functional words, such as prepositions, articles, and auxiliary verbs are hidden. We introduce an algorithm which aligns such trees using perceptron-based scoring function. For evaluationpurposes, a set of parallel sentences was manually aligned. We show that using statistical word alignment (GIZA ) can improve the tectogrammatical alignment. Surprisingly, we also show that the tectogrammatical alignment can be then used to significantlyimprove the original word alignment.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/1ET101120503" target="_blank" >1ET101120503: Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2009
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 12th International Conference, TSD 2009
ISBN
—
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
8
Strana od-do
—
Název nakladatele
Springer Verlag
Místo vydání
Berlin / Heidelberg
Místo konání akce
Berlin / Heidelberg
Datum konání akce
1. 1. 2009
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000270445700009