Improving Word Alignment Using Alignment of Deep Structures
Popis výsledku
Identifikátory výsledku
Kód výsledku v IS VaVaI
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Improving Word Alignment Using Alignment of Deep Structures
Popis výsledku v původním jazyce
In this paper, we describe differences between a classical word alignment on the surface (word-layer alignment) and an alignment of deep syntactic sentence representations (tectogrammatical alignment). The deep structures we use are dependency trees containing content (autosemantic) words as their nodes. Most of other functional words, such as prepositions, articles, and auxiliary verbs are hidden. We introduce an algorithm which aligns such trees using perceptron-based scoring function. For evaluationpurposes, a set of parallel sentences was manually aligned. We show that using statistical word alignment (GIZA ) can improve the tectogrammatical alignment. Surprisingly, we also show that the tectogrammatical alignment can be then used to significantlyimprove the original word alignment.
Název v anglickém jazyce
Improving Word Alignment Using Alignment of Deep Structures
Popis výsledku anglicky
In this paper, we describe differences between a classical word alignment on the surface (word-layer alignment) and an alignment of deep syntactic sentence representations (tectogrammatical alignment). The deep structures we use are dependency trees containing content (autosemantic) words as their nodes. Most of other functional words, such as prepositions, articles, and auxiliary verbs are hidden. We introduce an algorithm which aligns such trees using perceptron-based scoring function. For evaluationpurposes, a set of parallel sentences was manually aligned. We show that using statistical word alignment (GIZA ) can improve the tectogrammatical alignment. Surprisingly, we also show that the tectogrammatical alignment can be then used to significantlyimprove the original word alignment.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
1ET101120503: Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2009
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 12th International Conference, TSD 2009
ISBN
—
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
8
Strana od-do
—
Název nakladatele
Springer Verlag
Místo vydání
Berlin / Heidelberg
Místo konání akce
Berlin / Heidelberg
Datum konání akce
1. 1. 2009
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000270445700009
Druh výsledku
D - Stať ve sborníku
CEP
AI - Jazykověda
Rok uplatnění
2009