The Study of Effect of Length in Morphological Segmentation of Agglutinative Languages
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F12%3A10130089" target="_blank" >RIV/00216208:11320/12:10130089 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
The Study of Effect of Length in Morphological Segmentation of Agglutinative Languages
Popis výsledku v původním jazyce
Morph length is one of the indicative feature that helps learning the morphology of languages, in particular agglutinative languages. In this paper, we introduce a simple unsupervised model for morphological segmentation and study how the knowledge of morph length affect the performance of the segmentation task under the Bayesian framework. The model is based on (Goldwater et al., 2006) unigram word segmentation model and assumes a simple prior distribution over morph length. We experiment this model ontwo highly related and agglutinative languages namely Tamil and Telugu, and compare our results with the state of the art Morfessor system. We show that, knowledge of morph length has a positive impact and provides competitive results in terms of overall performance.
Název v anglickém jazyce
The Study of Effect of Length in Morphological Segmentation of Agglutinative Languages
Popis výsledku anglicky
Morph length is one of the indicative feature that helps learning the morphology of languages, in particular agglutinative languages. In this paper, we introduce a simple unsupervised model for morphological segmentation and study how the knowledge of morph length affect the performance of the segmentation task under the Bayesian framework. The model is based on (Goldwater et al., 2006) unigram word segmentation model and assumes a simple prior distribution over morph length. We experiment this model ontwo highly related and agglutinative languages namely Tamil and Telugu, and compare our results with the state of the art Morfessor system. We show that, knowledge of morph length has a positive impact and provides competitive results in terms of overall performance.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
R - Projekt Ramcoveho programu EK
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the First Workshop on Multilingual Modeling (MM-2012)
ISBN
978-1-937284-35-0
ISSN
—
e-ISSN
—
Počet stran výsledku
7
Strana od-do
18-24
Název nakladatele
Association for Computational Linguistics
Místo vydání
Jeju, Korea
Místo konání akce
Jeju Island, Korea
Datum konání akce
13. 7. 2012
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—