Enhancing Turkish Word Segmentation: A Focus on Borrowed Words and Invalid Morpheme
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F24%3A10492850" target="_blank" >RIV/00216208:11320/24:10492850 - isvavai.cz</a>
Výsledek na webu
<a href="https://aclanthology.org/2024.loresmt-1.pdf" target="_blank" >https://aclanthology.org/2024.loresmt-1.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Enhancing Turkish Word Segmentation: A Focus on Borrowed Words and Invalid Morpheme
Popis výsledku v původním jazyce
This study addresses a challenge in morphological segmentation: accurately segmenting words in languages with rich morphology. Current probabilistic methods, such as Morfessor, often produce results that lack consistency with human-segmented words. Our study adds some steps to the Morfessor segmentation process to consider invalid morphemes and borrowed words from other languages to improve morphological segmentation significantly. Comparing our idea to the results obtained from Morfessor demonstrates its efficiency, leading to more accurate morphology segmentation. This is particularly evident in the case of Turkish, highlighting the potential for further advancements in morpheme segmentation for morphologically rich languages.
Název v anglickém jazyce
Enhancing Turkish Word Segmentation: A Focus on Borrowed Words and Invalid Morpheme
Popis výsledku anglicky
This study addresses a challenge in morphological segmentation: accurately segmenting words in languages with rich morphology. Current probabilistic methods, such as Morfessor, often produce results that lack consistency with human-segmented words. Our study adds some steps to the Morfessor segmentation process to consider invalid morphemes and borrowed words from other languages to improve morphological segmentation significantly. Comparing our idea to the results obtained from Morfessor demonstrates its efficiency, leading to more accurate morphology segmentation. This is particularly evident in the case of Turkish, highlighting the potential for further advancements in morpheme segmentation for morphologically rich languages.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the Seventh Workshop on Technologies for Machine Translation of Low-Resource Languages
ISBN
979-8-89176-149-0
ISSN
—
e-ISSN
—
Počet stran výsledku
9
Strana od-do
85-93
Název nakladatele
Association for Computational Linguistic
Místo vydání
Stroudsburg, USA
Místo konání akce
Bangkok, Thailand
Datum konání akce
15. 8. 2024
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—