Enhancing Turkish Word Segmentation: A Focus on Borrowed Words and Invalid Morpheme

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F24%3A10492850" target="_blank" >RIV/00216208:11320/24:10492850 - isvavai.cz</a>
Výsledek na webu
<a href="https://aclanthology.org/2024.loresmt-1.pdf" target="_blank" >https://aclanthology.org/2024.loresmt-1.pdf</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
Enhancing Turkish Word Segmentation: A Focus on Borrowed Words and Invalid Morpheme
Popis výsledku v původním jazyce
This study addresses a challenge in morphological segmentation: accurately segmenting words in languages with rich morphology. Current probabilistic methods, such as Morfessor, often produce results that lack consistency with human-segmented words. Our study adds some steps to the Morfessor segmentation process to consider invalid morphemes and borrowed words from other languages to improve morphological segmentation significantly. Comparing our idea to the results obtained from Morfessor demonstrates its efficiency, leading to more accurate morphology segmentation. This is particularly evident in the case of Turkish, highlighting the potential for further advancements in morpheme segmentation for morphologically rich languages.
Název v anglickém jazyce
Enhancing Turkish Word Segmentation: A Focus on Borrowed Words and Invalid Morpheme
Popis výsledku anglicky
This study addresses a challenge in morphological segmentation: accurately segmenting words in languages with rich morphology. Current probabilistic methods, such as Morfessor, often produce results that lack consistency with human-segmented words. Our study adds some steps to the Morfessor segmentation process to consider invalid morphemes and borrowed words from other languages to improve morphological segmentation significantly. Comparing our idea to the results obtained from Morfessor demonstrates its efficiency, leading to more accurate morphology segmentation. This is particularly evident in the case of Turkish, highlighting the potential for further advancements in morpheme segmentation for morphologically rich languages.

Klasifikace

Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název statě ve sborníku
Proceedings of the Seventh Workshop on Technologies for Machine Translation of Low-Resource Languages
ISBN
979-8-89176-149-0
ISSN
—
e-ISSN
—
Počet stran výsledku
9
Strana od-do
85-93
Název nakladatele
Association for Computational Linguistic
Místo vydání
Stroudsburg, USA
Místo konání akce
Bangkok, Thailand
Datum konání akce
15. 8. 2024
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—

Podobné výsledky(10)

Building a Morphological Network for Persian on Top of a Morpheme-Segmented Lexicon Morphological Networks for Persian and Turkish: What Can Be Induced from Morpheme Segmentation?Word segmentation granularity in Korean

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Enhancing Turkish Word Segmentation: A Focus on Borrowed Words and Invalid Morpheme

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)