Normalization of Vietnamese Tweets on Twitter
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61989100%3A27240%2F15%3A86096573" target="_blank" >RIV/61989100:27240/15:86096573 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-319-21206-7_16" target="_blank" >http://dx.doi.org/10.1007/978-3-319-21206-7_16</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-21206-7_16" target="_blank" >10.1007/978-3-319-21206-7_16</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Normalization of Vietnamese Tweets on Twitter
Popis výsledku v původním jazyce
We study a task of noisy text normalization focusing on Vietnamese tweets. This task aims to improve the performance of applications mining or analyzing semantics of social media contents as well as other social network analysis applications. Since tweets on Twitter are noisy, irregular, short and consist of acronym, spelling errors, processing those tweets is more challenging than that of news or formal texts. In this paper, we proposed a method that aims to normalize Vietnamese tweets by detecting non-standard words as well as spelling errors and correcting them. The method combines a language model with dictionaries and Vietnamese vocabulary structures. We build a dataset including 1,360 Vietnamese tweets to evaluate the proposed method. Experimentresults show that our method achieved encouraging performance with 89% F1-Score. (C) Springer International Publishing Switzerland 2015.
Název v anglickém jazyce
Normalization of Vietnamese Tweets on Twitter
Popis výsledku anglicky
We study a task of noisy text normalization focusing on Vietnamese tweets. This task aims to improve the performance of applications mining or analyzing semantics of social media contents as well as other social network analysis applications. Since tweets on Twitter are noisy, irregular, short and consist of acronym, spelling errors, processing those tweets is more challenging than that of news or formal texts. In this paper, we proposed a method that aims to normalize Vietnamese tweets by detecting non-standard words as well as spelling errors and correcting them. The method combines a language model with dictionaries and Vietnamese vocabulary structures. We build a dataset including 1,360 Vietnamese tweets to evaluate the proposed method. Experimentresults show that our method achieved encouraging performance with 89% F1-Score. (C) Springer International Publishing Switzerland 2015.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Advances in intelligent systems and computing. Volume 370
ISBN
978-3-319-21205-0
ISSN
2194-5357
e-ISSN
—
Počet stran výsledku
11
Strana od-do
1789-189
Název nakladatele
Springer
Místo vydání
Basel
Místo konání akce
Ostrava
Datum konání akce
29. 6. 2015
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—