Text classification based on topic modeling and chi-square
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61989100%3A27240%2F20%3A10246965" target="_blank" >RIV/61989100:27240/20:10246965 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007%2F978-981-15-3308-2_56" target="_blank" >https://link.springer.com/chapter/10.1007%2F978-981-15-3308-2_56</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-981-15-3308-2_56" target="_blank" >10.1007/978-981-15-3308-2_56</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Text classification based on topic modeling and chi-square
Popis výsledku v původním jazyce
This paper compares two topic modeling algorithms - Latent Dirichlet Allocation (LDA), Latent Semantic Index (LSI), and a feature selection algorithm chi-square to extract news feature words. After feature extraction, the three classifiers (Logistics Regression, Naive Bayes and SVM) are compared in news classification. Based on the test results, combined LSI and Logistics Regression gives the highest result compared to the other algorithms, with precision of 96% and recall of 95%.
Název v anglickém jazyce
Text classification based on topic modeling and chi-square
Popis výsledku anglicky
This paper compares two topic modeling algorithms - Latent Dirichlet Allocation (LDA), Latent Semantic Index (LSI), and a feature selection algorithm chi-square to extract news feature words. After feature extraction, the three classifiers (Logistics Regression, Naive Bayes and SVM) are compared in news classification. Based on the test results, combined LSI and Logistics Regression gives the highest result compared to the other algorithms, with precision of 96% and recall of 95%.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Advances in Intelligent Systems and Computing. Volume 1107
ISBN
978-981-15-3307-5
ISSN
2194-5357
e-ISSN
2194-5365
Počet stran výsledku
8
Strana od-do
513-520
Název nakladatele
Springer
Místo vydání
Singapur
Místo konání akce
Čching-tao
Datum konání akce
1. 11. 2019
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—