Improving Multi-label Document Classification of Czech News Articles
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F15%3A43926586" target="_blank" >RIV/49777513:23520/15:43926586 - isvavai.cz</a>
Výsledek na webu
<a href="http://link.springer.com/chapter/10.1007/978-3-319-24033-6_35" target="_blank" >http://link.springer.com/chapter/10.1007/978-3-319-24033-6_35</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-24033-6_35" target="_blank" >10.1007/978-3-319-24033-6_35</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Improving Multi-label Document Classification of Czech News Articles
Popis výsledku v původním jazyce
In this paper, we present our improvement of a multi-label document classifier for text filtering in a corpus containing Czech news articles, where relevant topics of an arbitrary document are to be assigned automatically. Different vector space models, different classifiers and different thresholding strategies were investigated and the performance was measured in terms of sample-wise average F1 score. Results of this paper show that we can improve the performance of our baseline naive Bayes classifier by 25% relatively when using linear SVC classifier with sublinear tf-idf vector space model, and another 6.1% relatively when using regressor-based sample-wise thresholding strategy.
Název v anglickém jazyce
Improving Multi-label Document Classification of Czech News Articles
Popis výsledku anglicky
In this paper, we present our improvement of a multi-label document classifier for text filtering in a corpus containing Czech news articles, where relevant topics of an arbitrary document are to be assigned automatically. Different vector space models, different classifiers and different thresholding strategies were investigated and the performance was measured in terms of sample-wise average F1 score. Results of this paper show that we can improve the performance of our baseline naive Bayes classifier by 25% relatively when using linear SVC classifier with sublinear tf-idf vector space model, and another 6.1% relatively when using regressor-based sample-wise thresholding strategy.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GBP103%2F12%2FG084" target="_blank" >GBP103/12/G084: Centrum pro multi-modální interpretaci dat velkého rozsahu</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue, 18th International Conference, TSD 2015, Pilsen,Czech Republic, September 14-17, 2015, Proceedings
ISBN
978-3-319-24032-9
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
9
Strana od-do
307-315
Název nakladatele
Springer
Místo vydání
Berlin
Místo konání akce
Plzeň, Czech Republic
Datum konání akce
14. 9. 2015
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000365947800035