Novel Unsupervised Features for Czech Multi-label Document Classification
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F14%3A43924209" target="_blank" >RIV/49777513:23520/14:43924209 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-319-13647-9_8" target="_blank" >http://dx.doi.org/10.1007/978-3-319-13647-9_8</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-13647-9_8" target="_blank" >10.1007/978-3-319-13647-9_8</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Novel Unsupervised Features for Czech Multi-label Document Classification
Popis výsledku v původním jazyce
This paper deals with automatic multi-label document classification in the context of a real application for the Czech News Agency. The main goal of this work consists in proposing novel fully unsupervised features based on an unsupervised stemmer, Latent Dirichlet Allocation and semantic spaces (HAL and COALS). The proposed features are integrated into the document classification task. Another interesting contribution is that these two semantic spaces have never been used in the context of document classification before. The proposed approaches are evaluated on a Czech newspaper corpus. We experimentally show that almost all proposed features significantly improve the document classification score. The corpus is freely available for research purposes.
Název v anglickém jazyce
Novel Unsupervised Features for Czech Multi-label Document Classification
Popis výsledku anglicky
This paper deals with automatic multi-label document classification in the context of a real application for the Czech News Agency. The main goal of this work consists in proposing novel fully unsupervised features based on an unsupervised stemmer, Latent Dirichlet Allocation and semantic spaces (HAL and COALS). The proposed features are integrated into the document classification task. Another interesting contribution is that these two semantic spaces have never been used in the context of document classification before. The proposed approaches are evaluated on a Czech newspaper corpus. We experimentally show that almost all proposed features significantly improve the document classification score. The corpus is freely available for research purposes.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/ED1.1.00%2F02.0090" target="_blank" >ED1.1.00/02.0090: NTIS - Nové technologie pro informační společnost</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Human-Inspired Computing and Its Applications
ISBN
978-3-319-13646-2
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
10
Strana od-do
70-79
Název nakladatele
Springer
Místo vydání
Heidelberg
Místo konání akce
Tuxtla Gutiérrez, Mexico
Datum konání akce
16. 11. 2014
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—