The Benefit of Document Embedding in Unsupervised Document Classification
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F18%3A43952604" target="_blank" >RIV/49777513:23520/18:43952604 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007/978-3-319-99579-3_49" target="_blank" >https://link.springer.com/chapter/10.1007/978-3-319-99579-3_49</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-99579-3_49" target="_blank" >10.1007/978-3-319-99579-3_49</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
The Benefit of Document Embedding in Unsupervised Document Classification
Popis výsledku v původním jazyce
The aim of this article is to show that the document embedding using the doc2vec algorithm can substantially improve the performance of the standard method for unsupervised document classification -- the K-means clustering. We have performed rather extensive set of experiments on one English and two Czech datasets and the results suggest that representing the documents using vectors generated by the doc2vec algorithm brings a consistent improvement across languages and datasets. The English dataset -- 20NewsGroups -- was processed in a way that allows direct comparison with the results of both supervised and unsupervised algorithms published previously. Such comparison is provided in the paper, together with the results of supervised classification achieved by the state-of-the-art SVM classifier.
Název v anglickém jazyce
The Benefit of Document Embedding in Unsupervised Document Classification
Popis výsledku anglicky
The aim of this article is to show that the document embedding using the doc2vec algorithm can substantially improve the performance of the standard method for unsupervised document classification -- the K-means clustering. We have performed rather extensive set of experiments on one English and two Czech datasets and the results suggest that representing the documents using vectors generated by the doc2vec algorithm brings a consistent improvement across languages and datasets. The English dataset -- 20NewsGroups -- was processed in a way that allows direct comparison with the results of both supervised and unsupervised algorithms published previously. Such comparison is provided in the paper, together with the results of supervised classification achieved by the state-of-the-art SVM classifier.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/LO1506" target="_blank" >LO1506: Podpora udržitelnosti centra NTIS - Nové technologie pro informační společnost</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Speech and Computer 20th International Conference, SPECOM 2018 Leipzig, Germany, September 18-22, 2018 Proceedings
ISBN
978-3-319-99578-6
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
9
Strana od-do
470-478
Název nakladatele
Springer
Místo vydání
Cham
Místo konání akce
Leipzig, Germany
Datum konání akce
18. 9. 2018
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—