Investigation of Latent Semantic Analysis for Clustering of Czech News Articles
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F14%3A%230002973" target="_blank" >RIV/46747885:24220/14:#0002973 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1109/DEXA.2014.54" target="_blank" >http://dx.doi.org/10.1109/DEXA.2014.54</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/DEXA.2014.54" target="_blank" >10.1109/DEXA.2014.54</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Investigation of Latent Semantic Analysis for Clustering of Czech News Articles
Popis výsledku v původním jazyce
This paper studies the use of Latent Semantic Analysis (LSA) for automatic clustering of Czech news articles. We show that LSA is capable of yielding good results in this task as it allows us to reduce the problem of synonymy. This is a very important factor particularly for Czech, which belongs to a group of highly inflective and morphologicallyrich languages. The experimental evaluation of our clustering scheme and investigation of LSA is performed on query-and category-based test sets. The obtained results demonstrate that the automatic system yields values of the Rand index that are absolutely lower -- by 20% -- than the accuracy of human cluster annotations. We also show which similarity metric should be used for cluster merging and the effect ofdimension reduction on clustering accuracy.
Název v anglickém jazyce
Investigation of Latent Semantic Analysis for Clustering of Czech News Articles
Popis výsledku anglicky
This paper studies the use of Latent Semantic Analysis (LSA) for automatic clustering of Czech news articles. We show that LSA is capable of yielding good results in this task as it allows us to reduce the problem of synonymy. This is a very important factor particularly for Czech, which belongs to a group of highly inflective and morphologicallyrich languages. The experimental evaluation of our clustering scheme and investigation of LSA is performed on query-and category-based test sets. The obtained results demonstrate that the automatic system yields values of the Rand index that are absolutely lower -- by 20% -- than the accuracy of human cluster annotations. We also show which similarity metric should be used for cluster merging and the effect ofdimension reduction on clustering accuracy.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/TA01011204" target="_blank" >TA01011204: Živé archivy</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proc. of International Workshop on Database and Expert Systems Applications (DEXA), 2014 25th
ISBN
978-1-4799-5721-7
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
223-227
Název nakladatele
IEEE
Místo vydání
Německo
Místo konání akce
Mnichov, Německo
Datum konání akce
1. 1. 2014
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—