Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Investigation of Latent Semantic Analysis for Clustering of Czech News Articles

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F14%3A%230002973" target="_blank" >RIV/46747885:24220/14:#0002973 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://dx.doi.org/10.1109/DEXA.2014.54" target="_blank" >http://dx.doi.org/10.1109/DEXA.2014.54</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1109/DEXA.2014.54" target="_blank" >10.1109/DEXA.2014.54</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Investigation of Latent Semantic Analysis for Clustering of Czech News Articles

  • Popis výsledku v původním jazyce

    This paper studies the use of Latent Semantic Analysis (LSA) for automatic clustering of Czech news articles. We show that LSA is capable of yielding good results in this task as it allows us to reduce the problem of synonymy. This is a very important factor particularly for Czech, which belongs to a group of highly inflective and morphologicallyrich languages. The experimental evaluation of our clustering scheme and investigation of LSA is performed on query-and category-based test sets. The obtained results demonstrate that the automatic system yields values of the Rand index that are absolutely lower -- by 20% -- than the accuracy of human cluster annotations. We also show which similarity metric should be used for cluster merging and the effect ofdimension reduction on clustering accuracy.

  • Název v anglickém jazyce

    Investigation of Latent Semantic Analysis for Clustering of Czech News Articles

  • Popis výsledku anglicky

    This paper studies the use of Latent Semantic Analysis (LSA) for automatic clustering of Czech news articles. We show that LSA is capable of yielding good results in this task as it allows us to reduce the problem of synonymy. This is a very important factor particularly for Czech, which belongs to a group of highly inflective and morphologicallyrich languages. The experimental evaluation of our clustering scheme and investigation of LSA is performed on query-and category-based test sets. The obtained results demonstrate that the automatic system yields values of the Rand index that are absolutely lower -- by 20% -- than the accuracy of human cluster annotations. We also show which similarity metric should be used for cluster merging and the effect ofdimension reduction on clustering accuracy.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JC - Počítačový hardware a software

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TA01011204" target="_blank" >TA01011204: Živé archivy</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2014

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proc. of International Workshop on Database and Expert Systems Applications (DEXA), 2014 25th

  • ISBN

    978-1-4799-5721-7

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    5

  • Strana od-do

    223-227

  • Název nakladatele

    IEEE

  • Místo vydání

    Německo

  • Místo konání akce

    Mnichov, Německo

  • Datum konání akce

    1. 1. 2014

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku