Using Semi-discrete Decomposition for Topic Identification
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61989100%3A27240%2F08%3A00021058" target="_blank" >RIV/61989100:27240/08:00021058 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Using Semi-discrete Decomposition for Topic Identification
Popis výsledku v původním jazyce
In the area of information retrieval, the dimension of document vectors plays an important role. We may need to find a few words or concepts, which characterize the document based on its contents, to overcome the problem of the "curse of dimensionality",which makes indexing of high-dimensional data problematic. To do so, we earlier proposed a Wordnet and Wordnet+SVD (Singular value decomposition) based model for dimension reduction. While LSI concepts contain identifiable terms in top-level concepts, we show in this paper that semi-discrete decomposition provides mostly smaller list of terms and we need to cope only with ternary weights. With this size of term list, the identification of document's topic becomes much more feasible.
Název v anglickém jazyce
Using Semi-discrete Decomposition for Topic Identification
Popis výsledku anglicky
In the area of information retrieval, the dimension of document vectors plays an important role. We may need to find a few words or concepts, which characterize the document based on its contents, to overcome the problem of the "curse of dimensionality",which makes indexing of high-dimensional data problematic. To do so, we earlier proposed a Wordnet and Wordnet+SVD (Singular value decomposition) based model for dimension reduction. While LSI concepts contain identifiable terms in top-level concepts, we show in this paper that semi-discrete decomposition provides mostly smaller list of terms and we need to cope only with ternary weights. With this size of term list, the identification of document's topic becomes much more feasible.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GA201%2F06%2F0756" target="_blank" >GA201/06/0756: Vývoj nativního úložiště pro XML data</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2008
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
ISDA 2008: EIGHTH INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS DESIGN AND APPLICATIONS, VOL 2, PROCEEDINGS
ISBN
978-0-7695-3382-7
ISSN
—
e-ISSN
—
Počet stran výsledku
6
Strana od-do
—
Název nakladatele
IEEE Computer Society
Místo vydání
Los Alamitos, California
Místo konání akce
KAOHSIUNG, Taiwan
Datum konání akce
26. 11. 2008
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000262692600076