Modeling Synonymy
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F17%3A00094426" target="_blank" >RIV/00216224:14330/17:00094426 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Modeling Synonymy
Popis výsledku v původním jazyce
Standard text retrieval methods underestimate the semantic similarity between documents that use synonymous terms. Latent semantic indexing (lsa) tackles the problem by clustering frequently co-occuring terms at the cost of the periodical reindexing of dynamic document collections and the suboptimality of cooccurences as a measure of synonymy. In this paper, I develop a term similarity model that suffers neither of these flaws. I analyze the associated computational complexity, show how the model can be implemented into existing ir systems, and evaluate its performance on the semantic text similarity task.
Název v anglickém jazyce
Modeling Synonymy
Popis výsledku anglicky
Standard text retrieval methods underestimate the semantic similarity between documents that use synonymous terms. Latent semantic indexing (lsa) tackles the problem by clustering frequently co-occuring terms at the cost of the periodical reindexing of dynamic document collections and the suboptimality of cooccurences as a measure of synonymy. In this paper, I develop a term similarity model that suffers neither of these flaws. I analyze the associated computational complexity, show how the model can be implemented into existing ir systems, and evaluate its performance on the semantic text similarity task.
Klasifikace
Druh
V<sub>souhrn</sub> - Souhrnná výzkumná zpráva
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/TD03000295" target="_blank" >TD03000295: Inteligentní software pro sémantické hledání dokumentů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Počet stran výsledku
28
Místo vydání
Brno
Název nakladatele resp. objednatele
Technologická agentura České republiky
Verze
—