Clustered Pivot Tables for I/O-optimized Similarity Search
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F11%3A10099618" target="_blank" >RIV/00216208:11320/11:10099618 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1145/1995412.1995418" target="_blank" >http://dx.doi.org/10.1145/1995412.1995418</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1145/1995412.1995418" target="_blank" >10.1145/1995412.1995418</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Clustered Pivot Tables for I/O-optimized Similarity Search
Popis výsledku v původním jazyce
The pivot tables are a popular metric access method, primarily designed as a main-memory index structure. It has been many times proven that pivot tables are very efficient in terms of distance computations, hence, when assuming a computationally expensive distance function. However, for cheaper distance functions and/or huge datasets exceeding the capacity of the main memory, the classic pivot tables become inefficient. In this paper, we propose a persistent variant of pivot tables, the clustered pivottables, focusing on minimizing I/O cost when accessing small data blocks (a few kilobytes). The clustered pivot tables employs a preprocessing method utilizing the M-tree in the role of clustering technique and an original heuristic for I/O-optimized kNN query processing. In the experiments we empirically show that our proposed method significantly reduces the number of necessary I/O operations during query processing.
Název v anglickém jazyce
Clustered Pivot Tables for I/O-optimized Similarity Search
Popis výsledku anglicky
The pivot tables are a popular metric access method, primarily designed as a main-memory index structure. It has been many times proven that pivot tables are very efficient in terms of distance computations, hence, when assuming a computationally expensive distance function. However, for cheaper distance functions and/or huge datasets exceeding the capacity of the main memory, the classic pivot tables become inefficient. In this paper, we propose a persistent variant of pivot tables, the clustered pivottables, focusing on minimizing I/O cost when accessing small data blocks (a few kilobytes). The clustered pivot tables employs a preprocessing method utilizing the M-tree in the role of clustering technique and an original heuristic for I/O-optimized kNN query processing. In the experiments we empirically show that our proposed method significantly reduces the number of necessary I/O operations during query processing.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GAP202%2F11%2F0968" target="_blank" >GAP202/11/0968: Podobnostní nemetrické vyhledávání v rozsáhlých komplexních databázích</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Fourth International Conference on Similarity Search and Applications 2011
ISBN
978-1-4503-0795-6
ISSN
—
e-ISSN
—
Počet stran výsledku
8
Strana od-do
17-24
Název nakladatele
ACM
Místo vydání
New York, USA
Místo konání akce
Lipari, Italy
Datum konání akce
30. 6. 2011
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—