CRANBERRY: Memory-Effective Search in 100M High-Dimensional CLIP Vectors
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F23%3A00131529" target="_blank" >RIV/00216224:14330/23:00131529 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007/978-3-031-46994-7_26" target="_blank" >https://link.springer.com/chapter/10.1007/978-3-031-46994-7_26</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-031-46994-7_26" target="_blank" >10.1007/978-3-031-46994-7_26</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
CRANBERRY: Memory-Effective Search in 100M High-Dimensional CLIP Vectors
Popis výsledku v původním jazyce
Recent advances in cross-modal multimedia data analysis necessarily require efficient similarity search on the scales of hundreds of millions of high-dimensional vectors. We address this task by proposing the CRANBERRY algorithm that specifically combines and tunes several existing similarity search strategies. In particular, the algorithm: (1) employs the Voronoi partitioning to obtain a query-relevant candidate set in constant time, (2) applies filtering techniques to prune the obtained candidates significantly, and (3) re-rank the retained candidate vectors with respect to the query vector. Applied to the dataset of 100 million 768-dimensional vectors, the algorithm evaluates 10NN queries with 90% recall and query latency of 1.2s on average, all with a throughput of 15 queries per second on a server with 56 core-CPU, and 4.7q/sec. on a PC.
Název v anglickém jazyce
CRANBERRY: Memory-Effective Search in 100M High-Dimensional CLIP Vectors
Popis výsledku anglicky
Recent advances in cross-modal multimedia data analysis necessarily require efficient similarity search on the scales of hundreds of millions of high-dimensional vectors. We address this task by proposing the CRANBERRY algorithm that specifically combines and tunes several existing similarity search strategies. In particular, the algorithm: (1) employs the Voronoi partitioning to obtain a query-relevant candidate set in constant time, (2) applies filtering techniques to prune the obtained candidates significantly, and (3) re-rank the retained candidate vectors with respect to the query vector. Applied to the dataset of 100 million 768-dimensional vectors, the algorithm evaluates 10NN queries with 90% recall and query latency of 1.2s on average, all with a throughput of 15 queries per second on a server with 56 core-CPU, and 4.7q/sec. on a PC.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10200 - Computer and information sciences
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
16th International Conference on Similarity Search and Applications (SISAP)
ISBN
9783031469930
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
9
Strana od-do
300-308
Název nakladatele
Springer
Místo vydání
Cham
Místo konání akce
A Coruña, Spain
Datum konání akce
1. 1. 2023
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—