Complex similarity searching in very large data collections
Project goals
With the increasing number of applications that base searching on similarity rather than on exact matching, also the problem of combined similarity query arises. For example, a simple similarity query allows us to search for objects with similar color and another one returns best-matching shapes and we are interested in objects that are similar in both the color and shape categories. The computational complexity of the similarity retrieval and the large volumes of processed data call for the distributedprocessing in order to achieve scalability. The aim of this project is to study problems of distributed systems for complex similarity searching. Currently, there are only distributed indexes for evaluation of simple similarity queries. In this project,we build a multi-overlay peer-to-peer system, which consists of several distributed index structures for the respective sub-features (e.g. color, shape, etc.) and with a novel combination algorithms we will use it to effectively solve
Keywords
similarity searchmetric spacescalabilitymulti-feature querypeer-to-peer network
Public support
Provider
Czech Science Foundation
Programme
Post-graduate (doctorate) grants
Call for proposals
Postdoktorandské granty 8 (SGA02008GA1PD)
Main participants
—
Contest type
VS - Public tender
Contract ID
201/08/P507
Alternative language
Project name in Czech
Komplexní podobnostní dotazy nad rozsáhlými objemy dat
Annotation in Czech
S rostoucím počtem aplikací, které vyhledávají ve svých datech podle podobnostních kriterií namísto přesné shody, se vynořuje také problém kombinovaných podobnostních dotazů. Vezmeme-li jednoduchý dotaz, hledající objekty s podobnou barvou, a druhý, který vrací nejpodobnější tvary, můžeme chtít získat objekty podobné v obou těchto kategoriích. Výpočetní náročnost takového hledání a velké objemy zpracovávaných dat, volají po využití distribuovaného prostředí pro dosažení potřebné míry škálovatelnosti. Cílem tohoto projektu je studium problematiky distribuovaných systémů pro komplexní podobnostní hledání. V současné době jsou dostupné pouze distribuované pro jednoduché podobnostní dotazy. V rámci tohoto projektu vytvoříme vícevrstvý peer-to-peer systém,který se bude skládat z několika distribuovaných indexů pro jednotlivé kategorie (jako jsou barva, tvar, atd.), a s pomocí nově vyvinutých algoritmů umožníme zodpovídat kombinované dotazy.
Scientific branches
Completed project evaluation
Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
In this project, we have succeeded in advancing the research in the area of evaluating complex similarity queries in distributed environment. This research follows the trend of processing complex data such as multimedia, where we typically need to combine searching in different aspects of the indexed data (e.g. visual resemblance, text annotations, geolocation or sound). The similarity of these a
Solution timeline
Realization period - beginning
Jan 1, 2008
Realization period - end
Dec 31, 2010
Project status
U - Finished project
Latest support payment
Apr 16, 2010
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP11-GA0-GP-U/04:3
Data delivery date
Mar 20, 2015
Finance
Total approved costs
501 thou. CZK
Public financial support
501 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
501 CZK thou.
Public support
501 CZK thou.
100%
Provider
Czech Science Foundation
CEP
IN - Informatics
Solution period
01. 01. 2008 - 31. 12. 2010