Learned Indexing for Similarity Searching
Project goals
When faced with the task of storing and retrieving complex, unstructured or high-dimensional data (e.g., multimedia data), metric spaces are often employed as an underlying mathematical concept for their organization. Consequently, the only measure that can be used to arrange the data is a pairwise similarity between data objects. Similarity searching refers to a range of methods used to manage data enabling efficient search in such spaces. The main paradigm of similarity searching has remained mostly unchanged for decades -- data objects are organized into a hierarchical structure according to their mutual distances, using representative pivots to reduce the number of distance computations needed to efficiently search the data. We plan to investigate an alternative to this paradigm, using machine learning models to replace pivots, thus, posing similarity search as a classification problem. We will use both supervised and unsupervised approaches to implement our solutions. We will also address the questions of scalability and dynamicity, and verify the applications for metric data.
Keywords
similarity searchingindex structuresunstructured datalearned indexesmachine learning
Public support
Provider
Czech Science Foundation
Programme
—
Call for proposals
—
Main participants
Masarykova univerzita / Fakulta informatiky
Contest type
M2 - International cooperation
Contract ID
23-07040K
Alternative language
Project name in Czech
Naučené indexy pro podobností hledání
Annotation in Czech
Vyhledávání v datech, která jsou nestrukturovaná, komplexní nebo vysoce dimenzionální (např. multimediální data), je často řešeno pomocí metrických prostorů, jakožto základního matematického aparátu pro zpracování dat. Jediným měřítkem, které zde lze k uspořádání dat použít, je podobnost mezi dvojicí datových objektů. Hlavní paradigma podobnostního vyhledávání zůstalo po celá desetiletí většinou původní: datové objekty jsou organizovány do hierarchické struktury s ohledem na jejich vzájemné vzdálenosti a efektivita vyhledávání je zajištěna odfiltrováním nerelevantních dat pomocí předvybraných reprezentantů (pivotů), tj. minimalizací počtu výpočtů vzdálenosti. V tomto projektu budeme zkoumat alternativní přístup k podobnostnímu vyhledávání: použití modelů strojového učení jako náhrady pivotů, tj. realizace podobnostního vyhledávání jako klasifikační problém. Zabývat se budeme jak technikami učení s učitelem, tak i bez učitele. Rovněž budeme řešit otázky škálovatelnosti a dynamičnosti přístupů a ověřovat je na vhodných aplikacích.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
AF - Documentation, librarianship, work with information
BC - Theory and management systems
BD - Information theory
IN - Informatics
Solution timeline
Realization period - beginning
Jul 1, 2023
Realization period - end
Dec 31, 2026
Project status
B - Running multi-year project
Latest support payment
Feb 29, 2024
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP25-GA0-GF-R
Data delivery date
Feb 21, 2025
Finance
Total approved costs
7,636 thou. CZK
Public financial support
6,900 thou. CZK
Other public sources
734 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
7 636 CZK thou.
Public support
6 900 CZK thou.
90%
Provider
Czech Science Foundation
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Solution period
01. 07. 2023 - 31. 12. 2026