All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Learned Indexing for Similarity Searching

Project goals

When faced with the task of storing and retrieving complex, unstructured or high-dimensional data (e.g., multimedia data), metric spaces are often employed as an underlying mathematical concept for their organization. Consequently, the only measure that can be used to arrange the data is a pairwise similarity between data objects. Similarity searching refers to a range of methods used to manage data enabling efficient search in such spaces. The main paradigm of similarity searching has remained mostly unchanged for decades -- data objects are organized into a hierarchical structure according to their mutual distances, using representative pivots to reduce the number of distance computations needed to efficiently search the data. We plan to investigate an alternative to this paradigm, using machine learning models to replace pivots, thus, posing similarity search as a classification problem. We will use both supervised and unsupervised approaches to implement our solutions. We will also address the questions of scalability and dynamicity, and verify the applications for metric data.

Keywords

similarity searchingindex structuresunstructured datalearned indexesmachine learning

Public support

  • Provider

    Czech Science Foundation

  • Programme

  • Call for proposals

  • Main participants

    Masarykova univerzita / Fakulta informatiky

  • Contest type

    M2 - International cooperation

  • Contract ID

    23-07040K

Alternative language

  • Project name in Czech

    Naučené indexy pro podobností hledání

  • Annotation in Czech

    Vyhledávání v datech, která jsou nestrukturovaná, komplexní nebo vysoce dimenzionální (např. multimediální data), je často řešeno pomocí metrických prostorů, jakožto základního matematického aparátu pro zpracování dat. Jediným měřítkem, které zde lze k uspořádání dat použít, je podobnost mezi dvojicí datových objektů. Hlavní paradigma podobnostního vyhledávání zůstalo po celá desetiletí většinou původní: datové objekty jsou organizovány do hierarchické struktury s ohledem na jejich vzájemné vzdálenosti a efektivita vyhledávání je zajištěna odfiltrováním nerelevantních dat pomocí předvybraných reprezentantů (pivotů), tj. minimalizací počtu výpočtů vzdálenosti. V tomto projektu budeme zkoumat alternativní přístup k podobnostnímu vyhledávání: použití modelů strojového učení jako náhrady pivotů, tj. realizace podobnostního vyhledávání jako klasifikační problém. Zabývat se budeme jak technikami učení s učitelem, tak i bez učitele. Rovněž budeme řešit otázky škálovatelnosti a dynamičnosti přístupů a ověřovat je na vhodných aplikacích.

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - secondary branch

  • OECD FORD - another secondary branch

  • AF - Documentation, librarianship, work with information
    BC - Theory and management systems
    BD - Information theory
    IN - Informatics

Solution timeline

  • Realization period - beginning

    Jul 1, 2023

  • Realization period - end

    Dec 31, 2026

  • Project status

    B - Running multi-year project

  • Latest support payment

    Feb 29, 2024

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP25-GA0-GF-R

  • Data delivery date

    Feb 21, 2025

Finance

  • Total approved costs

    7,636 thou. CZK

  • Public financial support

    6,900 thou. CZK

  • Other public sources

    734 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

7 636 CZK thou.

Public support

6 900 CZK thou.

90%


Provider

Czech Science Foundation

OECD FORD

Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Solution period

01. 07. 2023 - 31. 12. 2026