Vše
Vše

Co hledáte?

Vše
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Naučené indexy pro podobností hledání

Cíle projektu

Vyhledávání v datech, která jsou nestrukturovaná, komplexní nebo vysoce dimenzionální (např. multimediální data), je často řešeno pomocí metrických prostorů, jakožto základního matematického aparátu pro zpracování dat. Jediným měřítkem, které zde lze k uspořádání dat použít, je podobnost mezi dvojicí datových objektů. Hlavní paradigma podobnostního vyhledávání zůstalo po celá desetiletí většinou původní: datové objekty jsou organizovány do hierarchické struktury s ohledem na jejich vzájemné vzdálenosti a efektivita vyhledávání je zajištěna odfiltrováním nerelevantních dat pomocí předvybraných reprezentantů (pivotů), tj. minimalizací počtu výpočtů vzdálenosti. V tomto projektu budeme zkoumat alternativní přístup k podobnostnímu vyhledávání: použití modelů strojového učení jako náhrady pivotů, tj. realizace podobnostního vyhledávání jako klasifikační problém. Zabývat se budeme jak technikami učení s učitelem, tak i bez učitele. Rovněž budeme řešit otázky škálovatelnosti a dynamičnosti přístupů a ověřovat je na vhodných aplikacích.

Klíčová slova

similarity searchingindex structuresunstructured datalearned indexesmachine learning

Veřejná podpora

  • Poskytovatel

    Grantová agentura České republiky

  • Program

    Mezinárodní grantové projekty hodnocené na principu LEAD Agency

  • Veřejná soutěž

  • Hlavní účastníci

    Masarykova univerzita / Fakulta informatiky

  • Druh soutěže

    M2 - Mezinárodní spolupráce

  • Číslo smlouvy

    23-07040K

Alternativní jazyk

  • Název projektu anglicky

    Learned Indexing for Similarity Searching

  • Anotace anglicky

    When faced with the task of storing and retrieving complex, unstructured or high-dimensional data (e.g., multimedia data), metric spaces are often employed as an underlying mathematical concept for their organization. Consequently, the only measure that can be used to arrange the data is a pairwise similarity between data objects. Similarity searching refers to a range of methods used to manage data enabling efficient search in such spaces. The main paradigm of similarity searching has remained mostly unchanged for decades -- data objects are organized into a hierarchical structure according to their mutual distances, using representative pivots to reduce the number of distance computations needed to efficiently search the data. We plan to investigate an alternative to this paradigm, using machine learning models to replace pivots, thus, posing similarity search as a classification problem. We will use both supervised and unsupervised approaches to implement our solutions. We will also address the questions of scalability and dynamicity, and verify the applications for metric data.

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • OECD FORD - hlavní obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - vedlejší obor

  • OECD FORD - další vedlejší obor

  • CEP - odpovídající obory
    (dle převodníku)

    AF - Dokumentace, knihovnictví, práce s informacemi
    BC - Teorie a systémy řízení
    BD - Teorie informace
    IN - Informatika

Termíny řešení

  • Zahájení řešení

    1. 7. 2023

  • Ukončení řešení

    31. 12. 2026

  • Poslední stav řešení

    B - Běžící víceletý projekt

  • Poslední uvolnění podpory

    29. 2. 2024

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP25-GA0-GF-R

  • Datum dodání záznamu

    21. 2. 2025

Finance

  • Celkové uznané náklady

    7 636 tis. Kč

  • Výše podpory ze státního rozpočtu

    6 900 tis. Kč

  • Ostatní veřejné zdroje financování

    734 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč

Uznané náklady

7 636 tis. Kč

Statní podpora

6 900 tis. Kč

0%


Poskytovatel

Grantová agentura České republiky

OECD FORD

Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Doba řešení

01. 07. 2023 - 31. 12. 2026