Naučené indexy pro podobností hledání
Cíle projektu
Vyhledávání v datech, která jsou nestrukturovaná, komplexní nebo vysoce dimenzionální (např. multimediální data), je často řešeno pomocí metrických prostorů, jakožto základního matematického aparátu pro zpracování dat. Jediným měřítkem, které zde lze k uspořádání dat použít, je podobnost mezi dvojicí datových objektů. Hlavní paradigma podobnostního vyhledávání zůstalo po celá desetiletí většinou původní: datové objekty jsou organizovány do hierarchické struktury s ohledem na jejich vzájemné vzdálenosti a efektivita vyhledávání je zajištěna odfiltrováním nerelevantních dat pomocí předvybraných reprezentantů (pivotů), tj. minimalizací počtu výpočtů vzdálenosti. V tomto projektu budeme zkoumat alternativní přístup k podobnostnímu vyhledávání: použití modelů strojového učení jako náhrady pivotů, tj. realizace podobnostního vyhledávání jako klasifikační problém. Zabývat se budeme jak technikami učení s učitelem, tak i bez učitele. Rovněž budeme řešit otázky škálovatelnosti a dynamičnosti přístupů a ověřovat je na vhodných aplikacích.
Klíčová slova
similarity searchingindex structuresunstructured datalearned indexesmachine learning
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Mezinárodní grantové projekty hodnocené na principu LEAD Agency
Veřejná soutěž
—
Hlavní účastníci
Masarykova univerzita / Fakulta informatiky
Druh soutěže
M2 - Mezinárodní spolupráce
Číslo smlouvy
23-07040K
Alternativní jazyk
Název projektu anglicky
Learned Indexing for Similarity Searching
Anotace anglicky
When faced with the task of storing and retrieving complex, unstructured or high-dimensional data (e.g., multimedia data), metric spaces are often employed as an underlying mathematical concept for their organization. Consequently, the only measure that can be used to arrange the data is a pairwise similarity between data objects. Similarity searching refers to a range of methods used to manage data enabling efficient search in such spaces. The main paradigm of similarity searching has remained mostly unchanged for decades -- data objects are organized into a hierarchical structure according to their mutual distances, using representative pivots to reduce the number of distance computations needed to efficiently search the data. We plan to investigate an alternative to this paradigm, using machine learning models to replace pivots, thus, posing similarity search as a classification problem. We will use both supervised and unsupervised approaches to implement our solutions. We will also address the questions of scalability and dynamicity, and verify the applications for metric data.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory
(dle převodníku)AF - Dokumentace, knihovnictví, práce s informacemi
BC - Teorie a systémy řízení
BD - Teorie informace
IN - Informatika
Termíny řešení
Zahájení řešení
1. 7. 2023
Ukončení řešení
31. 12. 2026
Poslední stav řešení
B - Běžící víceletý projekt
Poslední uvolnění podpory
29. 2. 2024
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP25-GA0-GF-R
Datum dodání záznamu
21. 2. 2025
Finance
Celkové uznané náklady
7 636 tis. Kč
Výše podpory ze státního rozpočtu
6 900 tis. Kč
Ostatní veřejné zdroje financování
734 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč
Uznané náklady
7 636 tis. Kč
Statní podpora
6 900 tis. Kč
0%
Poskytovatel
Grantová agentura České republiky
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Doba řešení
01. 07. 2023 - 31. 12. 2026