Learned Metric Index
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F24%3A00137232" target="_blank" >RIV/00216224:14330/24:00137232 - isvavai.cz</a>
Result on the web
<a href="https://github.com/Coda-Research-Group/LearnedMetricIndex" target="_blank" >https://github.com/Coda-Research-Group/LearnedMetricIndex</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.5281/zenodo.13860051" target="_blank" >10.5281/zenodo.13860051</a>
Alternative languages
Result language
angličtina
Original language name
Learned Metric Index
Original language description
Learned Metric Index (LMI) je inovativní datová struktura založená na strojovém učení, určená pro rychlé přibližné hledání nejbližších sousedů v rozsáhlých datových souborech. Využívá principy učených indexů k optimalizaci vyhledávání a minimalizaci výpočetní náročnosti. LMI je implementován v jazyce Python a podporuje použití na CPU i GPU. Díky efektivní správě paměti a vysoké přesnosti (až 91,42 % recallu) je vhodný pro aplikace v oblastech, jako jsou analýza velkých dat, bioinformatika, vyhledávače, doporučovací systémy a finanční modelování. Software je distribuován jako open-source pod licencí MIT, což umožňuje jeho volné použití, úpravy a začlenění do komerčních i nekomerčních projektů.
Czech name
—
Czech description
—
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Result continuities
Project
<a href="/en/project/GF23-07040K" target="_blank" >GF23-07040K: Learned Indexing for Similarity Searching</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Others
Publication year
2024
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
2024/02
Technical parameters
Programovací jazyk: Implementováno v Pythonu. Systémová architektura: Projekt je rozdělen do několika hlavních komponent: Search Module – zajišťuje hlavní funkci pro aproximované hledání nejbližších sousedů. Tyto závislosti jsou specifikovány v souborech requirements-cpu.txt a requirements-gpu.txt pro CPU a GPU verze. Možnosti instalace: Virtuální prostředí – uživatelé mohou nastavit virtuální prostředí Python a nainstalovat požadované balíčky dle dokumentace. Docker – k dispozici je Dockerfile, který umožňuje vytvořit obraz pro snadné nasazení. Hardwarové požadavky: Pro indexaci datasetu o velikosti 10 milionů záznamů je potřeba přibližně 42 GB RAM a 1 CPU jádro. Odhadovaný čas sestavení indexu je přibližně 6 hodin (v závislosti na použitém hardwaru). Výkonnostní metriky: Při použití jednoho modelu strojového učení dosahuje Learned Metric Index úspěšnosti přibližně 91,42 % recallu. Průměrná doba hledání pro 10 000 dotazů je 220 sekund. Licencování: Projekt je vydán pod MIT licencí, což umožňuje
Economical parameters
Software je open-source a je k dispozici zdarma pod MIT licencí. Nejsou vyžadovány žádné poplatky za používání.
Owner IČO
00216224
Owner name
Masarykova Univerzita