Learned Indexing in Proteins: Substituting Complex Distance Calculations with Embedding and Clustering Techniques
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F22%3A00126460" target="_blank" >RIV/00216224:14330/22:00126460 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007/978-3-031-17849-8_22" target="_blank" >https://link.springer.com/chapter/10.1007/978-3-031-17849-8_22</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-031-17849-8_22" target="_blank" >10.1007/978-3-031-17849-8_22</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Learned Indexing in Proteins: Substituting Complex Distance Calculations with Embedding and Clustering Techniques
Popis výsledku v původním jazyce
Despite the constant evolution of similarity searching research, it continues to face challenges stemming from the complexity of the data, such as the curse of dimensionality and computationally expensive distance functions. Various machine learning techniques have proven capable of replacing elaborate mathematical models with simple linear functions, often gaining speed and simplicity at the cost of formal guarantees of accuracy and correctness of querying. The authors explore the potential of this research trend by presenting a lightweight solution for the complex problem of 3D protein structure search. The solution consists of three steps – (i) transformation of 3D protein structural information into very compact vectors, (ii) use of a probabilistic model to group these vectors and respond to queries by returning a given number of similar objects, and (iii) a final filtering step which applies basic vector distance functions to refine the result.
Název v anglickém jazyce
Learned Indexing in Proteins: Substituting Complex Distance Calculations with Embedding and Clustering Techniques
Popis výsledku anglicky
Despite the constant evolution of similarity searching research, it continues to face challenges stemming from the complexity of the data, such as the curse of dimensionality and computationally expensive distance functions. Various machine learning techniques have proven capable of replacing elaborate mathematical models with simple linear functions, often gaining speed and simplicity at the cost of formal guarantees of accuracy and correctness of querying. The authors explore the potential of this research trend by presenting a lightweight solution for the complex problem of 3D protein structure search. The solution consists of three steps – (i) transformation of 3D protein structural information into very compact vectors, (ii) use of a probabilistic model to group these vectors and respond to queries by returning a given number of similar objects, and (iii) a final filtering step which applies basic vector distance functions to refine the result.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10200 - Computer and information sciences
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2022
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Similarity Search and Applications, 15th International Conference, SISAP 2022, Bologna, Italy, October 5–7, 2022, Proceedings
ISBN
9783031178481
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
9
Strana od-do
274-282
Název nakladatele
Springer Cham
Místo vydání
Cham
Místo konání akce
Bologna, Italy
Datum konání akce
5. 10. 2020
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000874756300022