Threat Hunting as a Similarity Search Problem on Multi-positive and Unlabeled Data
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F21%3A00354915" target="_blank" >RIV/68407700:21230/21:00354915 - isvavai.cz</a>
Výsledek na webu
<a href="https://doi.org/10.1109/BigData52589.2021.9671958" target="_blank" >https://doi.org/10.1109/BigData52589.2021.9671958</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/BigData52589.2021.9671958" target="_blank" >10.1109/BigData52589.2021.9671958</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Threat Hunting as a Similarity Search Problem on Multi-positive and Unlabeled Data
Popis výsledku v původním jazyce
We present a new similarity search method (called Random Separations) that helps threat analysts with identification of unknown variants of known malware in network traffic. The method assumes that for each hunted malware family, few samples of network communication are available to analysts (multi-positive) and others are hidden in abundant (unlabeled) network data. We demonstrate the method on large-scale real-world data, where it outperforms the unsupervised approach (Isolation Forest and Lightweight Online Detector of Anomalies), the supervised approach (Random Forest) and the traditional similarity search algorithm (kNN). The evaluation involves eight high-risk malware families under various known/unknown ratios.
Název v anglickém jazyce
Threat Hunting as a Similarity Search Problem on Multi-positive and Unlabeled Data
Popis výsledku anglicky
We present a new similarity search method (called Random Separations) that helps threat analysts with identification of unknown variants of known malware in network traffic. The method assumes that for each hunted malware family, few samples of network communication are available to analysts (multi-positive) and others are hidden in abundant (unlabeled) network data. We demonstrate the method on large-scale real-world data, where it outperforms the unsupervised approach (Isolation Forest and Lightweight Online Detector of Anomalies), the supervised approach (Random Forest) and the traditional similarity search algorithm (kNN). The evaluation involves eight high-risk malware families under various known/unknown ratios.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 2021 IEEE International Conference on Big Data
ISBN
978-1-6654-3902-2
ISSN
—
e-ISSN
—
Počet stran výsledku
6
Strana od-do
2098-2103
Název nakladatele
IEEE Xplore
Místo vydání
—
Místo konání akce
Virtually
Datum konání akce
15. 12. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—