Towards Better Understanding of Cybercrime: The Role of Fine-Tuned LLMs in Translation
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F24%3A00380664" target="_blank" >RIV/68407700:21230/24:00380664 - isvavai.cz</a>
Výsledek na webu
<a href="https://doi.org/10.1109/EuroSPW61312.2024.00017" target="_blank" >https://doi.org/10.1109/EuroSPW61312.2024.00017</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/EuroSPW61312.2024.00017" target="_blank" >10.1109/EuroSPW61312.2024.00017</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Towards Better Understanding of Cybercrime: The Role of Fine-Tuned LLMs in Translation
Popis výsledku v původním jazyce
Understanding cybercrime communications is paramount for cybersecurity defence. This often involves translating communications into English for processing, interpreting, and generating timely intelligence. The problem is that translation is hard. Human translation is slow, expensive, and scarce. Machine translation is inaccurate and biased. We propose using fine-tuned Large Language Models (LLM) to generate translations that can accurately capture the nuances of cybercrime language. We apply our technique to public chats from the NoName057(16) Russian-speaking hacktivist group. Our results show that our fine-tuned LLM model is better, faster, more accurate, and able to capture nuances of the language. Our method shows it is possible to achieve high-fidelity translations and significantly reduce costs by a factor ranging from 430 to 23,000 compared to a human translator.
Název v anglickém jazyce
Towards Better Understanding of Cybercrime: The Role of Fine-Tuned LLMs in Translation
Popis výsledku anglicky
Understanding cybercrime communications is paramount for cybersecurity defence. This often involves translating communications into English for processing, interpreting, and generating timely intelligence. The problem is that translation is hard. Human translation is slow, expensive, and scarce. Machine translation is inaccurate and biased. We propose using fine-tuned Large Language Models (LLM) to generate translations that can accurately capture the nuances of cybercrime language. We apply our technique to public chats from the NoName057(16) Russian-speaking hacktivist group. Our results show that our fine-tuned LLM model is better, faster, more accurate, and able to capture nuances of the language. Our method shows it is possible to achieve high-fidelity translations and significantly reduce costs by a factor ranging from 430 to 23,000 compared to a human translator.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/VJ02010020" target="_blank" >VJ02010020: AI-Dojo: Multiagentní testbed pro výzkum a testování umělé inteligence v kyberbezpečnosti</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings - 9th IEEE European Symposium on Security and Privacy Workshops, Euro S and PW 2024
ISBN
979-8-3503-6729-4
ISSN
2768-0649
e-ISSN
2768-0657
Počet stran výsledku
9
Strana od-do
91-99
Název nakladatele
IEEE Computer Society
Místo vydání
Cannes
Místo konání akce
Vídeň
Datum konání akce
8. 7. 2024
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
001302657400011