Named Entity Extractor
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F63076616%3A_____%2F24%3AN0000002" target="_blank" >RIV/63076616:_____/24:N0000002 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Extraktor pojmenovaných entit
Original language description
Vyvinutý systém pro hledání pojmenovaných entit ve volném textu využívá následující čtyři přístupy: • jazykový model BERT doučený na policejních textech, • přesné slovníkové hledání, • přibližné slovníkové hledání, • regulární výrazy. Entity nalezené různými přístupy se sloučí do jediného seznamu a sloučený seznam se nakonec upraví. Úpravy zahrnují odstraňování, slučování a úpravy hranic nalezených entit.
Czech name
Extraktor pojmenovaných entit
Czech description
—
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
10103 - Statistics and probability
Result continuities
Project
<a href="/en/project/VC20232023006" target="_blank" >VC20232023006: Text Data Analysis – Entity Extraction</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2024
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
R_Extraktor entit
Technical parameters
Během projektu byl vyvinut nezávislý softwarový modul pro extrakci pojmenovaných entit z policejních textů. Klasifikační model z volného textu extrahuje následující pojmenované entity: osoby, organizace, adresy, vozidla, bankovní účty, telefony, e-maily, chemické látky, léčiva, drogy, zbraně a doklady. Pro různé typy entit se používají různé přístupy, které se někdy i kombinují. Kromě modelu BERT extrahujeme entity pomocí přesného a přibližného slovníkového vyhledávání a regulárních výrazů. Soustředili jsme se na extrakci pojmenovaných entit z dokumentů psaných v českém jazyce. Pro češtinu byly připraveny regulární výrazy, specifické seznamy pojmenovaných entit a vytrénován model BERT na označkovaných policejních textech. Předávaný software implementuje rozpoznávání entit v českých policejních textech a je otevřený pro přidání dalších jazyků. Řešení umí automaticky rozpoznat jazyk textu a podle toho zvolit příslušné slovníky, které je možno vkládat do integrované databáze. Výstupem extrakce z volného textu je strukturovaný seznam pojmenovaných entit ve formátu JSON. U každé entity je uvedeno, o jaký typ entity se jedná, kde v textu se nachází a jakou metodou byla extrahována. K doučení modelu BERT jsme použili volně dostupný software Doccano, který umožňuje uživatelům označovat pojmenované entity v textech. Tyto značky se ukládají ve formátu JSON a slouží jako vstup pro doučení modelu BERT. Naučené verze modelu lze ukládat a konfiguračně měnit při spuštění rozpoznávacího softwaru. Označkované texty lze také použít k testování modelu, přičemž software spočítá F-skóre a další evaluační statistiky. Grafické rozhraní Doccano a učební skript mohou uživatelé používat i po ukončení projektu k dalšímu zlepšování modelů. Finálním produktem je webová služba pro rozpoznání pojmenovaných entit v dodaném dokumentu. Vstupem je volný text, výstupem strukturovaná data ve formátu JSON. Webovou službu mohou uživatelé volat přes grafická rozhraní nebo vlastní programové moduly. Služba zastřešuje metody extrakce entit založené na technologii BERT, slovníkovém vyhledávání a regulárních výrazech, a zajišťuje přístup do databáze se slovníky, regulárními výrazy a pravidly pro úpravy entit. Webová služba je napsaná v Pythonu, typu REST s podporou metod GET a PUT. K dodané webové službě, rozhraní pro značkování dokumentů a extraktoru entit poskytujeme zdrojové kódy a uživatelskou i programátorskou dokumentaci.
Economical parameters
Automatizace procesů: Nahrazení manuální práce při vyhledávání a identifikaci entit snižuje čas a náklady. Snížení chybovosti: Konzistentní a přesné výsledky minimalizují chyby a následné náklady na opravy. Zrychlení analýzy dat: Rychlé zpracování velkého množství dokumentů umožňuje rychlejší reakce na kriminální činnost. Detailní analýzy: Možnost odhalit vzory a souvislosti zvyšuje efektivitu policejní práce. Integrace s jinými systémy: Možnost propojení s dalšími systémy a databázemi zvyšuje celkovou efektivitu. Optimalizace zdrojů: Snižuje náklady na lidské zdroje a umožňuje přesměrování finančních prostředků na jiné prioritní oblasti. Využití moderních technologií: Implementace pokročilých technologií jako BERT a strojového učení zvyšuje technologickou úroveň a konkurenceschopnost. Otevřenost pro další rozvoj: Systém je navržen pro přidání dalších jazyků a rozšíření slovníků, což umožňuje jeho další vývoj a přizpůsobení novým potřebám.
Owner IČO
00007064
Owner name
Ministerstvo vnitra Ćeské republiky