All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Named Entity Extractor

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F63076616%3A_____%2F24%3AN0000002" target="_blank" >RIV/63076616:_____/24:N0000002 - isvavai.cz</a>

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Extraktor pojmenovaných entit

  • Original language description

    Vyvinutý systém pro hledání pojmenovaných entit ve volném textu využívá následující čtyři přístupy: • jazykový model BERT doučený na policejních textech, • přesné slovníkové hledání, • přibližné slovníkové hledání, • regulární výrazy. Entity nalezené různými přístupy se sloučí do jediného seznamu a sloučený seznam se nakonec upraví. Úpravy zahrnují odstraňování, slučování a úpravy hranic nalezených entit.

  • Czech name

    Extraktor pojmenovaných entit

  • Czech description

Classification

  • Type

    R - Software

  • CEP classification

  • OECD FORD branch

    10103 - Statistics and probability

Result continuities

  • Project

    <a href="/en/project/VC20232023006" target="_blank" >VC20232023006: Text Data Analysis – Entity Extraction</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2024

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    R_Extraktor entit

  • Technical parameters

    Během projektu byl vyvinut nezávislý softwarový modul pro extrakci pojmenovaných entit z policejních textů. Klasifikační model z volného textu extrahuje následující pojmenované entity: osoby, organizace, adresy, vozidla, bankovní účty, telefony, e-maily, chemické látky, léčiva, drogy, zbraně a doklady. Pro různé typy entit se používají různé přístupy, které se někdy i kombinují. Kromě modelu BERT extrahujeme entity pomocí přesného a přibližného slovníkového vyhledávání a regulárních výrazů. Soustředili jsme se na extrakci pojmenovaných entit z dokumentů psaných v českém jazyce. Pro češtinu byly připraveny regulární výrazy, specifické seznamy pojmenovaných entit a vytrénován model BERT na označkovaných policejních textech. Předávaný software implementuje rozpoznávání entit v českých policejních textech a je otevřený pro přidání dalších jazyků. Řešení umí automaticky rozpoznat jazyk textu a podle toho zvolit příslušné slovníky, které je možno vkládat do integrované databáze. Výstupem extrakce z volného textu je strukturovaný seznam pojmenovaných entit ve formátu JSON. U každé entity je uvedeno, o jaký typ entity se jedná, kde v textu se nachází a jakou metodou byla extrahována. K doučení modelu BERT jsme použili volně dostupný software Doccano, který umožňuje uživatelům označovat pojmenované entity v textech. Tyto značky se ukládají ve formátu JSON a slouží jako vstup pro doučení modelu BERT. Naučené verze modelu lze ukládat a konfiguračně měnit při spuštění rozpoznávacího softwaru. Označkované texty lze také použít k testování modelu, přičemž software spočítá F-skóre a další evaluační statistiky. Grafické rozhraní Doccano a učební skript mohou uživatelé používat i po ukončení projektu k dalšímu zlepšování modelů. Finálním produktem je webová služba pro rozpoznání pojmenovaných entit v dodaném dokumentu. Vstupem je volný text, výstupem strukturovaná data ve formátu JSON. Webovou službu mohou uživatelé volat přes grafická rozhraní nebo vlastní programové moduly. Služba zastřešuje metody extrakce entit založené na technologii BERT, slovníkovém vyhledávání a regulárních výrazech, a zajišťuje přístup do databáze se slovníky, regulárními výrazy a pravidly pro úpravy entit. Webová služba je napsaná v Pythonu, typu REST s podporou metod GET a PUT. K dodané webové službě, rozhraní pro značkování dokumentů a extraktoru entit poskytujeme zdrojové kódy a uživatelskou i programátorskou dokumentaci.

  • Economical parameters

    Automatizace procesů: Nahrazení manuální práce při vyhledávání a identifikaci entit snižuje čas a náklady. Snížení chybovosti: Konzistentní a přesné výsledky minimalizují chyby a následné náklady na opravy. Zrychlení analýzy dat: Rychlé zpracování velkého množství dokumentů umožňuje rychlejší reakce na kriminální činnost. Detailní analýzy: Možnost odhalit vzory a souvislosti zvyšuje efektivitu policejní práce. Integrace s jinými systémy: Možnost propojení s dalšími systémy a databázemi zvyšuje celkovou efektivitu. Optimalizace zdrojů: Snižuje náklady na lidské zdroje a umožňuje přesměrování finančních prostředků na jiné prioritní oblasti. Využití moderních technologií: Implementace pokročilých technologií jako BERT a strojového učení zvyšuje technologickou úroveň a konkurenceschopnost. Otevřenost pro další rozvoj: Systém je navržen pro přidání dalších jazyků a rozšíření slovníků, což umožňuje jeho další vývoj a přizpůsobení novým potřebám.

  • Owner IČO

    00007064

  • Owner name

    Ministerstvo vnitra Ćeské republiky