Aplikace - Obce v datech, s.r.o.
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F05755875%3A_____%2F23%3AN0000001" target="_blank" >RIV/05755875:_____/23:N0000001 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
Aplikace - Obce v datech, s.r.o.
Original language description
V rámci projektu došlo k vývoji jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje vydefinovaného na základě průběžných závěrů z rozpracovaného Proof of Conceptu (projekt je podpořen z OPPIK). Tento nástroj bude rozvíjet a optimalizovat současné produkty společnosti Obce v datech a umožní vývoj nových produktů napomáhajících využívání dat v prostředí veřejné správy.
Czech name
—
Czech description
—
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Result continuities
Project
<a href="/en/project/EG19_262%2F0020212" target="_blank" >EG19_262/0020212: Application - Obce v datech, s.r.o.</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2023
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
Obce v datech
Technical parameters
Realizace projektu se týkala vývoje jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje. Realizace probíhala následujícím postupem. Původní předpokládané prostředí pro realizaci projektu byla Java. To se, ale změnilo, protože firma Oracle dramaticky změnila licenční podmínky a celá vývojářská komunita se přesunula do prostředí Pythonu. To byla zároveň také technologicky lepší volba (více nástrojů nativní podpora pro AI). Architektura modelů se dynamicky měnila a tak se místo předpokládaných LSTM sítí použily sítě na základě transformátorů, které se díky jejich úspěších staly de facto standardem, a to dokonce pro stále rostoucí výčet úloh. Oproti LSTM nabízí transformátory dvě zásadní výhody. Výpočet se provádí paralelně, je možné ho optimalizovat pomocí více procesorů (tisíce u grafických karet) a druhou zásadní výhodou je, že nedochází k postupnému mizení vazeb na slova která jsou vzdálená aktuálnímu textu. V psané řeči se totiž běžně vyskytují odkazy na pojem uvedený o několik vět napřed a je třeba mít možnost na něj zaměřit plnohodnotně pozornost, protože může být podstatnější pro aktuální slovo než slovo, které je ve stejné větě. Další výraznou změnou byl samotný systém tréningu sítí, kdy se netrénovalo od nuly, ale použil se například před trénovaný jazykový model a ten se dále natrénoval na konkrétní úlohu (rozpoznání druhu inzerátu) nebo se na jeho výstup připojila další síť a ta se natrénovala. Tento postup je logický a šetří energii vynaloženou na tréning. jazyk je stejný ať se v něm píšou pracovní inzeráty nebo knihy, proto je dobré převzít před trénovaný model.
Economical parameters
Cílem projektu bylo aplikovat AI tak, aby se výsledky z pracovních portálů zkonvertovaly do interních datových struktur. Navíc bez nutnosti úpravy programu nebo navázáni na konkrétní strukturu stránky, která se může měnit a tak permanentně znehodnocovat investice vložené do naprogramování robota. To představuje při cawlingu reálný problém zesílený počtem stránek, čím více stránek tím více změn. Námi dosažené řešení vyžaduje pouze konfiguraci v podobě adresa stránky pracovního portálu, řetězec pro přepínání stránek (typicky „page=1“) a identifikace jednotlivých inzerátů. To je také nejslabší článek celého procesu, velmi brzo budeme schopni identifikovat jednotlivé výsledky vyhledávání (především viz. model MarkupLM) , v době realizace projektu se to ukázalo jako příliš náročné. Na druhou stranu identifikace všech ostatních položek, jako je plat zaměstnavatel, místo práce je automatický. To je velký pokrok a umožňuje vytěžovat všechny známé pracovní portály.
Owner IČO
05755875
Owner name
Obce v datech, s.r.o.