Aplikace - Obce v datech, s.r.o.
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F05755875%3A_____%2F23%3AN0000001" target="_blank" >RIV/05755875:_____/23:N0000001 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Aplikace - Obce v datech, s.r.o.
Popis výsledku v původním jazyce
V rámci projektu došlo k vývoji jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje vydefinovaného na základě průběžných závěrů z rozpracovaného Proof of Conceptu (projekt je podpořen z OPPIK). Tento nástroj bude rozvíjet a optimalizovat současné produkty společnosti Obce v datech a umožní vývoj nových produktů napomáhajících využívání dat v prostředí veřejné správy.
Název v anglickém jazyce
Aplikace - Obce v datech, s.r.o.
Popis výsledku anglicky
V rámci projektu došlo k vývoji jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje vydefinovaného na základě průběžných závěrů z rozpracovaného Proof of Conceptu (projekt je podpořen z OPPIK). Tento nástroj bude rozvíjet a optimalizovat současné produkty společnosti Obce v datech a umožní vývoj nových produktů napomáhajících využívání dat v prostředí veřejné správy.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/EG19_262%2F0020212" target="_blank" >EG19_262/0020212: Aplikace - Obce v datech, s.r.o.</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
Obce v datech
Technické parametry
Realizace projektu se týkala vývoje jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje. Realizace probíhala následujícím postupem. Původní předpokládané prostředí pro realizaci projektu byla Java. To se, ale změnilo, protože firma Oracle dramaticky změnila licenční podmínky a celá vývojářská komunita se přesunula do prostředí Pythonu. To byla zároveň také technologicky lepší volba (více nástrojů nativní podpora pro AI). Architektura modelů se dynamicky měnila a tak se místo předpokládaných LSTM sítí použily sítě na základě transformátorů, které se díky jejich úspěších staly de facto standardem, a to dokonce pro stále rostoucí výčet úloh. Oproti LSTM nabízí transformátory dvě zásadní výhody. Výpočet se provádí paralelně, je možné ho optimalizovat pomocí více procesorů (tisíce u grafických karet) a druhou zásadní výhodou je, že nedochází k postupnému mizení vazeb na slova která jsou vzdálená aktuálnímu textu. V psané řeči se totiž běžně vyskytují odkazy na pojem uvedený o několik vět napřed a je třeba mít možnost na něj zaměřit plnohodnotně pozornost, protože může být podstatnější pro aktuální slovo než slovo, které je ve stejné větě. Další výraznou změnou byl samotný systém tréningu sítí, kdy se netrénovalo od nuly, ale použil se například před trénovaný jazykový model a ten se dále natrénoval na konkrétní úlohu (rozpoznání druhu inzerátu) nebo se na jeho výstup připojila další síť a ta se natrénovala. Tento postup je logický a šetří energii vynaloženou na tréning. jazyk je stejný ať se v něm píšou pracovní inzeráty nebo knihy, proto je dobré převzít před trénovaný model.
Ekonomické parametry
Cílem projektu bylo aplikovat AI tak, aby se výsledky z pracovních portálů zkonvertovaly do interních datových struktur. Navíc bez nutnosti úpravy programu nebo navázáni na konkrétní strukturu stránky, která se může měnit a tak permanentně znehodnocovat investice vložené do naprogramování robota. To představuje při cawlingu reálný problém zesílený počtem stránek, čím více stránek tím více změn. Námi dosažené řešení vyžaduje pouze konfiguraci v podobě adresa stránky pracovního portálu, řetězec pro přepínání stránek (typicky „page=1“) a identifikace jednotlivých inzerátů. To je také nejslabší článek celého procesu, velmi brzo budeme schopni identifikovat jednotlivé výsledky vyhledávání (především viz. model MarkupLM) , v době realizace projektu se to ukázalo jako příliš náročné. Na druhou stranu identifikace všech ostatních položek, jako je plat zaměstnavatel, místo práce je automatický. To je velký pokrok a umožňuje vytěžovat všechny známé pracovní portály.
IČO vlastníka výsledku
05755875
Název vlastníka
Obce v datech, s.r.o.