Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Aplikace - Obce v datech, s.r.o.

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F05755875%3A_____%2F23%3AN0000001" target="_blank" >RIV/05755875:_____/23:N0000001 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Aplikace - Obce v datech, s.r.o.

  • Popis výsledku v původním jazyce

    V rámci projektu došlo k vývoji jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje vydefinovaného na základě průběžných závěrů z rozpracovaného Proof of Conceptu (projekt je podpořen z OPPIK). Tento nástroj bude rozvíjet a optimalizovat současné produkty společnosti Obce v datech a umožní vývoj nových produktů napomáhajících využívání dat v prostředí veřejné správy.

  • Název v anglickém jazyce

    Aplikace - Obce v datech, s.r.o.

  • Popis výsledku anglicky

    V rámci projektu došlo k vývoji jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje vydefinovaného na základě průběžných závěrů z rozpracovaného Proof of Conceptu (projekt je podpořen z OPPIK). Tento nástroj bude rozvíjet a optimalizovat současné produkty společnosti Obce v datech a umožní vývoj nových produktů napomáhajících využívání dat v prostředí veřejné správy.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/EG19_262%2F0020212" target="_blank" >EG19_262/0020212: Aplikace - Obce v datech, s.r.o.</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2023

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    Obce v datech

  • Technické parametry

    Realizace projektu se týkala vývoje jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje. Realizace probíhala následujícím postupem. Původní předpokládané prostředí pro realizaci projektu byla Java. To se, ale změnilo, protože firma Oracle dramaticky změnila licenční podmínky a celá vývojářská komunita se přesunula do prostředí Pythonu. To byla zároveň také technologicky lepší volba (více nástrojů nativní podpora pro AI). Architektura modelů se dynamicky měnila a tak se místo předpokládaných LSTM sítí použily sítě na základě transformátorů, které se díky jejich úspěších staly de facto standardem, a to dokonce pro stále rostoucí výčet úloh. Oproti LSTM nabízí transformátory dvě zásadní výhody. Výpočet se provádí paralelně, je možné ho optimalizovat pomocí více procesorů (tisíce u grafických karet) a druhou zásadní výhodou je, že nedochází k postupnému mizení vazeb na slova která jsou vzdálená aktuálnímu textu. V psané řeči se totiž běžně vyskytují odkazy na pojem uvedený o několik vět napřed a je třeba mít možnost na něj zaměřit plnohodnotně pozornost, protože může být podstatnější pro aktuální slovo než slovo, které je ve stejné větě. Další výraznou změnou byl samotný systém tréningu sítí, kdy se netrénovalo od nuly, ale použil se například před trénovaný jazykový model a ten se dále natrénoval na konkrétní úlohu (rozpoznání druhu inzerátu) nebo se na jeho výstup připojila další síť a ta se natrénovala. Tento postup je logický a šetří energii vynaloženou na tréning. jazyk je stejný ať se v něm píšou pracovní inzeráty nebo knihy, proto je dobré převzít před trénovaný model.

  • Ekonomické parametry

    Cílem projektu bylo aplikovat AI tak, aby se výsledky z pracovních portálů zkonvertovaly do interních datových struktur. Navíc bez nutnosti úpravy programu nebo navázáni na konkrétní strukturu stránky, která se může měnit a tak permanentně znehodnocovat investice vložené do naprogramování robota. To představuje při cawlingu reálný problém zesílený počtem stránek, čím více stránek tím více změn. Námi dosažené řešení vyžaduje pouze konfiguraci v podobě adresa stránky pracovního portálu, řetězec pro přepínání stránek (typicky „page=1“) a identifikace jednotlivých inzerátů. To je také nejslabší článek celého procesu, velmi brzo budeme schopni identifikovat jednotlivé výsledky vyhledávání (především viz. model MarkupLM) , v době realizace projektu se to ukázalo jako příliš náročné. Na druhou stranu identifikace všech ostatních položek, jako je plat zaměstnavatel, místo práce je automatický. To je velký pokrok a umožňuje vytěžovat všechny známé pracovní portály.

  • IČO vlastníka výsledku

    05755875

  • Název vlastníka

    Obce v datech, s.r.o.