All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Aplikace - Obce v datech, s.r.o.

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F05755875%3A_____%2F23%3AN0000001" target="_blank" >RIV/05755875:_____/23:N0000001 - isvavai.cz</a>

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    angličtina

  • Original language name

    Aplikace - Obce v datech, s.r.o.

  • Original language description

    V rámci projektu došlo k vývoji jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje vydefinovaného na základě průběžných závěrů z rozpracovaného Proof of Conceptu (projekt je podpořen z OPPIK). Tento nástroj bude rozvíjet a optimalizovat současné produkty společnosti Obce v datech a umožní vývoj nových produktů napomáhajících využívání dat v prostředí veřejné správy.

  • Czech name

  • Czech description

Classification

  • Type

    R - Software

  • CEP classification

  • OECD FORD branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Result continuities

  • Project

    <a href="/en/project/EG19_262%2F0020212" target="_blank" >EG19_262/0020212: Application - Obce v datech, s.r.o.</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2023

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    Obce v datech

  • Technical parameters

    Realizace projektu se týkala vývoje jednotlivých komponent a jejich integrace do funkčního prototypu softwarového nástroje. Realizace probíhala následujícím postupem. Původní předpokládané prostředí pro realizaci projektu byla Java. To se, ale změnilo, protože firma Oracle dramaticky změnila licenční podmínky a celá vývojářská komunita se přesunula do prostředí Pythonu. To byla zároveň také technologicky lepší volba (více nástrojů nativní podpora pro AI). Architektura modelů se dynamicky měnila a tak se místo předpokládaných LSTM sítí použily sítě na základě transformátorů, které se díky jejich úspěších staly de facto standardem, a to dokonce pro stále rostoucí výčet úloh. Oproti LSTM nabízí transformátory dvě zásadní výhody. Výpočet se provádí paralelně, je možné ho optimalizovat pomocí více procesorů (tisíce u grafických karet) a druhou zásadní výhodou je, že nedochází k postupnému mizení vazeb na slova která jsou vzdálená aktuálnímu textu. V psané řeči se totiž běžně vyskytují odkazy na pojem uvedený o několik vět napřed a je třeba mít možnost na něj zaměřit plnohodnotně pozornost, protože může být podstatnější pro aktuální slovo než slovo, které je ve stejné větě. Další výraznou změnou byl samotný systém tréningu sítí, kdy se netrénovalo od nuly, ale použil se například před trénovaný jazykový model a ten se dále natrénoval na konkrétní úlohu (rozpoznání druhu inzerátu) nebo se na jeho výstup připojila další síť a ta se natrénovala. Tento postup je logický a šetří energii vynaloženou na tréning. jazyk je stejný ať se v něm píšou pracovní inzeráty nebo knihy, proto je dobré převzít před trénovaný model.

  • Economical parameters

    Cílem projektu bylo aplikovat AI tak, aby se výsledky z pracovních portálů zkonvertovaly do interních datových struktur. Navíc bez nutnosti úpravy programu nebo navázáni na konkrétní strukturu stránky, která se může měnit a tak permanentně znehodnocovat investice vložené do naprogramování robota. To představuje při cawlingu reálný problém zesílený počtem stránek, čím více stránek tím více změn. Námi dosažené řešení vyžaduje pouze konfiguraci v podobě adresa stránky pracovního portálu, řetězec pro přepínání stránek (typicky „page=1“) a identifikace jednotlivých inzerátů. To je také nejslabší článek celého procesu, velmi brzo budeme schopni identifikovat jednotlivé výsledky vyhledávání (především viz. model MarkupLM) , v době realizace projektu se to ukázalo jako příliš náročné. Na druhou stranu identifikace všech ostatních položek, jako je plat zaměstnavatel, místo práce je automatický. To je velký pokrok a umožňuje vytěžovat všechny známé pracovní portály.

  • Owner IČO

    05755875

  • Owner name

    Obce v datech, s.r.o.