DOAZARC - INTEGROVANÝ SYSTÉM PRO ZPRACOVÁNÍ, UCHOVÁNÍ A ZPŘÍSTUPNĚNÍ NASKENOVANÝCH DOKUMENTŮ V AZBUCE
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F22%3A43967006" target="_blank" >RIV/49777513:23520/22:43967006 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/49777513:23640/22:43967006
Výsledek na webu
<a href="https://www.kky.zcu.cz/cs/sw/DOAZARC" target="_blank" >https://www.kky.zcu.cz/cs/sw/DOAZARC</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
DOAZARC - INTEGROVANÝ SYSTÉM PRO ZPRACOVÁNÍ, UCHOVÁNÍ A ZPŘÍSTUPNĚNÍ NASKENOVANÝCH DOKUMENTŮ V AZBUCE
Popis výsledku v původním jazyce
Tento software je hlavním výsledkem projektu DG20P02OVV018: "Digitální archiv dokumentů NKVD/KGB vztahujících se k Československu". Skládá se z několika modulů, které dokáží automaticky zpracovat velké archivy naskenovaných dokumentů v azbuce (ukrajinština a ruština) a latince (čeština) metodami optického rozpoznávání znaků (OCR), výsledný el. text uložit do speciálně navržené databáze a následně archiv zpřístupnit uživatelům s využitím uživatelsky přívětivého grafického uživatelského rozhraní (GUI).
Název v anglickém jazyce
DOAZARC - An integrated system for processing, storing and presenting scanned documents in Cyrillic.
Popis výsledku anglicky
The main purpose of the presented DOAZARC software is to process large archives of scanned documents (in Cyrillic) into a machine-readable form that will allow users to efficiently search these materials for specified keywords or phrases using a specially designed GUI. The result is used by researchers from the project partner - ÚSTR - to facilitate the search for information in large archives (documents written mainly in Russian or Ukrainian) and enabling presentation of such information to the public.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/DG20P02OVV018" target="_blank" >DG20P02OVV018: Digitální archiv dokumentů NKVD/KGB vztahujících se k Československu</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2022
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
ZCU/KKY/2022/001
Technické parametry
Základem celého řešení je tzv. backend server implementovaný v programovacím jazyce Python a využívající především databázový systém MongoDB pro uložení originálních dokumentů i všech mezivýsledků vzniklých při automatickém zpracování. Jádrem backendu jsou jednotlivé "pracovní moduly" (workers) vykonávající potřebné funkce (např. import dat či jejich převod do jednotného formátu) a systém předávání dat mezi nimi (pipelines). Nejdůležitějším workerem integrovaným do finálního softwaru je modul pro předzpracování naskenovaných dokumentů a jejich následné OCR - ten byl uplatněn jako výsledek ROCRAZB již v předcházející etapě projektu. Poslední vrstvou uvedené pipeline je webové grafické uživatelské rozhraní, jehož ukázka je na obrázku výše. Je založeno na nejnovějších webových technologiích, včetně React a TypeScript. Rozhraní je hostováno na samostatném Next.js serveru, který je nezávislý na výše uvedeném backend serveri a vzájemná komunikace mezi těmito dvěma servery je navázána přes protokol HTTP. Tento design nám umožňuje využít výhody systému Next.js, mezi něž patří napří. optimalizace renderování stránky a doby načítání dat. Webové rozhraní je responzivní a schopné detekovat typ použitého zařízení (je k dispozici i verze pro mobilní zařízení). Licenční smlouva s Ústavem pro studium totalitních režimů, IČ: 75112779, ze dne 16. 1. 2023. Kontaktní osoba - Ing. Zbyněk Zajíc, Ph.D., Technická 8, 301 00 Plzeň, tel: 377 632 561, email - zzajic@ntis.zcu.cz
Ekonomické parametry
Ekonomické parametry softwaru nelze jednoduše vyčíslit. Software je používán především partnerem projektu - ÚSTR. Při striktně ekonomickém pohledu je jediným zřetelným přínosem úspora času badatelů při vyhledávání informací v archivu, ve skutečnosti by ale bez existence tohoto softwaru byla velká většina informací v archivu obsažených zcela nedohledatelná - přínos softwaru tedy jen ekonomickým pohledem v zásadě není možné hodnotit.
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni