DOAZARC - An integrated system for processing, storing and presenting scanned documents in Cyrillic.
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F22%3A43967006" target="_blank" >RIV/49777513:23520/22:43967006 - isvavai.cz</a>
Alternative codes found
RIV/49777513:23640/22:43967006
Result on the web
<a href="https://www.kky.zcu.cz/cs/sw/DOAZARC" target="_blank" >https://www.kky.zcu.cz/cs/sw/DOAZARC</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
DOAZARC - INTEGROVANÝ SYSTÉM PRO ZPRACOVÁNÍ, UCHOVÁNÍ A ZPŘÍSTUPNĚNÍ NASKENOVANÝCH DOKUMENTŮ V AZBUCE
Original language description
Tento software je hlavním výsledkem projektu DG20P02OVV018: "Digitální archiv dokumentů NKVD/KGB vztahujících se k Československu". Skládá se z několika modulů, které dokáží automaticky zpracovat velké archivy naskenovaných dokumentů v azbuce (ukrajinština a ruština) a latince (čeština) metodami optického rozpoznávání znaků (OCR), výsledný el. text uložit do speciálně navržené databáze a následně archiv zpřístupnit uživatelům s využitím uživatelsky přívětivého grafického uživatelského rozhraní (GUI).
Czech name
DOAZARC - INTEGROVANÝ SYSTÉM PRO ZPRACOVÁNÍ, UCHOVÁNÍ A ZPŘÍSTUPNĚNÍ NASKENOVANÝCH DOKUMENTŮ V AZBUCE
Czech description
Tento software je hlavním výsledkem projektu DG20P02OVV018: "Digitální archiv dokumentů NKVD/KGB vztahujících se k Československu". Skládá se z několika modulů, které dokáží automaticky zpracovat velké archivy naskenovaných dokumentů v azbuce (ukrajinština a ruština) a latince (čeština) metodami optického rozpoznávání znaků (OCR), výsledný el. text uložit do speciálně navržené databáze a následně archiv zpřístupnit uživatelům s využitím uživatelsky přívětivého grafického uživatelského rozhraní (GUI).
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
20205 - Automation and control systems
Result continuities
Project
<a href="/en/project/DG20P02OVV018" target="_blank" >DG20P02OVV018: Digital archive of the NKVD/KGB files related to Czechoslovakia</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2022
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
ZCU/KKY/2022/001
Technical parameters
Základem celého řešení je tzv. backend server implementovaný v programovacím jazyce Python a využívající především databázový systém MongoDB pro uložení originálních dokumentů i všech mezivýsledků vzniklých při automatickém zpracování. Jádrem backendu jsou jednotlivé "pracovní moduly" (workers) vykonávající potřebné funkce (např. import dat či jejich převod do jednotného formátu) a systém předávání dat mezi nimi (pipelines). Nejdůležitějším workerem integrovaným do finálního softwaru je modul pro předzpracování naskenovaných dokumentů a jejich následné OCR - ten byl uplatněn jako výsledek ROCRAZB již v předcházející etapě projektu. Poslední vrstvou uvedené pipeline je webové grafické uživatelské rozhraní, jehož ukázka je na obrázku výše. Je založeno na nejnovějších webových technologiích, včetně React a TypeScript. Rozhraní je hostováno na samostatném Next.js serveru, který je nezávislý na výše uvedeném backend serveri a vzájemná komunikace mezi těmito dvěma servery je navázána přes protokol HTTP. Tento design nám umožňuje využít výhody systému Next.js, mezi něž patří napří. optimalizace renderování stránky a doby načítání dat. Webové rozhraní je responzivní a schopné detekovat typ použitého zařízení (je k dispozici i verze pro mobilní zařízení). Licenční smlouva s Ústavem pro studium totalitních režimů, IČ: 75112779, ze dne 16. 1. 2023. Kontaktní osoba - Ing. Zbyněk Zajíc, Ph.D., Technická 8, 301 00 Plzeň, tel: 377 632 561, email - zzajic@ntis.zcu.cz
Economical parameters
Ekonomické parametry softwaru nelze jednoduše vyčíslit. Software je používán především partnerem projektu - ÚSTR. Při striktně ekonomickém pohledu je jediným zřetelným přínosem úspora času badatelů při vyhledávání informací v archivu, ve skutečnosti by ale bez existence tohoto softwaru byla velká většina informací v archivu obsažených zcela nedohledatelná - přínos softwaru tedy jen ekonomickým pohledem v zásadě není možné hodnotit.
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni