The Digital Reading Room of the Ministry of Defence of the Czech Republic / Using Technology for Advanced Indexing of Historical Documents
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378114%3A_____%2F24%3A00599817" target="_blank" >RIV/68378114:_____/24:00599817 - isvavai.cz</a>
Result on the web
<a href="https://sd.usd.cas.cz/pdfs/sod/2024/02/05.pdf" target="_blank" >https://sd.usd.cas.cz/pdfs/sod/2024/02/05.pdf</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.51134/sod.2024.027" target="_blank" >10.51134/sod.2024.027</a>
Alternative languages
Result language
čeština
Original language name
Digitální studovna Ministerstva obrany ČR / Využití technologií na pokročilou indexaci historických dokumentů
Original language description
Vývoj v oblasti informačních technologií a umělé inteligence přináší nástroje, které mají značný potenciál usnadnit a obohatit výzkum v oborech historických a jim příbuzných věd. Předpokladem pro jejich efektivní uplatnění je však co nejdokonalejší převod analogových historických pramenů do strojově čitelné podoby, aby vyhledávání, třídění a vytěžování informací v nich obsažených bylo stejně účinné jako v digitálně „zrozených” (born digital) zdrojích. Autoři v této studii nejprve rekapitulují vývoj digitálních knihoven a zpřístupňování výsledků digitalizace v České republice, přičemž si všímají rozdílných strategií a technologických zázemí knihoven a archivů. Zamýšlejí se nad limity fulltextového vyhledávání a poukazují na překvapivý systémový deficit současných digitálních knihoven spočívající v absenci diagnostiky kvality strojového přepisu provedeného programy pro optické rozpoznávání znaků (Optical Recognition Character – OCR). Zvláštní pozornost pak věnují představení parametrů a možností Digitální studovny Ministerstva obrany ČR (DSMO), jež funguje na bázi systému digitální knihovny Kramerius. Díky své roli agregátora digitalizační produkce paměťových institucí resortu Ministerstva obrany ČR studovna zpřístupňuje zároveň knihovní dokumenty i digitalizované předlohy z archivních fondů a muzejních sbírek. Na modelovém příkladu tištěného úředního periodika z doby první světové války je představen proces dodatečného vylepšení výsledků OCR pomocí nástroje pokročilé extrakce a rozpoznávání obsahu (PERO) OCR, jež zachycuje rozložení grafických a textových objektů (Analyzed Layout and Text Objects – ALTO) a umožňuje přesnou lokalizaci hledaného textu na digitalizovaném obrazu. S využitím tohoto programu lze získat mnohem efektivněji a ve znatelně vyšší kvalitě textový obsah nejen tištěných či strojopisných, ale dokonce i rukopisných textů. Údaje ve schématu ALTO by navíc bylo možné využít i k automatickému monitoringu kvality výsledků OCR. Tento postup by znatelně zvýšil využitelnost sémantického vyhledávání, strojového překladu, sumarizace a mnoha dalších nástrojů umělé inteligence, které plné nasazení v prostředí českých digitálních knihoven teprve čeká.
Czech name
Digitální studovna Ministerstva obrany ČR / Využití technologií na pokročilou indexaci historických dokumentů
Czech description
Vývoj v oblasti informačních technologií a umělé inteligence přináší nástroje, které mají značný potenciál usnadnit a obohatit výzkum v oborech historických a jim příbuzných věd. Předpokladem pro jejich efektivní uplatnění je však co nejdokonalejší převod analogových historických pramenů do strojově čitelné podoby, aby vyhledávání, třídění a vytěžování informací v nich obsažených bylo stejně účinné jako v digitálně „zrozených” (born digital) zdrojích. Autoři v této studii nejprve rekapitulují vývoj digitálních knihoven a zpřístupňování výsledků digitalizace v České republice, přičemž si všímají rozdílných strategií a technologických zázemí knihoven a archivů. Zamýšlejí se nad limity fulltextového vyhledávání a poukazují na překvapivý systémový deficit současných digitálních knihoven spočívající v absenci diagnostiky kvality strojového přepisu provedeného programy pro optické rozpoznávání znaků (Optical Recognition Character – OCR). Zvláštní pozornost pak věnují představení parametrů a možností Digitální studovny Ministerstva obrany ČR (DSMO), jež funguje na bázi systému digitální knihovny Kramerius. Díky své roli agregátora digitalizační produkce paměťových institucí resortu Ministerstva obrany ČR studovna zpřístupňuje zároveň knihovní dokumenty i digitalizované předlohy z archivních fondů a muzejních sbírek. Na modelovém příkladu tištěného úředního periodika z doby první světové války je představen proces dodatečného vylepšení výsledků OCR pomocí nástroje pokročilé extrakce a rozpoznávání obsahu (PERO) OCR, jež zachycuje rozložení grafických a textových objektů (Analyzed Layout and Text Objects – ALTO) a umožňuje přesnou lokalizaci hledaného textu na digitalizovaném obrazu. S využitím tohoto programu lze získat mnohem efektivněji a ve znatelně vyšší kvalitě textový obsah nejen tištěných či strojopisných, ale dokonce i rukopisných textů. Údaje ve schématu ALTO by navíc bylo možné využít i k automatickému monitoringu kvality výsledků OCR. Tento postup by znatelně zvýšil využitelnost sémantického vyhledávání, strojového překladu, sumarizace a mnoha dalších nástrojů umělé inteligence, které plné nasazení v prostředí českých digitálních knihoven teprve čeká.
Classification
Type
J<sub>SC</sub> - Article in a specialist periodical, which is included in the SCOPUS database
CEP classification
—
OECD FORD branch
60101 - History (history of science and technology to be 6.3, history of specific sciences to be under the respective headings)
Result continuities
Project
<a href="/en/project/DH23P03OVV054" target="_blank" >DH23P03OVV054: Serving the homeland as a source of national identity. Identification, documentation and presentation of historical sources for the institute of compulsory military service in the Czech lands (1868–2004)</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2024
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Name of the periodical
Soudobé dějiny
ISSN
1210-7050
e-ISSN
—
Volume of the periodical
31
Issue of the periodical within the volume
2
Country of publishing house
CZ - CZECH REPUBLIC
Number of pages
21
Pages from-to
447-467
UT code for WoS article
—
EID of the result in the Scopus database
2-s2.0-85215768238