All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

The Digital Reading Room of the Ministry of Defence of the Czech Republic / Using Technology for Advanced Indexing of Historical Documents

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378114%3A_____%2F24%3A00599817" target="_blank" >RIV/68378114:_____/24:00599817 - isvavai.cz</a>

  • Result on the web

    <a href="https://sd.usd.cas.cz/pdfs/sod/2024/02/05.pdf" target="_blank" >https://sd.usd.cas.cz/pdfs/sod/2024/02/05.pdf</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.51134/sod.2024.027" target="_blank" >10.51134/sod.2024.027</a>

Alternative languages

  • Result language

    čeština

  • Original language name

    Digitální studovna Ministerstva obrany ČR / Využití technologií na pokročilou indexaci historických dokumentů

  • Original language description

    Vývoj v oblasti informačních technologií a umělé inteligence přináší nástroje, které mají značný potenciál usnadnit a obohatit výzkum v oborech historických a jim příbuzných věd. Předpokladem pro jejich efektivní uplatnění je však co nejdokonalejší převod analogových historických pramenů do strojově čitelné podoby, aby vyhledávání, třídění a vytěžování informací v nich obsažených bylo stejně účinné jako v digitálně „zrozených” (born digital) zdrojích. Autoři v této studii nejprve rekapitulují vývoj digitálních knihoven a zpřístupňování výsledků digitalizace v České republice, přičemž si všímají rozdílných strategií a technologických zázemí knihoven a archivů. Zamýšlejí se nad limity fulltextového vyhledávání a poukazují na překvapivý systémový deficit současných digitálních knihoven spočívající v absenci diagnostiky kvality strojového přepisu provedeného programy pro optické rozpoznávání znaků (Optical Recognition Character – OCR). Zvláštní pozornost pak věnují představení parametrů a možností Digitální studovny Ministerstva obrany ČR (DSMO), jež funguje na bázi systému digitální knihovny Kramerius. Díky své roli agregátora digitalizační produkce paměťových institucí resortu Ministerstva obrany ČR studovna zpřístupňuje zároveň knihovní dokumenty i digitalizované předlohy z archivních fondů a muzejních sbírek. Na modelovém příkladu tištěného úředního periodika z doby první světové války je představen proces dodatečného vylepšení výsledků OCR pomocí nástroje pokročilé extrakce a rozpoznávání obsahu (PERO) OCR, jež zachycuje rozložení grafických a textových objektů (Analyzed Layout and Text Objects – ALTO) a umožňuje přesnou lokalizaci hledaného textu na digitalizovaném obrazu. S využitím tohoto programu lze získat mnohem efektivněji a ve znatelně vyšší kvalitě textový obsah nejen tištěných či strojopisných, ale dokonce i rukopisných textů. Údaje ve schématu ALTO by navíc bylo možné využít i k automatickému monitoringu kvality výsledků OCR. Tento postup by znatelně zvýšil využitelnost sémantického vyhledávání, strojového překladu, sumarizace a mnoha dalších nástrojů umělé inteligence, které plné nasazení v prostředí českých digitálních knihoven teprve čeká.

  • Czech name

    Digitální studovna Ministerstva obrany ČR / Využití technologií na pokročilou indexaci historických dokumentů

  • Czech description

    Vývoj v oblasti informačních technologií a umělé inteligence přináší nástroje, které mají značný potenciál usnadnit a obohatit výzkum v oborech historických a jim příbuzných věd. Předpokladem pro jejich efektivní uplatnění je však co nejdokonalejší převod analogových historických pramenů do strojově čitelné podoby, aby vyhledávání, třídění a vytěžování informací v nich obsažených bylo stejně účinné jako v digitálně „zrozených” (born digital) zdrojích. Autoři v této studii nejprve rekapitulují vývoj digitálních knihoven a zpřístupňování výsledků digitalizace v České republice, přičemž si všímají rozdílných strategií a technologických zázemí knihoven a archivů. Zamýšlejí se nad limity fulltextového vyhledávání a poukazují na překvapivý systémový deficit současných digitálních knihoven spočívající v absenci diagnostiky kvality strojového přepisu provedeného programy pro optické rozpoznávání znaků (Optical Recognition Character – OCR). Zvláštní pozornost pak věnují představení parametrů a možností Digitální studovny Ministerstva obrany ČR (DSMO), jež funguje na bázi systému digitální knihovny Kramerius. Díky své roli agregátora digitalizační produkce paměťových institucí resortu Ministerstva obrany ČR studovna zpřístupňuje zároveň knihovní dokumenty i digitalizované předlohy z archivních fondů a muzejních sbírek. Na modelovém příkladu tištěného úředního periodika z doby první světové války je představen proces dodatečného vylepšení výsledků OCR pomocí nástroje pokročilé extrakce a rozpoznávání obsahu (PERO) OCR, jež zachycuje rozložení grafických a textových objektů (Analyzed Layout and Text Objects – ALTO) a umožňuje přesnou lokalizaci hledaného textu na digitalizovaném obrazu. S využitím tohoto programu lze získat mnohem efektivněji a ve znatelně vyšší kvalitě textový obsah nejen tištěných či strojopisných, ale dokonce i rukopisných textů. Údaje ve schématu ALTO by navíc bylo možné využít i k automatickému monitoringu kvality výsledků OCR. Tento postup by znatelně zvýšil využitelnost sémantického vyhledávání, strojového překladu, sumarizace a mnoha dalších nástrojů umělé inteligence, které plné nasazení v prostředí českých digitálních knihoven teprve čeká.

Classification

  • Type

    J<sub>SC</sub> - Article in a specialist periodical, which is included in the SCOPUS database

  • CEP classification

  • OECD FORD branch

    60101 - History (history of science and technology to be 6.3, history of specific sciences to be under the respective headings)

Result continuities

  • Project

    <a href="/en/project/DH23P03OVV054" target="_blank" >DH23P03OVV054: Serving the homeland as a source of national identity. Identification, documentation and presentation of historical sources for the institute of compulsory military service in the Czech lands (1868–2004)</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2024

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Name of the periodical

    Soudobé dějiny

  • ISSN

    1210-7050

  • e-ISSN

  • Volume of the periodical

    31

  • Issue of the periodical within the volume

    2

  • Country of publishing house

    CZ - CZECH REPUBLIC

  • Number of pages

    21

  • Pages from-to

    447-467

  • UT code for WoS article

  • EID of the result in the Scopus database

    2-s2.0-85215768238