All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability

Public support

  • Provider

    Ministry of Culture

  • Programme

    Programme for the Support of Applied Research and Exp. Development of National and Cultural Identity dor the Years 2016-2022 (in short, "NAKI II")

  • Call for proposals

    NAKI II 2 (SMK02018DG002)

  • Main participants

    Vysoké učení technické v Brně / Fakulta informačních technologií

  • Contest type

    VS - Public tender

  • Contract ID

    55/2018/OVV

Alternative language

  • Project name in Czech

    Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti

  • Annotation in Czech

    Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.

Scientific branches

  • R&D category

    VV - Exeperimental development

  • OECD FORD - main branch

    60401 - Arts, Art history

  • OECD FORD - secondary branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - another secondary branch

  • CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)

    AF - Documentation, librarianship, work with information<br>AL - Art, architecture, cultural heritage<br>BC - Theory and management systems<br>BD - Information theory<br>IN - Informatics

Completed project evaluation

  • Provider evaluation

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Project results evaluation

    The project aimed to develop tools for extracting textual content from digitized historical documents using computer vision, machine learning, and language modeling. The objectives were successfully achieved with the development of software for detecting and correcting digitization flaws, measuring image quality, recognizing text in old prints, and extracting information from semi-structured text. The project also introduced the Gfunk scanning device for damaged documents. The tools were validated in a semi-production environment at the Moravian Library and greatly improved the quality of content recognition in digitized documents. The project received an excellent evaluation with internationally significant results, as the software tools have been adopted by foreign users, including academic and university institutions.

Solution timeline

  • Realization period - beginning

    Mar 1, 2018

  • Realization period - end

    Dec 31, 2022

  • Project status

    U - Finished project

  • Latest support payment

    Feb 1, 2022

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP23-MK0-DG-U

  • Data delivery date

    Jun 6, 2023

Finance

  • Total approved costs

    25,205 thou. CZK

  • Public financial support

    25,205 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK