Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability

Provider
Ministry of Culture
Programme
Programme for the Support of Applied Research and Exp. Development of National and Cultural Identity dor the Years 2016-2022 (in short, "NAKI II")
Call for proposals
NAKI II 2 (SMK02018DG002)
Main participants
Vysoké učení technické v Brně / Fakulta informačních technologií
Contest type
VS - Public tender
Contract ID
55/2018/OVV

Project name in Czech
Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti
Annotation in Czech
Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.

R&D category
VV - Exeperimental development
OECD FORD - main branch
60401 - Arts, Art history
OECD FORD - secondary branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - another secondary branch
—
CEP - equivalent branches (according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
AF - Documentation, librarianship, work with information AL - Art, architecture, cultural heritage BC - Theory and management systems BD - Information theory IN - Informatics

Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
The project aimed to develop tools for extracting textual content from digitized historical documents using computer vision, machine learning, and language modeling. The objectives were successfully achieved with the development of software for detecting and correcting digitization flaws, measuring image quality, recognizing text in old prints, and extracting information from semi-structured text. The project also introduced the Gfunk scanning device for damaged documents. The tools were validated in a semi-production environment at the Moravian Library and greatly improved the quality of content recognition in digitized documents. The project received an excellent evaluation with internationally significant results, as the software tools have been adopted by foreign users, including academic and university institutions.

Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP23-MK0-DG-U
Data delivery date
Jun 6, 2023

Similar projects(10)