Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti
Veřejná podpora
Poskytovatel
Ministerstvo kultury
Program
Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)
Veřejná soutěž
NAKI II 2 (SMK02018DG002)
Hlavní účastníci
Vysoké učení technické v Brně / Fakulta informačních technologií
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
55/2018/OVV
Alternativní jazyk
Název projektu anglicky
Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability
Anotace anglicky
The project aims to create technology and tools which would improve accessibility of digitized historic documents. These tools, based on state of the art methods from computer vision, machine learning and language modeling, will enable existing digital archives and libraries to provide full-text search and content extraction for low quality historic printed and all hand written documents - which can not be automatically processed by the currently available tools. The project extends automation and capabilities of digitization pipeline by providing tools for automated quality assessment and control, quality improvement, automated text transcription of historic printed documents, semi-automated hand written text transcription, and automatic extraction of semantic information from semi-structured documents (e.g. library catalogs and birth records). The created tools and techniques will be validated by processing selected collections of digitized materials and by a pilot operation by cooperation with Moravian Library.
Vědní obory
Kategorie VaV
VV - Experimentální vývoj
OECD FORD - hlavní obor
60401 - Arts, Art history
OECD FORD - vedlejší obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AF - Dokumentace, knihovnictví, práce s informacemi<br>AL - Umění, architektura, kulturní dědictví<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Cílem projektu bylo vytvoření nástrojů a technologií pro kvalitní extrakci textového obsahu z digitalizovaných historických dokumentů s využitím aktuálního vývoje v oblasti počítačového vidění, strojového učení a jazykového modelování. Všech cílů projektu bylo dosaženo. Funkčnost nástrojů byla ověřena poloprovozem v digitalizační lince MZK. Vyvinuté nástroje významně posunuly kvalitu rozpoznávání obsahu tištěných a rukou psaných digitalizátů. Projekt je hodnocen jako vynikající s výsledky s mezinárodním významem z toho důvodu, že již v průběhu projektu vyvinuté softwarové nástroje začali využívat i zahraniční uživatelé (akademická a univerzitní pracoviště).
Termíny řešení
Zahájení řešení
1. 3. 2018
Ukončení řešení
31. 12. 2022
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
1. 2. 2022
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP23-MK0-DG-U
Datum dodání záznamu
6. 6. 2023
Finance
Celkové uznané náklady
25 205 tis. Kč
Výše podpory ze státního rozpočtu
25 205 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč