Smart digilinka - strojové učení pro digitalizaci tištěného dědictví
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F67985971%3A_____%2F24%3A00603120" target="_blank" >RIV/67985971:_____/24:00603120 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00023221:_____/24:N0000037
Výsledek na webu
<a href="http://doi.org/10.52036/1335793X.2024.2.32-36" target="_blank" >http://doi.org/10.52036/1335793X.2024.2.32-36</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.52036/1335793X.2024.2.32-36" target="_blank" >10.52036/1335793X.2024.2.32-36</a>
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Smart digilinka - strojové učení pro digitalizaci tištěného dědictví
Popis výsledku v původním jazyce
Účel – Cílem projektu 'Smart digilinka – strojové učení pro digitalizaci tištěného dědictví' je vytvoření nástrojů pro automatizovanou tvorbu metadat digitalizovaných dokumentů – zejména knih a periodik. Článek popisuje tento projekt a jeho výstupy a také stručně popisuje vznik popisných metadat v procesu digitalizace knihovních fondů. Metoda – Metadata budou z obrazových souborů extrahována pomocí nástrojů strojového učení a výsledky budou upravovány prostřednictvím zpětné vazby, kterou poskytnou uživatelé, což jsou v tomto případě pracovníci knihoven, kteří vytvářejí metadata k digitalizovaným dokumentům. Výsledky – Výsledky projektu budou tři nástroje a dvě metodiky. Nástroj Exposea slouží k automatickému vyrovnání předloh, což usnadní manipulaci s velkými, fyzicky poškozenými předlohami. Nástroj Metakat umožňuje vytvářet automatizované metadatové popisy jednotlivých stran digitalizovaných dokumentů a také analytických úrovní dokumentu (kapitoly pro monografie a články pro periodika). Pro trénování systému automatické extrakce metadat byly vytvořeny sady ručně anotovaných stran a kapitol, na nichž by se mohl systém učit extrahovat metadata. Navazující nástroj Metacheck dokáže vytvářet a odesílat zpětnou vazbu pro zlepšení kvality vytvořených metadat. Dalšími dvěma výstupy projektu jsou Metodika scelování po částech skenovaných předloh a Metodika kontroly kvality v digitalizační lince. Celkovým výsledkem je Smart Digilinka, která představuje kombinaci všech nástrojů, implementovanou formou poloprovozu na digitalizačním pracovišti, které využívá systém ProArc. Originalita/hodnota – Projekt Smart Digilinka umožní významně zrychlit a obohatit proces vytváření metadat k digitalizovaným dokumentům, čímž se také zkrátí doba jejich digitalizace a doba, za kterou se mohou dostat k uživatelům.
Název v anglickém jazyce
Smart digiline - machine learning for digitization of printed heritage
Popis výsledku anglicky
Purpose – The goal of the project 'Smart digiline - machine learning for the digitization of printed heritage' is the creation of tools for the automated creation of metadata of digitized documents - especially books and periodicals. The article describes this project and its outputs and also briefly describes the creation of descriptive metadata in the process of digitizing library collections. Method – Metadata will be extracted from the image files using machine learning tools and the results will be modified through the feedback provided by the users, which in this case are the library staff who create the metadata for the digitized documents.Results – The results of the project will be three tools and two methodologies. The Exposea tool is used for automatic leveling of originals, which will facilitate the handling of large, physically damaged originals. The Metakat tool makes it possible to create automated metadata descriptions of individual pages of digitized documents as well as analytical levels of the document (chapters for monographs and articles for periodicals). To train the automatic metadata extraction system, sets of manually annotated pages and chapters were created on which the system could learn to extract metadata. The follow-up tool Metacheck can create and send feedback to improve the quality of the created metadata. The other two outputs of the project are the Methodology for consolidating parts of scanned originals and the Methodology for quality control in the digitization line. The overall result is Smart Digiline, which represents a combination of all tools, implemented in a semi-operational form at a digitization workplace that uses the ProArc system. Originality/value – The Smart Digiline project will make it possible to significantly speed up and enrich the process of creating metadata for digitized documents, which will also shorten the time of their digitization and the time it takes for them to reach users.
Klasifikace
Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
50804 - Library science
Návaznosti výsledku
Projekt
<a href="/cs/project/DH23P03OVV066" target="_blank" >DH23P03OVV066: Smart digilinka – strojové učení pro digitalizaci tištěného dědictví</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
IT lib
ISSN
1335-793X
e-ISSN
1336-0779
Svazek periodika
2024
Číslo periodika v rámci svazku
2
Stát vydavatele periodika
SK - Slovenská republika
Počet stran výsledku
5
Strana od-do
—
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—