Nástroj pro semiautomatickou analýzu plných textů s cílem heuristického vytváření nových metadat
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00023221%3A_____%2F24%3AN0000012" target="_blank" >RIV/00023221:_____/24:N0000012 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Nástroj pro semiautomatickou analýzu plných textů s cílem heuristického vytváření nových metadat
Popis výsledku v původním jazyce
Cílem prací bylo generování popisných metadat pro digitalizáty agregované v Manuscriptoriu pomocí umělé inteligence (AI). Klíčová slova, indikátory a popisné informace vytvořené pomocí AI obohacují obsah agregovaný v Manuscriptoriu, což vede ke zlepšení třídění a vyhledávání těchto historických dokumentů. Zároveň umožnují implementaci nových funkcí v koncovém uživatelském rozhraní, které zkvalitňují user-experience. Součástí realizace byl návrh a zavedení nových procesů do zpracování dat i vývoj nových a úpravy existujících softwarových nástrojů, z nichž některé jsou zveřejněny jako open source pro použití v dalších paměťových institucích. Pro potřeby demonstrace možného využití ve prospěch koncových uživatelů jsme zpracovali 160 rukopisů české provenience ze sbírek Národní knihovny České republiky. Připravili jsme tři různé úlohy - odvozování klíčových slov z TEI P5 XML vstupů v českém a anglickém jazyce (kategorie record), vytvoření souhrnu o dokumentu v českém a anglickém jazyce (kategorie record), vytvoření indikátorů určujících, jaký typ obsahu může uživatel najít v digitalizovaném dokumentu (kategorie canvases).
Název v anglickém jazyce
Tool for Semi-automatic Analysis of Full Texts to Heuristically Create New Metadata
Popis výsledku anglicky
The aim of the work was to generate descriptive metadata for digitized data aggregated in Manuscriptorium using artificial intelligence (AI). The keywords, indicators and descriptive information generated by AI enrich the content aggregated in Manuscriptorio, leading to improved sorting and retrieval of these historical documents. They also allow the implementation of new features in the end-user interface that improve the user-experience. The implementation included the design and implementation of new processes in data processing as well as the development of new and modifications to existing software tools, some of which are published as open source for use in other memory institutions. For the purpose of demonstrating the possible use for the benefit of end users, we processed 160 manuscripts of Czech provenance from the collections of the National Library of the Czech Republic. We prepared three different tasks - deriving keywords from TEI P5 XML inputs in Czech and English (category record), creating a summary about the document in Czech and English (category record), creating indicators determining what type of content the user can find in the digitized document (category canvases).
Klasifikace
Druh
Z<sub>polop</sub> - Poloprovoz
CEP obor
—
OECD FORD obor
60500 - Other Humanities and the Arts
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
Oblast 4-01
Číselná identifikace
—
Technické parametry
Využití umělé inteligence pro generování klíčových slov a popisů na vybraném vzorku dat a metadat, tzn. pro obrazy i metadata. Dokumentace volně k dispozici na:https://new.manuscriptorium.com/dkrvo-2024-ai/
Ekonomické parametry
Navržený inovativní přístup vytváří příležitost pro mimořádně efektivní práci s obsahem, zejména pro heuristiku. Volně dostupné řešení je ekonomicky výhodné pro všechny uživatele z řad vědeckých pracovníků a odborné veřejnosti, jelikož nemusí vynakládat prostředky na jejich licencování.
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
00023221
Název vlastníka
Národní knihovna České republiky
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
N - Využití výsledku jiným subjektem je možné bez nabytí licence (výsledek není licencován)
Požadavek na licenční poplatek
N - Poskytovatel licence na výsledek nepožaduje licenční poplatek
Adresa www stránky s výsledkem
—