Tool for Semi-automatic Analysis of Full Texts to Heuristically Create New Metadata
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00023221%3A_____%2F24%3AN0000012" target="_blank" >RIV/00023221:_____/24:N0000012 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Nástroj pro semiautomatickou analýzu plných textů s cílem heuristického vytváření nových metadat
Original language description
Cílem prací bylo generování popisných metadat pro digitalizáty agregované v Manuscriptoriu pomocí umělé inteligence (AI). Klíčová slova, indikátory a popisné informace vytvořené pomocí AI obohacují obsah agregovaný v Manuscriptoriu, což vede ke zlepšení třídění a vyhledávání těchto historických dokumentů. Zároveň umožnují implementaci nových funkcí v koncovém uživatelském rozhraní, které zkvalitňují user-experience. Součástí realizace byl návrh a zavedení nových procesů do zpracování dat i vývoj nových a úpravy existujících softwarových nástrojů, z nichž některé jsou zveřejněny jako open source pro použití v dalších paměťových institucích. Pro potřeby demonstrace možného využití ve prospěch koncových uživatelů jsme zpracovali 160 rukopisů české provenience ze sbírek Národní knihovny České republiky. Připravili jsme tři různé úlohy - odvozování klíčových slov z TEI P5 XML vstupů v českém a anglickém jazyce (kategorie record), vytvoření souhrnu o dokumentu v českém a anglickém jazyce (kategorie record), vytvoření indikátorů určujících, jaký typ obsahu může uživatel najít v digitalizovaném dokumentu (kategorie canvases).
Czech name
Nástroj pro semiautomatickou analýzu plných textů s cílem heuristického vytváření nových metadat
Czech description
—
Classification
Type
Z<sub>polop</sub> - Pilot plant
CEP classification
—
OECD FORD branch
60500 - Other Humanities and the Arts
Result continuities
Project
—
Continuities
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Others
Publication year
2024
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
Oblast 4-01
Numerical identification
—
Technical parameters
Využití umělé inteligence pro generování klíčových slov a popisů na vybraném vzorku dat a metadat, tzn. pro obrazy i metadata. Dokumentace volně k dispozici na:https://new.manuscriptorium.com/dkrvo-2024-ai/
Economical parameters
Navržený inovativní přístup vytváří příležitost pro mimořádně efektivní práci s obsahem, zejména pro heuristiku. Volně dostupné řešení je ekonomicky výhodné pro všechny uživatele z řad vědeckých pracovníků a odborné veřejnosti, jelikož nemusí vynakládat prostředky na jejich licencování.
Application category by cost
—
Owner IČO
00023221
Owner name
Národní knihovna České republiky
Owner country
CZ - CZECH REPUBLIC
Usage type
N - Využití výsledku jiným subjektem je možné bez nabytí licence (výsledek není licencován)
Licence fee requirement
N - Poskytovatel licence na výsledek nepožaduje licenční poplatek
Web page
—