Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Nástroj pro semiautomatickou analýzu plných textů s cílem heuristického vytváření nových metadat

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00023221%3A_____%2F24%3AN0000012" target="_blank" >RIV/00023221:_____/24:N0000012 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Nástroj pro semiautomatickou analýzu plných textů s cílem heuristického vytváření nových metadat

  • Popis výsledku v původním jazyce

    Cílem prací bylo generování popisných metadat pro digitalizáty agregované v Manuscriptoriu pomocí umělé inteligence (AI). Klíčová slova, indikátory a popisné informace vytvořené pomocí AI obohacují obsah agregovaný v Manuscriptoriu, což vede ke zlepšení třídění a vyhledávání těchto historických dokumentů. Zároveň umožnují implementaci nových funkcí v koncovém uživatelském rozhraní, které zkvalitňují user-experience. Součástí realizace byl návrh a zavedení nových procesů do zpracování dat i vývoj nových a úpravy existujících softwarových nástrojů, z nichž některé jsou zveřejněny jako open source pro použití v dalších paměťových institucích. Pro potřeby demonstrace možného využití ve prospěch koncových uživatelů jsme zpracovali 160 rukopisů české provenience ze sbírek Národní knihovny České republiky. Připravili jsme tři různé úlohy - odvozování klíčových slov z TEI P5 XML vstupů v českém a anglickém jazyce (kategorie record), vytvoření souhrnu o dokumentu v českém a anglickém jazyce (kategorie record), vytvoření indikátorů určujících, jaký typ obsahu může uživatel najít v digitalizovaném dokumentu (kategorie canvases).

  • Název v anglickém jazyce

    Tool for Semi-automatic Analysis of Full Texts to Heuristically Create New Metadata

  • Popis výsledku anglicky

    The aim of the work was to generate descriptive metadata for digitized data aggregated in Manuscriptorium using artificial intelligence (AI). The keywords, indicators and descriptive information generated by AI enrich the content aggregated in Manuscriptorio, leading to improved sorting and retrieval of these historical documents. They also allow the implementation of new features in the end-user interface that improve the user-experience. The implementation included the design and implementation of new processes in data processing as well as the development of new and modifications to existing software tools, some of which are published as open source for use in other memory institutions. For the purpose of demonstrating the possible use for the benefit of end users, we processed 160 manuscripts of Czech provenance from the collections of the National Library of the Czech Republic. We prepared three different tasks - deriving keywords from TEI P5 XML inputs in Czech and English (category record), creating a summary about the document in Czech and English (category record), creating indicators determining what type of content the user can find in the digitized document (category canvases).

Klasifikace

  • Druh

    Z<sub>polop</sub> - Poloprovoz

  • CEP obor

  • OECD FORD obor

    60500 - Other Humanities and the Arts

Návaznosti výsledku

  • Projekt

  • Návaznosti

    I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

  • Rok uplatnění

    2024

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    Oblast 4-01

  • Číselná identifikace

  • Technické parametry

    Využití umělé inteligence pro generování klíčových slov a popisů na vybraném vzorku dat a metadat, tzn. pro obrazy i metadata. Dokumentace volně k dispozici na:https://new.manuscriptorium.com/dkrvo-2024-ai/

  • Ekonomické parametry

    Navržený inovativní přístup vytváří příležitost pro mimořádně efektivní práci s obsahem, zejména pro heuristiku. Volně dostupné řešení je ekonomicky výhodné pro všechny uživatele z řad vědeckých pracovníků a odborné veřejnosti, jelikož nemusí vynakládat prostředky na jejich licencování.

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    00023221

  • Název vlastníka

    Národní knihovna České republiky

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    N - Využití výsledku jiným subjektem je možné bez nabytí licence (výsledek není licencován)

  • Požadavek na licenční poplatek

    N - Poskytovatel licence na výsledek nepožaduje licenční poplatek

  • Adresa www stránky s výsledkem