All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

semANT - Semantic Document Exploration

Public support

  • Provider

    Ministry of Culture

  • Programme

  • Call for proposals

    SMK02023DH001

  • Main participants

    Vysoké učení technické v Brně / Fakulta informačních technologií

  • Contest type

    VS - Public tender

  • Contract ID

    060/2023/OVV

Alternative language

  • Project name in Czech

    semANT – Sémantický průzkumník textového kulturního dědictví

  • Annotation in Czech

    Fondy českých knihoven a archivů obsahují obrovské množství digitalizovaných dokumentů. Možnosti jejich online prezentace a vyhledávání se v posledních letech výrazně zlepšují. Velká část digitalizovaných tištěných dokumentů je již zpracována pomocí OCR, a je tedy fulltextově dohledatelná. Již také existují nástroje pro automatický přepis starých tisků i ručně psaných dokumentů a jejich kompletní zpracování je nyní jen otázkou času. Samotné fulltextové vyhledávání, které se v knihovních systémech využívá, je ovšem nejjednodušší možné. Dokáže většinou vyhledat různé tvary slova, ale neumí pracovat s významem. Najít dokumenty k určitému tématu je tedy velmi pracné. Oproti tomu i současné webové vyhledávače s významy slov pracují a umožňují tak najít texty, které sice neobsahují přesný hledaný výraz, ale obecněji hledanému tématu odpovídají. Hlavním cílem tohoto projektu je proto zlepšit možnosti vyhledávání ve fulltextové reprezentaci digitalizovaných dokumentů na úrovni významu textu a zlepšit možnosti přirozené navigace mezi tematicky podobnými dokumenty. Uživatelům poskytneme fulltextové vyhledávání rozšířené o pochopení významu dotazů, možnost vyhledávat podle částí textu (například odstavců) s možností současně specifikovat téma, které ho v daném textu zajímá. Systém bude pracovat s automaticky identifikovanými tématy, ale umožní uživatelům definovat vlastní témata na základě příkladů z textů. Schopnosti identifikace témat v textech v projektu využijeme rovněž pro přehledové vizualizace frekvence výskytů témat a jejich vzájemné interakce. Bude tak možné sledovat vývoj témat v čase, jejich návaznost a proměny či jejich propojení se známými pojmenovanými entitami jako jsou místa a osoby. Výsledky projektu bude využívat jednak laická veřejnost při rutinní práci s knihovními systémy, jednak vědecká komunita pro kvalitnější analýzu textových dat. Zároveň doufáme, že části projektu najdou uplatnění v softwaru pro mediální analýzu současných médií a sociálních sítí.

Scientific branches

  • R&D category

    VV - Exeperimental development

  • OECD FORD - main branch

    60500 - Other Humanities and the Arts

  • OECD FORD - secondary branch

    20202 - Communication engineering and systems

  • OECD FORD - another secondary branch

  • CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)

    JW - Navigation, connection, detection and countermeasure

Solution timeline

  • Realization period - beginning

    Mar 1, 2023

  • Realization period - end

    Dec 31, 2027

  • Project status

    Z - Beginning multi-year project

  • Latest support payment

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP23-MK0-DH-R

  • Data delivery date

    Mar 2, 2023

Finance

  • Total approved costs

    27,462 thou. CZK

  • Public financial support

    27,462 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK