semANT - Semantic Document Exploration
Public support
Provider
Ministry of Culture
Programme
—
Call for proposals
SMK02023DH001
Main participants
Vysoké učení technické v Brně / Fakulta informačních technologií
Contest type
VS - Public tender
Contract ID
060/2023/OVV
Alternative language
Project name in Czech
semANT – Sémantický průzkumník textového kulturního dědictví
Annotation in Czech
Fondy českých knihoven a archivů obsahují obrovské množství digitalizovaných dokumentů. Možnosti jejich online prezentace a vyhledávání se v posledních letech výrazně zlepšují. Velká část digitalizovaných tištěných dokumentů je již zpracována pomocí OCR, a je tedy fulltextově dohledatelná. Již také existují nástroje pro automatický přepis starých tisků i ručně psaných dokumentů a jejich kompletní zpracování je nyní jen otázkou času. Samotné fulltextové vyhledávání, které se v knihovních systémech využívá, je ovšem nejjednodušší možné. Dokáže většinou vyhledat různé tvary slova, ale neumí pracovat s významem. Najít dokumenty k určitému tématu je tedy velmi pracné. Oproti tomu i současné webové vyhledávače s významy slov pracují a umožňují tak najít texty, které sice neobsahují přesný hledaný výraz, ale obecněji hledanému tématu odpovídají. Hlavním cílem tohoto projektu je proto zlepšit možnosti vyhledávání ve fulltextové reprezentaci digitalizovaných dokumentů na úrovni významu textu a zlepšit možnosti přirozené navigace mezi tematicky podobnými dokumenty. Uživatelům poskytneme fulltextové vyhledávání rozšířené o pochopení významu dotazů, možnost vyhledávat podle částí textu (například odstavců) s možností současně specifikovat téma, které ho v daném textu zajímá. Systém bude pracovat s automaticky identifikovanými tématy, ale umožní uživatelům definovat vlastní témata na základě příkladů z textů. Schopnosti identifikace témat v textech v projektu využijeme rovněž pro přehledové vizualizace frekvence výskytů témat a jejich vzájemné interakce. Bude tak možné sledovat vývoj témat v čase, jejich návaznost a proměny či jejich propojení se známými pojmenovanými entitami jako jsou místa a osoby. Výsledky projektu bude využívat jednak laická veřejnost při rutinní práci s knihovními systémy, jednak vědecká komunita pro kvalitnější analýzu textových dat. Zároveň doufáme, že části projektu najdou uplatnění v softwaru pro mediální analýzu současných médií a sociálních sítí.
Scientific branches
R&D category
VV - Exeperimental development
OECD FORD - main branch
60500 - Other Humanities and the Arts
OECD FORD - secondary branch
20202 - Communication engineering and systems
OECD FORD - another secondary branch
—
CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
JW - Navigation, connection, detection and countermeasure
Solution timeline
Realization period - beginning
Mar 1, 2023
Realization period - end
Dec 31, 2027
Project status
B - Running multi-year project
Latest support payment
Mar 16, 2023
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP24-MK0-DH-R
Data delivery date
Feb 19, 2024
Finance
Total approved costs
27,462 thou. CZK
Public financial support
27,462 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK