Softwarový modul pro automatickou detekci tematických klastrů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21240%2F24%3A00381854" target="_blank" >RIV/68407700:21240/24:00381854 - isvavai.cz</a>
Výsledek na webu
<a href="https://gitlab.fit.cvut.cz/tacr_ucl/data-labelling-app" target="_blank" >https://gitlab.fit.cvut.cz/tacr_ucl/data-labelling-app</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Softwarový modul pro automatickou detekci tematických klastrů
Popis výsledku v původním jazyce
Aplikace dovoluje anotování dat více uživateli, kteří mohou básním z Korpusu českého verše přiřazovat témata ze seznamu vytvořeném pracovníky UČL. V aplikaci jsou též dostupné automaticky generované reporty umožňující prohlížení nesupervizovaného rozdělení do témat pomocí modelu Top2Vec. Ten je aplikován pomocí skriptů v jazyce Python.
Název v anglickém jazyce
Software module for automatic topic modelling
Popis výsledku anglicky
The application allows annotation of data by multiple users, who can assign topics from a list created by the UČL staff to poems from the Corpus of Czech Verse. Automatically generated reports are also available in the application, allowing analyzing of the unsupervised topic clusters created using Top2Vec model. This model is applied using Python scripts.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
60206 - Specific literatures
Návaznosti výsledku
Projekt
<a href="/cs/project/TL05000288" target="_blank" >TL05000288: Analýza motivických klastrů z oblasti aktuálních kulturně-společenských témat a jejich aplikace na materiál uměleckých textů 19. a počátku 20. století</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
TACR-UCL-V2
Technické parametry
Jedná se o výsledek typu R - Software (Softwarový modul pro automatickou detekci tematických klastrů) s identifikačním číslem TL05000288-V2 projektu TAČR (TL05000288), řešitel projektu Ústav pro českou literaturu AV ČR, v. v. i. (IČO 68378068) je spoluvlastníkem (50 %).
Ekonomické parametry
Projekt je dostupný pro vybrané pracovníky FITu a UČL, zpracovávaný dataset Korpus českého verše je kompletně zveřejněn.
IČO vlastníka výsledku
68407700
Název vlastníka
České vysoké učení technické v Praze / Fakulta informačních technologií