Timelines – funkční vzorek algoritmů vytvářející automatizovaná shrnutí zpravodajských textů pro účely ekosystému iRozhlas
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F24%3A00382012" target="_blank" >RIV/68407700:21230/24:00382012 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Timelines – funkční vzorek algoritmů vytvářející automatizovaná shrnutí zpravodajských textů pro účely ekosystému iRozhlas
Popis výsledku v původním jazyce
Funkční vzorek software slouží k sumarizaci novinářských textů prostřednictvím tvorby interaktivní časové osy, která integruje události ze všech dokumentů vztahujících se k dané kauze. Nástroj je založen na kvalitně označených článcích z archivu ČRo a využívá jazykových modelů k extrakci a zpracování informací. Výsledky jsou zobrazeny na HTML stránce pro snadnou vizualizaci.
Název v anglickém jazyce
Timelines - a functional sample of algorithms that create automated summaries of news texts for the purposes of the iRadio ecosystem
Popis výsledku anglicky
Functional sample software used to summarize journalistic texts by creating an interactive timeline that integrates events from all documents related to a given case. The tool is based on well-tagged articles from the CRo archive and uses language models to extract and process information. The results are displayed on an HTML page for easy visualization.
Klasifikace
Druh
G<sub>funk</sub> - Funkční vzorek
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/TQ01000100" target="_blank" >TQ01000100: Newsroom AI: veřejná služba v éře automatizované žurnalistiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
TQ01000100-V2
Číselná identifikace
TQ01000100-V2
Technické parametry
Funkční vzorek software pro sumarizace s časovou osou obsahuje následující funkce a workflow: 1. Výběr dokumentů: Výběr relevantních článků na základě značek. 2. Extrakce událostí: Události jsou reprezentovány jako krátké texty popisující atomické fakty včetně kontextu (jména osob, organizací, lokalit, časová určení). 3. Časová platnost: Události jsou řazeny na časovou osu podle data jejich platnosti. 4. Role aktérů: Identifikace osob, jejich rolí a případně dalších atributů (organizace, místa). 5. Deduplikace: Spojení a eliminace duplicitních událostí a informací. 6. Clustering: Sémantické shlukování událostí pro snadnější orientaci. 7. Vizualizace: Vytvoření interaktivní HTML stránky umožňující prohlížení časové osy. Použité technologie: Výpočetní modul: Velké jazykové modely (CohereAI Command R+, Llama) pro extrakci událostí, deduplikaci pomocí vektorových reprezentací (embeddingů) a heuristik. Vizualizační modul: Interaktivní vizualizace pomocí TypeScriptu, Reactu a knihoven jako Ant Design a Bootstrap. Infrastruktura: Python s využitím knihoven Hugging Face Transformers a vLLM.
Ekonomické parametry
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 8 000,- Kč na měsíc, nebo 60 000,- Kč za rok. Cena vychází z nákladů na realizaci, plus přiměřená marže a návratnost.
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
68407700
Název vlastníka
České vysoké učení technické v Praze
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
V - Výsledek je využíván vlastníkem
Požadavek na licenční poplatek
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Adresa www stránky s výsledkem
—