Timelines - a functional sample of algorithms that create automated summaries of news texts for the purposes of the iRadio ecosystem
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F24%3A00382012" target="_blank" >RIV/68407700:21230/24:00382012 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Timelines – funkční vzorek algoritmů vytvářející automatizovaná shrnutí zpravodajských textů pro účely ekosystému iRozhlas
Original language description
Funkční vzorek software slouží k sumarizaci novinářských textů prostřednictvím tvorby interaktivní časové osy, která integruje události ze všech dokumentů vztahujících se k dané kauze. Nástroj je založen na kvalitně označených článcích z archivu ČRo a využívá jazykových modelů k extrakci a zpracování informací. Výsledky jsou zobrazeny na HTML stránce pro snadnou vizualizaci.
Czech name
Timelines – funkční vzorek algoritmů vytvářející automatizovaná shrnutí zpravodajských textů pro účely ekosystému iRozhlas
Czech description
Funkční vzorek software slouží k sumarizaci novinářských textů prostřednictvím tvorby interaktivní časové osy, která integruje události ze všech dokumentů vztahujících se k dané kauze. Nástroj je založen na kvalitně označených článcích z archivu ČRo a využívá jazykových modelů k extrakci a zpracování informací. Výsledky jsou zobrazeny na HTML stránce pro snadnou vizualizaci.
Classification
Type
G<sub>funk</sub> - Functional sample
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Result continuities
Project
<a href="/en/project/TQ01000100" target="_blank" >TQ01000100: Newsroom AI: public service in the era of automated journalism</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2024
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
TQ01000100-V2
Numerical identification
TQ01000100-V2
Technical parameters
Funkční vzorek software pro sumarizace s časovou osou obsahuje následující funkce a workflow: 1. Výběr dokumentů: Výběr relevantních článků na základě značek. 2. Extrakce událostí: Události jsou reprezentovány jako krátké texty popisující atomické fakty včetně kontextu (jména osob, organizací, lokalit, časová určení). 3. Časová platnost: Události jsou řazeny na časovou osu podle data jejich platnosti. 4. Role aktérů: Identifikace osob, jejich rolí a případně dalších atributů (organizace, místa). 5. Deduplikace: Spojení a eliminace duplicitních událostí a informací. 6. Clustering: Sémantické shlukování událostí pro snadnější orientaci. 7. Vizualizace: Vytvoření interaktivní HTML stránky umožňující prohlížení časové osy. Použité technologie: Výpočetní modul: Velké jazykové modely (CohereAI Command R+, Llama) pro extrakci událostí, deduplikaci pomocí vektorových reprezentací (embeddingů) a heuristik. Vizualizační modul: Interaktivní vizualizace pomocí TypeScriptu, Reactu a knihoven jako Ant Design a Bootstrap. Infrastruktura: Python s využitím knihoven Hugging Face Transformers a vLLM.
Economical parameters
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 8 000,- Kč na měsíc, nebo 60 000,- Kč za rok. Cena vychází z nákladů na realizaci, plus přiměřená marže a návratnost.
Application category by cost
—
Owner IČO
68407700
Owner name
České vysoké učení technické v Praze
Owner country
CZ - CZECH REPUBLIC
Usage type
V - Výsledek je využíván vlastníkem
Licence fee requirement
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Web page
—