Demonstration application of automatic news text generation and news content analysis
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47115068%3A_____%2F21%3AN0000001" target="_blank" >RIV/47115068:_____/21:N0000001 - isvavai.cz</a>
Alternative codes found
RIV/00216208:11230/21:10438383 RIV/68407700:21230/21:00353917
Result on the web
<a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Demonstrační aplikace automatického generování zpravodajských textů a analýzy obsahu zpráv
Original language description
Demonstrační aplikace obsahuje dvě tematicky různé funkcionality: sadu nástrojů pro automatickou sumarizaci textů a sadu nástrojů pro automatické ověřování faktů. Nástroje mají rozhraní vytvořené pro webový prohlížeč a jsou tedy dostupné z libovolného prostředí. Proto také mohly být jednoduše nasazeny pro prvotní ověřování u aplikačního partnera projektu ČTK. První sadou nástrojů aplikace jsou nástroje pro automatickou sumarizaci textů. Automatická sumarizace je proces zkrácení textového dokumentu za účelem vytvoření souhrnu s hlavními body původního dokumentu či více vstupních dokumentů. Náš nástroj je implementován jako asistivní nástroj pro novináře, který: - vybere relevantní části vstupních článků do shrnutí; - označí významné pojmenované entity v textu, jako jsou související jména, názvy, letopočty atd.; - umožní průběžné dotrénování systému tím, že novinář změní priority vybrané informace, označí jako důležitý jiný text, případně vyřadí text z již provedeného výběru. Systém je tedy navíc ke své funkcionalitě schopen průběžného dotrénování tak, jak s ním novinář pracuje. Aplikace analyzuje clustery informací, a vytváří výstup ve formě detekovaných hlavních informací, obsažených ve vstupním článku či článcích. Uživatel si může volit detekční hyperparametry jako je metoda pro výběr centroidu prahů sémantické podobnosti atp. Dále uživatel může věty a informace přeřadit, vyměnit, vyřadit, či přidat. Zachovává linky do původních zpráv, tedy může dohledat kontext, pokud jej potřebuje Hlavním výstupem pro uživatele je materiál pro tvorbu shrnutí, tedy vybrané informace z podkladových článků. Nástroje pro automatickou sumarizaci textů jsou implementovány jako backend, tedy serverová část v programovacím jazyce python, torch, tensorflow. A uživatelská část, tedy frontend je v jazyce python + js. Další část nástrojů tvoří nástroje pro automatické ověřování faktů. Jedná se primárně o dva spolupracující nástroje: Fact Search pro sémantické vyhledávání informací a Fact Check pro posouzení věrohodnosti tvrzení, který pracuje s pomocí nástroje Fact Search. Samotná klasifikace výroků totiž bez vysvětlení nestačí (black box), důležitější je dohledávání důkazů, či podpůrných nebo vyvracejících informací, které provádíme pomoci Fact Search. Vstupem jsou tvrzení (výrok, claim) — krátký text, typicky jedna věta, např.: “Miloš Zeman navštívil jako prezident Korejskou republiku.” Výstupem jsou klasifikace: potvrzen/vyvrácen/nedostatek informací, seznam dokumentů (a jejich částí) potřebných pro klasifikaci (evidence), ověřujeme vzhledem k dané databázi dokumentů – v našem případě archivu zpráv ČTK. Nástroj Fact Search po zadání tvrzení a případném omezení časového okna zobrazí výsledek vyhledávání dvěma vybranými metodami a jejich detailní statistiky. Ve vyhledaných blocích textu jsou navíc zvýrazněny věty nebo slova, které měly na vybrání příslušných pasáží největší vliv. Výsledné rozhraní pro Fact Check na pozadí využívá nástroj Fact Search, ohodnotí důvěryhodnost tvrzení a zobrazí podkladové informace, které toto tvrzení dokládají či vyvrací. Nástroje ověřování faktů jsou implementovány v programovacím jazyce Python 3. Uživatelské rozhraní je postaveno pomocí nástroje Dash. Neuronové modely jsou implementovány pomocí knihoven Hugging Face Transformers, PyTorch a TensorFlow. Pro rychlé vyhodnocování neuronových sítí používáme akcelerátor Nvidia Tesla V100.
Czech name
Demonstrační aplikace automatického generování zpravodajských textů a analýzy obsahu zpráv
Czech description
—
Classification
Type
G<sub>funk</sub> - Functional sample
CEP classification
—
OECD FORD branch
20205 - Automation and control systems
Result continuities
Project
<a href="/en/project/TL02000288" target="_blank" >TL02000288: Transformation of Journalisms Ethics in the Advent of Artificial Intelligence</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2021
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
TL02000288-V10
Numerical identification
TL02000288-V10
Technical parameters
Nástroje pro automatickou sumarizaci textů jsou implementovány jako backend, tedy serverová část v programovacím jazyce python, torch, tensorflow. A uživatelská část, tedy frontend je v jazyce python + js. Nástroje ověřování faktů jsou implementovány v programovacím jazyce Python 3. Uživatelské rozhraní je postaveno pomocí nástroje Dash. Neuronové modely jsou implementovány pomocí knihoven Hugging Face Transformers, PyTorch a TensorFlow. Pro rychlé vyhodnocování neuronových sítí používáme akcelerátor Nvidia Tesla V100. [1] https://pytorch.org/ [2] https://huggingface.co/transformers/index.html [3] https://github.com/UKPLab/sentence-transformers [4] https://github.com/facebookresearch/DrQA [5] https://dash.plotly.com/ Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR ETA: TL02000288 pro výzkum.
Economical parameters
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 50 000,- Kč a roční udržovací poplatek ve výši 10 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.
Application category by cost
—
Owner IČO
47115068
Owner name
Česká tisková kancelář
Owner country
CZ - CZECH REPUBLIC
Usage type
P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence
Licence fee requirement
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Web page
https://aijournalism.fsv.cuni.cz/