Demonstrační aplikace automatického generování zpravodajských textů a analýzy obsahu zpráv
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47115068%3A_____%2F21%3AN0000001" target="_blank" >RIV/47115068:_____/21:N0000001 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11230/21:10438383 RIV/68407700:21230/21:00353917
Výsledek na webu
<a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Demonstrační aplikace automatického generování zpravodajských textů a analýzy obsahu zpráv
Popis výsledku v původním jazyce
Demonstrační aplikace obsahuje dvě tematicky různé funkcionality: sadu nástrojů pro automatickou sumarizaci textů a sadu nástrojů pro automatické ověřování faktů. Nástroje mají rozhraní vytvořené pro webový prohlížeč a jsou tedy dostupné z libovolného prostředí. Proto také mohly být jednoduše nasazeny pro prvotní ověřování u aplikačního partnera projektu ČTK. První sadou nástrojů aplikace jsou nástroje pro automatickou sumarizaci textů. Automatická sumarizace je proces zkrácení textového dokumentu za účelem vytvoření souhrnu s hlavními body původního dokumentu či více vstupních dokumentů. Náš nástroj je implementován jako asistivní nástroj pro novináře, který: - vybere relevantní části vstupních článků do shrnutí; - označí významné pojmenované entity v textu, jako jsou související jména, názvy, letopočty atd.; - umožní průběžné dotrénování systému tím, že novinář změní priority vybrané informace, označí jako důležitý jiný text, případně vyřadí text z již provedeného výběru. Systém je tedy navíc ke své funkcionalitě schopen průběžného dotrénování tak, jak s ním novinář pracuje. Aplikace analyzuje clustery informací, a vytváří výstup ve formě detekovaných hlavních informací, obsažených ve vstupním článku či článcích. Uživatel si může volit detekční hyperparametry jako je metoda pro výběr centroidu prahů sémantické podobnosti atp. Dále uživatel může věty a informace přeřadit, vyměnit, vyřadit, či přidat. Zachovává linky do původních zpráv, tedy může dohledat kontext, pokud jej potřebuje Hlavním výstupem pro uživatele je materiál pro tvorbu shrnutí, tedy vybrané informace z podkladových článků. Nástroje pro automatickou sumarizaci textů jsou implementovány jako backend, tedy serverová část v programovacím jazyce python, torch, tensorflow. A uživatelská část, tedy frontend je v jazyce python + js. Další část nástrojů tvoří nástroje pro automatické ověřování faktů. Jedná se primárně o dva spolupracující nástroje: Fact Search pro sémantické vyhledávání informací a Fact Check pro posouzení věrohodnosti tvrzení, který pracuje s pomocí nástroje Fact Search. Samotná klasifikace výroků totiž bez vysvětlení nestačí (black box), důležitější je dohledávání důkazů, či podpůrných nebo vyvracejících informací, které provádíme pomoci Fact Search. Vstupem jsou tvrzení (výrok, claim) — krátký text, typicky jedna věta, např.: “Miloš Zeman navštívil jako prezident Korejskou republiku.” Výstupem jsou klasifikace: potvrzen/vyvrácen/nedostatek informací, seznam dokumentů (a jejich částí) potřebných pro klasifikaci (evidence), ověřujeme vzhledem k dané databázi dokumentů – v našem případě archivu zpráv ČTK. Nástroj Fact Search po zadání tvrzení a případném omezení časového okna zobrazí výsledek vyhledávání dvěma vybranými metodami a jejich detailní statistiky. Ve vyhledaných blocích textu jsou navíc zvýrazněny věty nebo slova, které měly na vybrání příslušných pasáží největší vliv. Výsledné rozhraní pro Fact Check na pozadí využívá nástroj Fact Search, ohodnotí důvěryhodnost tvrzení a zobrazí podkladové informace, které toto tvrzení dokládají či vyvrací. Nástroje ověřování faktů jsou implementovány v programovacím jazyce Python 3. Uživatelské rozhraní je postaveno pomocí nástroje Dash. Neuronové modely jsou implementovány pomocí knihoven Hugging Face Transformers, PyTorch a TensorFlow. Pro rychlé vyhodnocování neuronových sítí používáme akcelerátor Nvidia Tesla V100.
Název v anglickém jazyce
Demonstration application of automatic news text generation and news content analysis
Popis výsledku anglicky
The demonstration application contains two thematically different functionalities: tools for automatic text summarization and tools for automatic fact checking. The tools have a web browser interface and are therefore accessible from any environment. Therefore, they could also be easily deployed for initial verification by the CTK project application partner. The first set of tools in the application are tools for automatic text summarization. Automatic summarization is the process of truncating a text document to produce a summary with the main points of the original document or multiple input documents. Our tool is implemented as an assistant tool for journalists that: - selects relevant parts of the input articles for summarization; - identifies significant named entities in the text, such as related names, titles, years, etc.; - allows continuous retraining of the system by allowing the journalist to re-prioritize the selected information, mark other text as relevant, or discard text from an already made selection. In addition to its functionality here, the system is capable of continuous retraining as the journalist works with it. The application analyses clusters of information, and produces output in the form of detected main information contained in the input article or articles. The user can choose detection hyperparameters such as the method for selecting centroid thresholds, etc. Further, the user can reorder, replace, discard, or add sentences and information. It preserves links to the original messages, so it can retrieve the context if it needs it The main output for the user is the material for creating summaries, i.e. selected information from the underlying articles. The tools for automatic summarization of texts are implemented as a backend, i.e. a server part in python, torch, tensorflow programming language. And the user part, i.e. the frontend is in python + js. The other part of the tools is the automatic fact checking tools. These are primarily two collaborating tools: the Fact Search for semantic information retrieval and the Fact Check for assessing the plausibility of claims, which works with the help of the Fact Search tool. This is because the classification of statements alone is not enough without an explanation (black box), what is more important is the search for evidence or supporting or refuting information, which we perform using Fact Search. The input is a statement (claim) - a short text, typically one sentence, e.g. "Miloš Zeman visited the Republic of Korea as president." The output is classifications: confirmed/refuted/lack of information, list of documents (and their parts) needed for classification (evidence), we check against the given document database - in our case the CTK news archive. The Fact Search tool, after entering a claim and possibly limiting the time window, displays the result of the search by two selected methods and their detailed statistics. In addition, the sentences or words that had the greatest influence on the selection of the relevant passages are highlighted in the searched text blocks. The resulting interface for the background Fact Check uses the Fact Search tool, assesses the credibility of the claim, and displays supporting information that proves or disproves the claim. The fact checking tools are implemented in the Python 3 programming language. The user interface is built using the Dash tool. The neural models are implemented using the Hugging Face Transformers, PyTorch and TensorFlow libraries. For fast evaluation of neural networks we use the Nvidia Tesla V100 accelerator.
Klasifikace
Druh
G<sub>funk</sub> - Funkční vzorek
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/TL02000288" target="_blank" >TL02000288: Proměna etických aspektů s nástupem žurnalistiky umělé inteligence</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
TL02000288-V10
Číselná identifikace
TL02000288-V10
Technické parametry
Nástroje pro automatickou sumarizaci textů jsou implementovány jako backend, tedy serverová část v programovacím jazyce python, torch, tensorflow. A uživatelská část, tedy frontend je v jazyce python + js. Nástroje ověřování faktů jsou implementovány v programovacím jazyce Python 3. Uživatelské rozhraní je postaveno pomocí nástroje Dash. Neuronové modely jsou implementovány pomocí knihoven Hugging Face Transformers, PyTorch a TensorFlow. Pro rychlé vyhodnocování neuronových sítí používáme akcelerátor Nvidia Tesla V100. [1] https://pytorch.org/ [2] https://huggingface.co/transformers/index.html [3] https://github.com/UKPLab/sentence-transformers [4] https://github.com/facebookresearch/DrQA [5] https://dash.plotly.com/ Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR ETA: TL02000288 pro výzkum.
Ekonomické parametry
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 50 000,- Kč a roční udržovací poplatek ve výši 10 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
47115068
Název vlastníka
Česká tisková kancelář
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence
Požadavek na licenční poplatek
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Adresa www stránky s výsledkem
https://aijournalism.fsv.cuni.cz/