All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Demonstration application of automatic news text generation and news content analysis

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47115068%3A_____%2F21%3AN0000001" target="_blank" >RIV/47115068:_____/21:N0000001 - isvavai.cz</a>

  • Alternative codes found

    RIV/00216208:11230/21:10438383 RIV/68407700:21230/21:00353917

  • Result on the web

    <a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Demonstrační aplikace automatického generování zpravodajských textů a analýzy obsahu zpráv

  • Original language description

    Demonstrační aplikace obsahuje dvě tematicky různé funkcionality: sadu nástrojů pro automatickou sumarizaci textů a sadu nástrojů pro automatické ověřování faktů. Nástroje mají rozhraní vytvořené pro webový prohlížeč a jsou tedy dostupné z libovolného prostředí. Proto také mohly být jednoduše nasazeny pro prvotní ověřování u aplikačního partnera projektu ČTK. První sadou nástrojů aplikace jsou nástroje pro automatickou sumarizaci textů. Automatická sumarizace je proces zkrácení textového dokumentu za účelem vytvoření souhrnu s hlavními body původního dokumentu či více vstupních dokumentů. Náš nástroj je implementován jako asistivní nástroj pro novináře, který: - vybere relevantní části vstupních článků do shrnutí; - označí významné pojmenované entity v textu, jako jsou související jména, názvy, letopočty atd.; - umožní průběžné dotrénování systému tím, že novinář změní priority vybrané informace, označí jako důležitý jiný text, případně vyřadí text z již provedeného výběru. Systém je tedy navíc ke své funkcionalitě schopen průběžného dotrénování tak, jak s ním novinář pracuje. Aplikace analyzuje clustery informací, a vytváří výstup ve formě detekovaných hlavních informací, obsažených ve vstupním článku či článcích. Uživatel si může volit detekční hyperparametry jako je metoda pro výběr centroidu prahů sémantické podobnosti atp. Dále uživatel může věty a informace přeřadit, vyměnit, vyřadit, či přidat. Zachovává linky do původních zpráv, tedy může dohledat kontext, pokud jej potřebuje Hlavním výstupem pro uživatele je materiál pro tvorbu shrnutí, tedy vybrané informace z podkladových článků. Nástroje pro automatickou sumarizaci textů jsou implementovány jako backend, tedy serverová část v programovacím jazyce python, torch, tensorflow. A uživatelská část, tedy frontend je v jazyce python + js. Další část nástrojů tvoří nástroje pro automatické ověřování faktů. Jedná se primárně o dva spolupracující nástroje: Fact Search pro sémantické vyhledávání informací a Fact Check pro posouzení věrohodnosti tvrzení, který pracuje s pomocí nástroje Fact Search. Samotná klasifikace výroků totiž bez vysvětlení nestačí (black box), důležitější je dohledávání důkazů, či podpůrných nebo vyvracejících informací, které provádíme pomoci Fact Search. Vstupem jsou tvrzení (výrok, claim) — krátký text, typicky jedna věta, např.: “Miloš Zeman navštívil jako prezident Korejskou republiku.” Výstupem jsou klasifikace: potvrzen/vyvrácen/nedostatek informací, seznam dokumentů (a jejich částí) potřebných pro klasifikaci (evidence), ověřujeme vzhledem k dané databázi dokumentů – v našem případě archivu zpráv ČTK. Nástroj Fact Search po zadání tvrzení a případném omezení časového okna zobrazí výsledek vyhledávání dvěma vybranými metodami a jejich detailní statistiky. Ve vyhledaných blocích textu jsou navíc zvýrazněny věty nebo slova, které měly na vybrání příslušných pasáží největší vliv. Výsledné rozhraní pro Fact Check na pozadí využívá nástroj Fact Search, ohodnotí důvěryhodnost tvrzení a zobrazí podkladové informace, které toto tvrzení dokládají či vyvrací. Nástroje ověřování faktů jsou implementovány v programovacím jazyce Python 3. Uživatelské rozhraní je postaveno pomocí nástroje Dash. Neuronové modely jsou implementovány pomocí knihoven Hugging Face Transformers, PyTorch a TensorFlow. Pro rychlé vyhodnocování neuronových sítí používáme akcelerátor Nvidia Tesla V100.

  • Czech name

    Demonstrační aplikace automatického generování zpravodajských textů a analýzy obsahu zpráv

  • Czech description

Classification

  • Type

    G<sub>funk</sub> - Functional sample

  • CEP classification

  • OECD FORD branch

    20205 - Automation and control systems

Result continuities

  • Project

    <a href="/en/project/TL02000288" target="_blank" >TL02000288: Transformation of Journalisms Ethics in the Advent of Artificial Intelligence</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2021

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    TL02000288-V10

  • Numerical identification

    TL02000288-V10

  • Technical parameters

    Nástroje pro automatickou sumarizaci textů jsou implementovány jako backend, tedy serverová část v programovacím jazyce python, torch, tensorflow. A uživatelská část, tedy frontend je v jazyce python + js. Nástroje ověřování faktů jsou implementovány v programovacím jazyce Python 3. Uživatelské rozhraní je postaveno pomocí nástroje Dash. Neuronové modely jsou implementovány pomocí knihoven Hugging Face Transformers, PyTorch a TensorFlow. Pro rychlé vyhodnocování neuronových sítí používáme akcelerátor Nvidia Tesla V100. [1] https://pytorch.org/ [2] https://huggingface.co/transformers/index.html [3] https://github.com/UKPLab/sentence-transformers [4] https://github.com/facebookresearch/DrQA [5] https://dash.plotly.com/ Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR ETA: TL02000288 pro výzkum.

  • Economical parameters

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 50 000,- Kč a roční udržovací poplatek ve výši 10 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.

  • Application category by cost

  • Owner IČO

    47115068

  • Owner name

    Česká tisková kancelář

  • Owner country

    CZ - CZECH REPUBLIC

  • Usage type

    P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence

  • Licence fee requirement

    Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek

  • Web page

    https://aijournalism.fsv.cuni.cz/