All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Functional sample of algorithms enhancing the factuality and accuracy of journalistic content

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F23%3A10478876" target="_blank" >RIV/00216208:11230/23:10478876 - isvavai.cz</a>

  • Alternative codes found

    RIV/68407700:21230/23:00372838

  • Result on the web

    <a href="http://www.irozhlas.cz" target="_blank" >http://www.irozhlas.cz</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů

  • Original language description

    Funkční vzorek je realizován jako tzv. pipeline pro automatizované ověřování faktů (automated fact-checking), jednovětných textových tvrzení, přičemž výstup pipeline je dvojí: 1) množina dokumentů korpusu, které tvrzení potvrzují, případně vyvracejí (důkazní dokumenty, tzv. evidence), 2) klasifikace důkazů - pracujeme se třemi třídami: potvrzeno (SUPPORTS), vyvráceno (REFUTES) a nedostatek informací (Not Enough Info - NEI).Pipeline je modulární architektura, která implementuje kompletní převod vstupu na výstup. V našem případě je vstupem tvrzení (claim), jehož platnost má být ověřena. Náš systém ověřuje tvrzení vzhledem k textové databázi (tzv. korpusu). Texty korpusu by měly být v ideálním případě důvěryhodné - v tomto projektu jsme pracovali primárně s archivy Českého rozhlasu a České tiskové kanceláře (v návaznosti na předchozí projekt TL02000288: &quot;Proměna etických aspektů s nástupem žurnalistiky umělé inteligence&quot;), které splňují vysoká měřítka důvěryhodnosti (viz např. Kodex ČTK, dostupný z https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).

  • Czech name

    Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů

  • Czech description

    Funkční vzorek je realizován jako tzv. pipeline pro automatizované ověřování faktů (automated fact-checking), jednovětných textových tvrzení, přičemž výstup pipeline je dvojí: 1) množina dokumentů korpusu, které tvrzení potvrzují, případně vyvracejí (důkazní dokumenty, tzv. evidence), 2) klasifikace důkazů - pracujeme se třemi třídami: potvrzeno (SUPPORTS), vyvráceno (REFUTES) a nedostatek informací (Not Enough Info - NEI).Pipeline je modulární architektura, která implementuje kompletní převod vstupu na výstup. V našem případě je vstupem tvrzení (claim), jehož platnost má být ověřena. Náš systém ověřuje tvrzení vzhledem k textové databázi (tzv. korpusu). Texty korpusu by měly být v ideálním případě důvěryhodné - v tomto projektu jsme pracovali primárně s archivy Českého rozhlasu a České tiskové kanceláře (v návaznosti na předchozí projekt TL02000288: &quot;Proměna etických aspektů s nástupem žurnalistiky umělé inteligence&quot;), které splňují vysoká měřítka důvěryhodnosti (viz např. Kodex ČTK, dostupný z https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).

Classification

  • Type

    G<sub>funk</sub> - Functional sample

  • CEP classification

  • OECD FORD branch

    50802 - Media and socio-cultural communication

Result continuities

  • Project

    <a href="/en/project/TL05000057" target="_blank" >TL05000057: The Signal and the Noise in the Era of Journalism 5.0 - A Comparative Perspective of Journalistic Genres of Automated Content</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2023

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    TL05000057-V5

  • Numerical identification

    ID smlouvy v registru smluv: 25651103

  • Technical parameters

    Evidence retrieval je postaven na moderní vyhledávací metodě ColBERTv2, jež se v porovnání se svou předchozí verzí, která byla používána v minulých verzích pipeline, zlepšila v relevanci vyhledávaných dokumentů, ale i tím, že má výrazně nižší paměťové nároky (až desetkrát menší), což jí činí výrazně praktickou i nad rozsáhlými korpusy typu ČTK (více než 11 milionů odstavců). Evidence veracity modul je postaven na multilinguálním modelu XLM- RoBERTa large. Pro uživatelské použití byla doimplementována webová aplikace FactSearch. Aplikace FactSearch byla otestována v rámci ČRo a následně zapracována zpětná vazba uživatelů/uživatelek. Díky testování se podařilo zjistit tzv. přeučení evidence search modulu na specifický tvar tvrzení, tato chyba byla díky tomu následně opravena.

  • Economical parameters

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 4 000,- Kč na měsíc, nebo 40 000,- Kč za rok. Cena vychází z nákladů na realizaci, plus přiměřená marže a návratnost.

  • Application category by cost

  • Owner IČO

    00216208

  • Owner name

    Univerzita Karlova

  • Owner country

    CZ - CZECH REPUBLIC

  • Usage type

    P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence

  • Licence fee requirement

    Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek

  • Web page

    http://www.irozhlas.cz