Vše
Vše

Co hledáte?

Vše
Projekty
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů

Popis výsledku

Funkční vzorek je realizován jako tzv. pipeline pro automatizované ověřování faktů (automated fact-checking), jednovětných textových tvrzení, přičemž výstup pipeline je dvojí: 1) množina dokumentů korpusu, které tvrzení potvrzují, případně vyvracejí (důkazní dokumenty, tzv. evidence), 2) klasifikace důkazů - pracujeme se třemi třídami: potvrzeno (SUPPORTS), vyvráceno (REFUTES) a nedostatek informací (Not Enough Info - NEI).Pipeline je modulární architektura, která implementuje kompletní převod vstupu na výstup. V našem případě je vstupem tvrzení (claim), jehož platnost má být ověřena. Náš systém ověřuje tvrzení vzhledem k textové databázi (tzv. korpusu). Texty korpusu by měly být v ideálním případě důvěryhodné - v tomto projektu jsme pracovali primárně s archivy Českého rozhlasu a České tiskové kanceláře (v návaznosti na předchozí projekt TL02000288: "Proměna etických aspektů s nástupem žurnalistiky umělé inteligence"), které splňují vysoká měřítka důvěryhodnosti (viz např. Kodex ČTK, dostupný z https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).

Klíčová slova

factualityclaim verificationclaiminformation sourcesnewsjournalismnatural language processingartificial intelligence

Identifikátory výsledku

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů

  • Popis výsledku v původním jazyce

    Funkční vzorek je realizován jako tzv. pipeline pro automatizované ověřování faktů (automated fact-checking), jednovětných textových tvrzení, přičemž výstup pipeline je dvojí: 1) množina dokumentů korpusu, které tvrzení potvrzují, případně vyvracejí (důkazní dokumenty, tzv. evidence), 2) klasifikace důkazů - pracujeme se třemi třídami: potvrzeno (SUPPORTS), vyvráceno (REFUTES) a nedostatek informací (Not Enough Info - NEI).Pipeline je modulární architektura, která implementuje kompletní převod vstupu na výstup. V našem případě je vstupem tvrzení (claim), jehož platnost má být ověřena. Náš systém ověřuje tvrzení vzhledem k textové databázi (tzv. korpusu). Texty korpusu by měly být v ideálním případě důvěryhodné - v tomto projektu jsme pracovali primárně s archivy Českého rozhlasu a České tiskové kanceláře (v návaznosti na předchozí projekt TL02000288: "Proměna etických aspektů s nástupem žurnalistiky umělé inteligence"), které splňují vysoká měřítka důvěryhodnosti (viz např. Kodex ČTK, dostupný z https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).

  • Název v anglickém jazyce

    Functional sample of algorithms enhancing the factuality and accuracy of journalistic content

  • Popis výsledku anglicky

    We implemented the functional sample as a pipeline for automated fact-checking of single-sentence textual assertions, where the output of the pipeline is twofold: 1) a set of corpus documents that confirm or refute the assertion (evidence documents), 2) classification of evidence - we work with three classes: confirmed (SUPPORTS), refuted (REFUTES) and not enough information (NEI).Pipeline is a modular architecture that implements the complete conversion of input to output. In our case, the input is a claim whose validity is to be verified. Our system validates the claim against a textual database (called corpus). The corpus texts should ideally be trustworthy - in this project we worked primarily with the archives of the Czech Radio and the Czech News Agency (following the previous project TL02000288: "Transforming ethical aspects with the advent of AI journalism"), which meet high trustworthiness standards (see e.g. the CTK Code: https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).

Klasifikace

  • Druh

    Gfunk - Funkční vzorek

  • CEP obor

  • OECD FORD obor

    50802 - Media and socio-cultural communication

Návaznosti výsledku

Ostatní

  • Rok uplatnění

    2023

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    TL05000057-V5

  • Číselná identifikace

    ID smlouvy v registru smluv: 25651103

  • Technické parametry

    Evidence retrieval je postaven na moderní vyhledávací metodě ColBERTv2, jež se v porovnání se svou předchozí verzí, která byla používána v minulých verzích pipeline, zlepšila v relevanci vyhledávaných dokumentů, ale i tím, že má výrazně nižší paměťové nároky (až desetkrát menší), což jí činí výrazně praktickou i nad rozsáhlými korpusy typu ČTK (více než 11 milionů odstavců). Evidence veracity modul je postaven na multilinguálním modelu XLM- RoBERTa large. Pro uživatelské použití byla doimplementována webová aplikace FactSearch. Aplikace FactSearch byla otestována v rámci ČRo a následně zapracována zpětná vazba uživatelů/uživatelek. Díky testování se podařilo zjistit tzv. přeučení evidence search modulu na specifický tvar tvrzení, tato chyba byla díky tomu následně opravena.

  • Ekonomické parametry

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 4 000,- Kč na měsíc, nebo 40 000,- Kč za rok. Cena vychází z nákladů na realizaci, plus přiměřená marže a návratnost.

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Univerzita Karlova

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence

  • Požadavek na licenční poplatek

    Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek

  • Adresa www stránky s výsledkem

    http://www.irozhlas.cz

Druh výsledku

Gfunk - Funkční vzorek

Gfunk

OECD FORD

Media and socio-cultural communication

Rok uplatnění

2023