Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F23%3A10478876" target="_blank" >RIV/00216208:11230/23:10478876 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/68407700:21230/23:00372838

  • Výsledek na webu

    <a href="http://www.irozhlas.cz" target="_blank" >http://www.irozhlas.cz</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů

  • Popis výsledku v původním jazyce

    Funkční vzorek je realizován jako tzv. pipeline pro automatizované ověřování faktů (automated fact-checking), jednovětných textových tvrzení, přičemž výstup pipeline je dvojí: 1) množina dokumentů korpusu, které tvrzení potvrzují, případně vyvracejí (důkazní dokumenty, tzv. evidence), 2) klasifikace důkazů - pracujeme se třemi třídami: potvrzeno (SUPPORTS), vyvráceno (REFUTES) a nedostatek informací (Not Enough Info - NEI).Pipeline je modulární architektura, která implementuje kompletní převod vstupu na výstup. V našem případě je vstupem tvrzení (claim), jehož platnost má být ověřena. Náš systém ověřuje tvrzení vzhledem k textové databázi (tzv. korpusu). Texty korpusu by měly být v ideálním případě důvěryhodné - v tomto projektu jsme pracovali primárně s archivy Českého rozhlasu a České tiskové kanceláře (v návaznosti na předchozí projekt TL02000288: &quot;Proměna etických aspektů s nástupem žurnalistiky umělé inteligence&quot;), které splňují vysoká měřítka důvěryhodnosti (viz např. Kodex ČTK, dostupný z https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).

  • Název v anglickém jazyce

    Functional sample of algorithms enhancing the factuality and accuracy of journalistic content

  • Popis výsledku anglicky

    We implemented the functional sample as a pipeline for automated fact-checking of single-sentence textual assertions, where the output of the pipeline is twofold: 1) a set of corpus documents that confirm or refute the assertion (evidence documents), 2) classification of evidence - we work with three classes: confirmed (SUPPORTS), refuted (REFUTES) and not enough information (NEI).Pipeline is a modular architecture that implements the complete conversion of input to output. In our case, the input is a claim whose validity is to be verified. Our system validates the claim against a textual database (called corpus). The corpus texts should ideally be trustworthy - in this project we worked primarily with the archives of the Czech Radio and the Czech News Agency (following the previous project TL02000288: &quot;Transforming ethical aspects with the advent of AI journalism&quot;), which meet high trustworthiness standards (see e.g. the CTK Code: https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).

Klasifikace

  • Druh

    G<sub>funk</sub> - Funkční vzorek

  • CEP obor

  • OECD FORD obor

    50802 - Media and socio-cultural communication

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TL05000057" target="_blank" >TL05000057: Signál a šum v éře Žurnalistiky 5.0 - komparativní perspektiva novinářských žánrů automatizovaných obsahů</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2023

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    TL05000057-V5

  • Číselná identifikace

    ID smlouvy v registru smluv: 25651103

  • Technické parametry

    Evidence retrieval je postaven na moderní vyhledávací metodě ColBERTv2, jež se v porovnání se svou předchozí verzí, která byla používána v minulých verzích pipeline, zlepšila v relevanci vyhledávaných dokumentů, ale i tím, že má výrazně nižší paměťové nároky (až desetkrát menší), což jí činí výrazně praktickou i nad rozsáhlými korpusy typu ČTK (více než 11 milionů odstavců). Evidence veracity modul je postaven na multilinguálním modelu XLM- RoBERTa large. Pro uživatelské použití byla doimplementována webová aplikace FactSearch. Aplikace FactSearch byla otestována v rámci ČRo a následně zapracována zpětná vazba uživatelů/uživatelek. Díky testování se podařilo zjistit tzv. přeučení evidence search modulu na specifický tvar tvrzení, tato chyba byla díky tomu následně opravena.

  • Ekonomické parametry

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 4 000,- Kč na měsíc, nebo 40 000,- Kč za rok. Cena vychází z nákladů na realizaci, plus přiměřená marže a návratnost.

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Univerzita Karlova

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence

  • Požadavek na licenční poplatek

    Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek

  • Adresa www stránky s výsledkem

    http://www.irozhlas.cz