Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F23%3A10478876" target="_blank" >RIV/00216208:11230/23:10478876 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/68407700:21230/23:00372838
Výsledek na webu
<a href="http://www.irozhlas.cz" target="_blank" >http://www.irozhlas.cz</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů
Popis výsledku v původním jazyce
Funkční vzorek je realizován jako tzv. pipeline pro automatizované ověřování faktů (automated fact-checking), jednovětných textových tvrzení, přičemž výstup pipeline je dvojí: 1) množina dokumentů korpusu, které tvrzení potvrzují, případně vyvracejí (důkazní dokumenty, tzv. evidence), 2) klasifikace důkazů - pracujeme se třemi třídami: potvrzeno (SUPPORTS), vyvráceno (REFUTES) a nedostatek informací (Not Enough Info - NEI).Pipeline je modulární architektura, která implementuje kompletní převod vstupu na výstup. V našem případě je vstupem tvrzení (claim), jehož platnost má být ověřena. Náš systém ověřuje tvrzení vzhledem k textové databázi (tzv. korpusu). Texty korpusu by měly být v ideálním případě důvěryhodné - v tomto projektu jsme pracovali primárně s archivy Českého rozhlasu a České tiskové kanceláře (v návaznosti na předchozí projekt TL02000288: "Proměna etických aspektů s nástupem žurnalistiky umělé inteligence"), které splňují vysoká měřítka důvěryhodnosti (viz např. Kodex ČTK, dostupný z https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).
Název v anglickém jazyce
Functional sample of algorithms enhancing the factuality and accuracy of journalistic content
Popis výsledku anglicky
We implemented the functional sample as a pipeline for automated fact-checking of single-sentence textual assertions, where the output of the pipeline is twofold: 1) a set of corpus documents that confirm or refute the assertion (evidence documents), 2) classification of evidence - we work with three classes: confirmed (SUPPORTS), refuted (REFUTES) and not enough information (NEI).Pipeline is a modular architecture that implements the complete conversion of input to output. In our case, the input is a claim whose validity is to be verified. Our system validates the claim against a textual database (called corpus). The corpus texts should ideally be trustworthy - in this project we worked primarily with the archives of the Czech Radio and the Czech News Agency (following the previous project TL02000288: "Transforming ethical aspects with the advent of AI journalism"), which meet high trustworthiness standards (see e.g. the CTK Code: https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).
Klasifikace
Druh
G<sub>funk</sub> - Funkční vzorek
CEP obor
—
OECD FORD obor
50802 - Media and socio-cultural communication
Návaznosti výsledku
Projekt
<a href="/cs/project/TL05000057" target="_blank" >TL05000057: Signál a šum v éře Žurnalistiky 5.0 - komparativní perspektiva novinářských žánrů automatizovaných obsahů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
TL05000057-V5
Číselná identifikace
ID smlouvy v registru smluv: 25651103
Technické parametry
Evidence retrieval je postaven na moderní vyhledávací metodě ColBERTv2, jež se v porovnání se svou předchozí verzí, která byla používána v minulých verzích pipeline, zlepšila v relevanci vyhledávaných dokumentů, ale i tím, že má výrazně nižší paměťové nároky (až desetkrát menší), což jí činí výrazně praktickou i nad rozsáhlými korpusy typu ČTK (více než 11 milionů odstavců). Evidence veracity modul je postaven na multilinguálním modelu XLM- RoBERTa large. Pro uživatelské použití byla doimplementována webová aplikace FactSearch. Aplikace FactSearch byla otestována v rámci ČRo a následně zapracována zpětná vazba uživatelů/uživatelek. Díky testování se podařilo zjistit tzv. přeučení evidence search modulu na specifický tvar tvrzení, tato chyba byla díky tomu následně opravena.
Ekonomické parametry
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 4 000,- Kč na měsíc, nebo 40 000,- Kč za rok. Cena vychází z nákladů na realizaci, plus přiměřená marže a návratnost.
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
00216208
Název vlastníka
Univerzita Karlova
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence
Požadavek na licenční poplatek
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Adresa www stránky s výsledkem
http://www.irozhlas.cz