Functional sample of algorithms enhancing the factuality and accuracy of journalistic content
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F23%3A10478876" target="_blank" >RIV/00216208:11230/23:10478876 - isvavai.cz</a>
Alternative codes found
RIV/68407700:21230/23:00372838
Result on the web
<a href="http://www.irozhlas.cz" target="_blank" >http://www.irozhlas.cz</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů
Original language description
Funkční vzorek je realizován jako tzv. pipeline pro automatizované ověřování faktů (automated fact-checking), jednovětných textových tvrzení, přičemž výstup pipeline je dvojí: 1) množina dokumentů korpusu, které tvrzení potvrzují, případně vyvracejí (důkazní dokumenty, tzv. evidence), 2) klasifikace důkazů - pracujeme se třemi třídami: potvrzeno (SUPPORTS), vyvráceno (REFUTES) a nedostatek informací (Not Enough Info - NEI).Pipeline je modulární architektura, která implementuje kompletní převod vstupu na výstup. V našem případě je vstupem tvrzení (claim), jehož platnost má být ověřena. Náš systém ověřuje tvrzení vzhledem k textové databázi (tzv. korpusu). Texty korpusu by měly být v ideálním případě důvěryhodné - v tomto projektu jsme pracovali primárně s archivy Českého rozhlasu a České tiskové kanceláře (v návaznosti na předchozí projekt TL02000288: "Proměna etických aspektů s nástupem žurnalistiky umělé inteligence"), které splňují vysoká měřítka důvěryhodnosti (viz např. Kodex ČTK, dostupný z https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).
Czech name
Funkční vzorek algoritmů posilující fakticitu a správnost informací žurnalistických obsahů
Czech description
Funkční vzorek je realizován jako tzv. pipeline pro automatizované ověřování faktů (automated fact-checking), jednovětných textových tvrzení, přičemž výstup pipeline je dvojí: 1) množina dokumentů korpusu, které tvrzení potvrzují, případně vyvracejí (důkazní dokumenty, tzv. evidence), 2) klasifikace důkazů - pracujeme se třemi třídami: potvrzeno (SUPPORTS), vyvráceno (REFUTES) a nedostatek informací (Not Enough Info - NEI).Pipeline je modulární architektura, která implementuje kompletní převod vstupu na výstup. V našem případě je vstupem tvrzení (claim), jehož platnost má být ověřena. Náš systém ověřuje tvrzení vzhledem k textové databázi (tzv. korpusu). Texty korpusu by měly být v ideálním případě důvěryhodné - v tomto projektu jsme pracovali primárně s archivy Českého rozhlasu a České tiskové kanceláře (v návaznosti na předchozí projekt TL02000288: "Proměna etických aspektů s nástupem žurnalistiky umělé inteligence"), které splňují vysoká měřítka důvěryhodnosti (viz např. Kodex ČTK, dostupný z https://www.ctk.cz/o_ctk/rada_ctk/eticky-kodex/).
Classification
Type
G<sub>funk</sub> - Functional sample
CEP classification
—
OECD FORD branch
50802 - Media and socio-cultural communication
Result continuities
Project
<a href="/en/project/TL05000057" target="_blank" >TL05000057: The Signal and the Noise in the Era of Journalism 5.0 - A Comparative Perspective of Journalistic Genres of Automated Content</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2023
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
TL05000057-V5
Numerical identification
ID smlouvy v registru smluv: 25651103
Technical parameters
Evidence retrieval je postaven na moderní vyhledávací metodě ColBERTv2, jež se v porovnání se svou předchozí verzí, která byla používána v minulých verzích pipeline, zlepšila v relevanci vyhledávaných dokumentů, ale i tím, že má výrazně nižší paměťové nároky (až desetkrát menší), což jí činí výrazně praktickou i nad rozsáhlými korpusy typu ČTK (více než 11 milionů odstavců). Evidence veracity modul je postaven na multilinguálním modelu XLM- RoBERTa large. Pro uživatelské použití byla doimplementována webová aplikace FactSearch. Aplikace FactSearch byla otestována v rámci ČRo a následně zapracována zpětná vazba uživatelů/uživatelek. Díky testování se podařilo zjistit tzv. přeučení evidence search modulu na specifický tvar tvrzení, tato chyba byla díky tomu následně opravena.
Economical parameters
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 4 000,- Kč na měsíc, nebo 40 000,- Kč za rok. Cena vychází z nákladů na realizaci, plus přiměřená marže a návratnost.
Application category by cost
—
Owner IČO
00216208
Owner name
Univerzita Karlova
Owner country
CZ - CZECH REPUBLIC
Usage type
P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence
Licence fee requirement
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Web page
http://www.irozhlas.cz