Nástroj pro vyhledávání a analýzu faktů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47115068%3A_____%2F20%3AN0000001" target="_blank" >RIV/47115068:_____/20:N0000001 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/49777513:23520/20:43960298 RIV/68407700:21230/20:00344826 RIV/00216208:11230/20:10418571
Výsledek na webu
<a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Nástroj pro vyhledávání a analýzu faktů
Popis výsledku v původním jazyce
Nástroj pro vyhledávání a analýzu faktů (zkráceně Fact Search) analyzuje a porovnává různé metody sémantického a na klíčová slova orientovaného vyhledávání dokumentů. Je určen pro práci nad databázemi zpráv, lze ho snadno upravit tak, aby pracoval se samostatnými textovými informacemi. Současná implementace je postavena na archivu zpravodajských článků České tiskové kanceláře (ČTK) z let 2000 až 2019. Implementováno je klasické vyhledávání (klíčových slov) založené na TFIDF [1] a také nejmodernější varianta, založená na Transformer-like neuronových sítích [2, 3] pro sémanticky orientované vyhledávání. Neuronové modely jsou trénovány s ohledem na kontrolu faktů, tj. podporu/odmítnutí tvrzení. Aplikaci lze také použít pro úlohy typu dotaz/odpověď. Aktuální modely jsou trénovány s využitím české verze datové sady pro ověřování faktů FEVER [4] Wikipedia, kterou vytvořil tým ČVUT. Trénování modelů využívá anotovaný datový soubor pro kontrolu faktů, vytvořený přímo nad daty ČTK (anotační aplikace úzce souvisí s vyhledávácí). Z pohledu uživatele umožňuje aplikace Fact Search vyhledávání dokumentů v reálném čase v rozsáhlých textových databázích a současně slouží k porovnává různých metod vyhledávání. Spolu s vyhledáváním poskytuje statistické údaje v jednotlivých krocích vyhledávání a také popis statistické distribuce dokumentů. Dále také poskytuje vysvětlení predikce na úrovni slova nebo věty, což pomáhá posoudit kvalitu modelu. Pro uživatele je důležité funkcionalita, která jim pomáhá zaměřit se na relevantní části analyzovaného textu. Aplikace dále obsahuje počáteční verzi modulu klasifikátoru, který poskytuje hodnocení věrohodnosti deklarace (w.r.t.) databáze zpráv. [1] Htut, Phu Mon, Samuel R. Bowman, and Kyunghyun Cho. "Training a ranking function for open-domain question answering." arXiv preprint arXiv:1804.04264 (2018). [2] Chang, Wei-Cheng, et al. "Pre-training tasks for embedding-based large-scale retrieval." arXiv preprint arXiv:2002.03932 (2020). [3] Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence embeddings using siamese BERT-networks." arXiv preprint arXiv:1908.10084 (2019). [4] Thorne, James, et al. "FEVER: a large-scale dataset for fact extraction and verification." arXiv preprint arXiv:1803.05355 (2018).
Název v anglickém jazyce
Fact Search and Analysis Tool
Popis výsledku anglicky
Fact Search and Analysis Tool (Fact Search shortly) analyzes and compares various types of semantic and keyword document retrieval methods. It is meant to work on news databases, although it can be easily modified to work with related data. The current implementation is built on the Czech News Agency archive of news articles from 2000 to 2019. We implement classic (keyword search) based on TFIDF [1] as well as state-of-the-art Transformer-like neural networks [2, 3] for the semantic-oriented search. The later models are trained with fact-checking, i.e., textual claim support/refusal, in mind. The application can be used for the related Question-Answering tasks as well. Current models are trained using a Czech version of the FEVER [4] Wikipedia fact-checking dataset, which was developed by the CTU team. The follow-up models' training will employ an annotated fact-checking dataset created directly atop of the ČTK data that is presently being collected (the annotation application is closely related to the Fact Search one). From the user perspective, the Fact Search application allows real-time document search in extensive textual databases, simultaneously comparing multiple search methods. Along with retrieved documents, it gives statistics of the search procedures as well as a statistical description of document distributions. As an additional part of the output, it also provides prediction explanations at the word or sentence level, which helps assess retrieval model quality. More importantly, it helps users to focus on relevant parts of the retrieved text. The application further contains an initial version of the classifier module, giving confidence levels of claim veracity w.r.t. the news database. [1] Htut, Phu Mon, Samuel R. Bowman, and Kyunghyun Cho. "Training a ranking function for open-domain question answering." arXiv preprint arXiv:1804.04264 (2018). [2] Chang, Wei-Cheng, et al. "Pre-training tasks for embedding-based large-scale retrieval." arXiv preprint arXiv:2002.03932 (2020). [3] Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence embeddings using siamese BERT-networks." arXiv preprint arXiv:1908.10084 (2019). [4] Thorne, James, et al. "FEVER: a large-scale dataset for fact extraction and verification." arXiv preprint arXiv:1803.05355 (2018).
Klasifikace
Druh
G<sub>funk</sub> - Funkční vzorek
CEP obor
—
OECD FORD obor
20206 - Computer hardware and architecture
Návaznosti výsledku
Projekt
<a href="/cs/project/TL02000288" target="_blank" >TL02000288: Proměna etických aspektů s nástupem žurnalistiky umělé inteligence</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
TL02000288-V4
Číselná identifikace
TL02000288-V4
Technické parametry
Aplikace je napsána převážně v jazyce Python 3. Pro učení neuronové modely byly použity knihovny PyTorch [1], Hugging Face Transformers [2] a sentece-transformers [3]. Model založený na klíčových slovech je postaven s použitím kódu DRQA [4]. Frontend je postaven na Dash[]. Aplikace je interně provozována na 4 jádrech procesoru Intel Xeon Scalable Gold 6150, 96GB RAM, 1x GPU Nvidia Tesla V100. [1] https://pytorch.org/ [2] https://huggingface.co/transformers/index.html [3] https://github.com/UKPLab/sentence-transformers [4] https://github.com/facebookresearch/DrQA [5] https://dash.plotly.com/ Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR ETA: TL02000288 pro výzkum.
Ekonomické parametry
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 50 000,- Kč a roční udržovací poplatek ve výši 10 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže. Vlastnictví výsledku je mezi partnery rozděleno následovně: ČTK- 12 %, ZČU- 29 %, UK- 29 %, ČVUT- 30 %
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
47115068
Název vlastníka
Česká tisková kancelář
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence
Požadavek na licenční poplatek
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Adresa www stránky s výsledkem
https://aijournalism.fsv.cuni.cz/