Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Nástroj pro vyhledávání a analýzu faktů

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47115068%3A_____%2F20%3AN0000001" target="_blank" >RIV/47115068:_____/20:N0000001 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/49777513:23520/20:43960298 RIV/68407700:21230/20:00344826 RIV/00216208:11230/20:10418571

  • Výsledek na webu

    <a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Nástroj pro vyhledávání a analýzu faktů

  • Popis výsledku v původním jazyce

    Nástroj pro vyhledávání a analýzu faktů (zkráceně Fact Search) analyzuje a porovnává různé metody sémantického a na klíčová slova orientovaného vyhledávání dokumentů. Je určen pro práci nad databázemi zpráv, lze ho snadno upravit tak, aby pracoval se samostatnými textovými informacemi. Současná implementace je postavena na archivu zpravodajských článků České tiskové kanceláře (ČTK) z let 2000 až 2019. Implementováno je klasické vyhledávání (klíčových slov) založené na TFIDF [1] a také nejmodernější varianta, založená na Transformer-like neuronových sítích [2, 3] pro sémanticky orientované vyhledávání. Neuronové modely jsou trénovány s ohledem na kontrolu faktů, tj. podporu/odmítnutí tvrzení. Aplikaci lze také použít pro úlohy typu dotaz/odpověď. Aktuální modely jsou trénovány s využitím české verze datové sady pro ověřování faktů FEVER [4] Wikipedia, kterou vytvořil tým ČVUT. Trénování modelů využívá anotovaný datový soubor pro kontrolu faktů, vytvořený přímo nad daty ČTK (anotační aplikace úzce souvisí s vyhledávácí). Z pohledu uživatele umožňuje aplikace Fact Search vyhledávání dokumentů v reálném čase v rozsáhlých textových databázích a současně slouží k porovnává různých metod vyhledávání. Spolu s vyhledáváním poskytuje statistické údaje v jednotlivých krocích vyhledávání a také popis statistické distribuce dokumentů. Dále také poskytuje vysvětlení predikce na úrovni slova nebo věty, což pomáhá posoudit kvalitu modelu. Pro uživatele je důležité funkcionalita, která jim pomáhá zaměřit se na relevantní části analyzovaného textu. Aplikace dále obsahuje počáteční verzi modulu klasifikátoru, který poskytuje hodnocení věrohodnosti deklarace (w.r.t.) databáze zpráv. [1] Htut, Phu Mon, Samuel R. Bowman, and Kyunghyun Cho. "Training a ranking function for open-domain question answering." arXiv preprint arXiv:1804.04264 (2018). [2] Chang, Wei-Cheng, et al. "Pre-training tasks for embedding-based large-scale retrieval." arXiv preprint arXiv:2002.03932 (2020). [3] Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence embeddings using siamese BERT-networks." arXiv preprint arXiv:1908.10084 (2019). [4] Thorne, James, et al. "FEVER: a large-scale dataset for fact extraction and verification." arXiv preprint arXiv:1803.05355 (2018).

  • Název v anglickém jazyce

    Fact Search and Analysis Tool

  • Popis výsledku anglicky

    Fact Search and Analysis Tool (Fact Search shortly) analyzes and compares various types of semantic and keyword document retrieval methods. It is meant to work on news databases, although it can be easily modified to work with related data. The current implementation is built on the Czech News Agency archive of news articles from 2000 to 2019. We implement classic (keyword search) based on TFIDF [1] as well as state-of-the-art Transformer-like neural networks [2, 3] for the semantic-oriented search. The later models are trained with fact-checking, i.e., textual claim support/refusal, in mind. The application can be used for the related Question-Answering tasks as well. Current models are trained using a Czech version of the FEVER [4] Wikipedia fact-checking dataset, which was developed by the CTU team. The follow-up models' training will employ an annotated fact-checking dataset created directly atop of the ČTK data that is presently being collected (the annotation application is closely related to the Fact Search one). From the user perspective, the Fact Search application allows real-time document search in extensive textual databases, simultaneously comparing multiple search methods. Along with retrieved documents, it gives statistics of the search procedures as well as a statistical description of document distributions. As an additional part of the output, it also provides prediction explanations at the word or sentence level, which helps assess retrieval model quality. More importantly, it helps users to focus on relevant parts of the retrieved text. The application further contains an initial version of the classifier module, giving confidence levels of claim veracity w.r.t. the news database. [1] Htut, Phu Mon, Samuel R. Bowman, and Kyunghyun Cho. "Training a ranking function for open-domain question answering." arXiv preprint arXiv:1804.04264 (2018). [2] Chang, Wei-Cheng, et al. "Pre-training tasks for embedding-based large-scale retrieval." arXiv preprint arXiv:2002.03932 (2020). [3] Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence embeddings using siamese BERT-networks." arXiv preprint arXiv:1908.10084 (2019). [4] Thorne, James, et al. "FEVER: a large-scale dataset for fact extraction and verification." arXiv preprint arXiv:1803.05355 (2018).

Klasifikace

  • Druh

    G<sub>funk</sub> - Funkční vzorek

  • CEP obor

  • OECD FORD obor

    20206 - Computer hardware and architecture

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TL02000288" target="_blank" >TL02000288: Proměna etických aspektů s nástupem žurnalistiky umělé inteligence</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2020

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    TL02000288-V4

  • Číselná identifikace

    TL02000288-V4

  • Technické parametry

    Aplikace je napsána převážně v jazyce Python 3. Pro učení neuronové modely byly použity knihovny PyTorch [1], Hugging Face Transformers [2] a sentece-transformers [3]. Model založený na klíčových slovech je postaven s použitím kódu DRQA [4]. Frontend je postaven na Dash[]. Aplikace je interně provozována na 4 jádrech procesoru Intel Xeon Scalable Gold 6150, 96GB RAM, 1x GPU Nvidia Tesla V100. [1] https://pytorch.org/ [2] https://huggingface.co/transformers/index.html [3] https://github.com/UKPLab/sentence-transformers [4] https://github.com/facebookresearch/DrQA [5] https://dash.plotly.com/ Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR ETA: TL02000288 pro výzkum.

  • Ekonomické parametry

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 50 000,- Kč a roční udržovací poplatek ve výši 10 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže. Vlastnictví výsledku je mezi partnery rozděleno následovně: ČTK- 12 %, ZČU- 29 %, UK- 29 %, ČVUT- 30 %

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    47115068

  • Název vlastníka

    Česká tisková kancelář

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence

  • Požadavek na licenční poplatek

    Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek

  • Adresa www stránky s výsledkem

    https://aijournalism.fsv.cuni.cz/