All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Fact Search and Analysis Tool

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47115068%3A_____%2F20%3AN0000001" target="_blank" >RIV/47115068:_____/20:N0000001 - isvavai.cz</a>

  • Alternative codes found

    RIV/49777513:23520/20:43960298 RIV/68407700:21230/20:00344826 RIV/00216208:11230/20:10418571

  • Result on the web

    <a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Nástroj pro vyhledávání a analýzu faktů

  • Original language description

    Nástroj pro vyhledávání a analýzu faktů (zkráceně Fact Search) analyzuje a porovnává různé metody sémantického a na klíčová slova orientovaného vyhledávání dokumentů. Je určen pro práci nad databázemi zpráv, lze ho snadno upravit tak, aby pracoval se samostatnými textovými informacemi. Současná implementace je postavena na archivu zpravodajských článků České tiskové kanceláře (ČTK) z let 2000 až 2019. Implementováno je klasické vyhledávání (klíčových slov) založené na TFIDF [1] a také nejmodernější varianta, založená na Transformer-like neuronových sítích [2, 3] pro sémanticky orientované vyhledávání. Neuronové modely jsou trénovány s ohledem na kontrolu faktů, tj. podporu/odmítnutí tvrzení. Aplikaci lze také použít pro úlohy typu dotaz/odpověď. Aktuální modely jsou trénovány s využitím české verze datové sady pro ověřování faktů FEVER [4] Wikipedia, kterou vytvořil tým ČVUT. Trénování modelů využívá anotovaný datový soubor pro kontrolu faktů, vytvořený přímo nad daty ČTK (anotační aplikace úzce souvisí s vyhledávácí). Z pohledu uživatele umožňuje aplikace Fact Search vyhledávání dokumentů v reálném čase v rozsáhlých textových databázích a současně slouží k porovnává různých metod vyhledávání. Spolu s vyhledáváním poskytuje statistické údaje v jednotlivých krocích vyhledávání a také popis statistické distribuce dokumentů. Dále také poskytuje vysvětlení predikce na úrovni slova nebo věty, což pomáhá posoudit kvalitu modelu. Pro uživatele je důležité funkcionalita, která jim pomáhá zaměřit se na relevantní části analyzovaného textu. Aplikace dále obsahuje počáteční verzi modulu klasifikátoru, který poskytuje hodnocení věrohodnosti deklarace (w.r.t.) databáze zpráv. [1] Htut, Phu Mon, Samuel R. Bowman, and Kyunghyun Cho. "Training a ranking function for open-domain question answering." arXiv preprint arXiv:1804.04264 (2018). [2] Chang, Wei-Cheng, et al. "Pre-training tasks for embedding-based large-scale retrieval." arXiv preprint arXiv:2002.03932 (2020). [3] Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence embeddings using siamese BERT-networks." arXiv preprint arXiv:1908.10084 (2019). [4] Thorne, James, et al. "FEVER: a large-scale dataset for fact extraction and verification." arXiv preprint arXiv:1803.05355 (2018).

  • Czech name

    Nástroj pro vyhledávání a analýzu faktů

  • Czech description

    Nástroj pro vyhledávání a analýzu faktů (zkráceně Fact Search) analyzuje a porovnává různé metody sémantického a na klíčová slova orientovaného vyhledávání dokumentů. Je určen pro práci nad databázemi zpráv, lze ho snadno upravit tak, aby pracoval se samostatnými textovými informacemi. Současná implementace je postavena na archivu zpravodajských článků České tiskové kanceláře (ČTK) z let 2000 až 2019. Implementováno je klasické vyhledávání (klíčových slov) založené na TFIDF [1] a také nejmodernější varianta, založená na Transformer-like neuronových sítích [2, 3] pro sémanticky orientované vyhledávání. Neuronové modely jsou trénovány s ohledem na kontrolu faktů, tj. podporu/odmítnutí tvrzení. Aplikaci lze také použít pro úlohy typu dotaz/odpověď. Aktuální modely jsou trénovány s využitím české verze datové sady pro ověřování faktů FEVER [4] Wikipedia, kterou vytvořil tým ČVUT. Trénování modelů využívá anotovaný datový soubor pro kontrolu faktů, vytvořený přímo nad daty ČTK (anotační aplikace úzce souvisí s vyhledávácí). Z pohledu uživatele umožňuje aplikace Fact Search vyhledávání dokumentů v reálném čase v rozsáhlých textových databázích a současně slouží k porovnává různých metod vyhledávání. Spolu s vyhledáváním poskytuje statistické údaje v jednotlivých krocích vyhledávání a také popis statistické distribuce dokumentů. Dále také poskytuje vysvětlení predikce na úrovni slova nebo věty, což pomáhá posoudit kvalitu modelu. Pro uživatele je důležité funkcionalita, která jim pomáhá zaměřit se na relevantní části analyzovaného textu. Aplikace dále obsahuje počáteční verzi modulu klasifikátoru, který poskytuje hodnocení věrohodnosti deklarace (w.r.t.) databáze zpráv. [1] Htut, Phu Mon, Samuel R. Bowman, and Kyunghyun Cho. "Training a ranking function for open-domain question answering." arXiv preprint arXiv:1804.04264 (2018). [2] Chang, Wei-Cheng, et al. "Pre-training tasks for embedding-based large-scale retrieval." arXiv preprint arXiv:2002.03932 (2020). [3] Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence embeddings using siamese BERT-networks." arXiv preprint arXiv:1908.10084 (2019). [4] Thorne, James, et al. "FEVER: a large-scale dataset for fact extraction and verification." arXiv preprint arXiv:1803.05355 (2018).

Classification

  • Type

    G<sub>funk</sub> - Functional sample

  • CEP classification

  • OECD FORD branch

    20206 - Computer hardware and architecture

Result continuities

  • Project

    <a href="/en/project/TL02000288" target="_blank" >TL02000288: Transformation of Journalisms Ethics in the Advent of Artificial Intelligence</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2020

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    TL02000288-V4

  • Numerical identification

    TL02000288-V4

  • Technical parameters

    Aplikace je napsána převážně v jazyce Python 3. Pro učení neuronové modely byly použity knihovny PyTorch [1], Hugging Face Transformers [2] a sentece-transformers [3]. Model založený na klíčových slovech je postaven s použitím kódu DRQA [4]. Frontend je postaven na Dash[]. Aplikace je interně provozována na 4 jádrech procesoru Intel Xeon Scalable Gold 6150, 96GB RAM, 1x GPU Nvidia Tesla V100. [1] https://pytorch.org/ [2] https://huggingface.co/transformers/index.html [3] https://github.com/UKPLab/sentence-transformers [4] https://github.com/facebookresearch/DrQA [5] https://dash.plotly.com/ Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR ETA: TL02000288 pro výzkum.

  • Economical parameters

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 50 000,- Kč a roční udržovací poplatek ve výši 10 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže. Vlastnictví výsledku je mezi partnery rozděleno následovně: ČTK- 12 %, ZČU- 29 %, UK- 29 %, ČVUT- 30 %

  • Application category by cost

  • Owner IČO

    47115068

  • Owner name

    Česká tisková kancelář

  • Owner country

    CZ - CZECH REPUBLIC

  • Usage type

    P - Využití výsledku jiným subjektem je v některých případech možné bez nabytí licence

  • Licence fee requirement

    Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek

  • Web page

    https://aijournalism.fsv.cuni.cz/