Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Anotační software dat vyvozování v přirozeném jazyce

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47115068%3A_____%2F21%3AN0000002" target="_blank" >RIV/47115068:_____/21:N0000002 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/00216208:11230/21:10436080 RIV/68407700:21230/21:00354041

  • Výsledek na webu

    <a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Anotační software dat vyvozování v přirozeném jazyce

  • Popis výsledku v původním jazyce

    Byl vyvinut speciální anotační software pro vytváření unikátních datových sad, vhodných pro učení modelů řešících problém vyvozování v přirozeném jazyce (Natural Language Inference) zároveň byla vytvořena vlastní výstupní datová sada a zpřístupněna výzkumné veřejnosti. Sada obsahuje 3097 anotovaných textových tvrzení, doplněných o 1247 odstavců extrahovaných z 665 článků archivu ČTK. Systém pracuje na základě výběru relevantních vět v rámci dokumentů, a to na úrovni odstavců. Tvrzení jsou generována na základě náhodně vybraných článků a anotátor (až na výjimky) nesmí používat vlastní znalosti, k dispozici má jen znalostní rámec, což je výchozí článek a další relevantní texty —abstrakty článků odkazovaných z výchozího článku. Systém implementuje celý proces anotace, který se skládá z tvorby výchozích tvrzení, práci se zdrojovými odstavci a obměnami tvrzení, práci se znalostním rámcem, anotací správnosti cizích tvrzení na základě důkazu a případných doplňujících tvrzení.

  • Název v anglickém jazyce

    Natural language inference data annotation software

  • Popis výsledku anglicky

    A special annotation software was developed to create unique datasets suitable for learning models to solve the Natural Language Inference problem, while at the same time a custom output dataset was created and made available to the research community. The dataset contains 3097 annotated textual assertions, supplemented by 1247 paragraphs extracted from 665 articles in the CTK archive. The system operates by selecting relevant sentences within documents, at the paragraph level. Claims are generated based on randomly selected articles and the annotator (with exceptions) is not allowed to use his own knowledge, he has only the knowledge framework, which is the source article and other relevant texts -abstracts of articles referenced from the source article. The system implements the whole annotation process, which consists of making initial claims, working with the source paragraphs and variations of the claims, working with the knowledge framework, annotating the correctness of others' claims based on the evidence, and any additional claims.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    20205 - Automation and control systems

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TL02000288" target="_blank" >TL02000288: Proměna etických aspektů s nástupem žurnalistiky umělé inteligence</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2021

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    TL02000288-V15

  • Technické parametry

    Vlastní anotační software je implementován v programovacím jazyce Python 3. Uživatelské rozhraní je postaveno pomocí nástroje Dash. Anotační nástroj pracuje se zdrojovými texty, znalostním rámcem a pravdivými tvrzeními a jejich obměnami.

  • Ekonomické parametry

    Výsledek je možné šířit bezúplatně pro nekomerční použití formou podlicence třetím osobám pod licencí Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 20 000,- Kč a roční udržovací poplatek ve výši 5 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 10 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.

  • IČO vlastníka výsledku

    47115068

  • Název vlastníka

    hledání Česká tisková kancelář