Anotační software dat vyvozování v přirozeném jazyce
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47115068%3A_____%2F21%3AN0000002" target="_blank" >RIV/47115068:_____/21:N0000002 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11230/21:10436080 RIV/68407700:21230/21:00354041
Výsledek na webu
<a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Anotační software dat vyvozování v přirozeném jazyce
Popis výsledku v původním jazyce
Byl vyvinut speciální anotační software pro vytváření unikátních datových sad, vhodných pro učení modelů řešících problém vyvozování v přirozeném jazyce (Natural Language Inference) zároveň byla vytvořena vlastní výstupní datová sada a zpřístupněna výzkumné veřejnosti. Sada obsahuje 3097 anotovaných textových tvrzení, doplněných o 1247 odstavců extrahovaných z 665 článků archivu ČTK. Systém pracuje na základě výběru relevantních vět v rámci dokumentů, a to na úrovni odstavců. Tvrzení jsou generována na základě náhodně vybraných článků a anotátor (až na výjimky) nesmí používat vlastní znalosti, k dispozici má jen znalostní rámec, což je výchozí článek a další relevantní texty —abstrakty článků odkazovaných z výchozího článku. Systém implementuje celý proces anotace, který se skládá z tvorby výchozích tvrzení, práci se zdrojovými odstavci a obměnami tvrzení, práci se znalostním rámcem, anotací správnosti cizích tvrzení na základě důkazu a případných doplňujících tvrzení.
Název v anglickém jazyce
Natural language inference data annotation software
Popis výsledku anglicky
A special annotation software was developed to create unique datasets suitable for learning models to solve the Natural Language Inference problem, while at the same time a custom output dataset was created and made available to the research community. The dataset contains 3097 annotated textual assertions, supplemented by 1247 paragraphs extracted from 665 articles in the CTK archive. The system operates by selecting relevant sentences within documents, at the paragraph level. Claims are generated based on randomly selected articles and the annotator (with exceptions) is not allowed to use his own knowledge, he has only the knowledge framework, which is the source article and other relevant texts -abstracts of articles referenced from the source article. The system implements the whole annotation process, which consists of making initial claims, working with the source paragraphs and variations of the claims, working with the knowledge framework, annotating the correctness of others' claims based on the evidence, and any additional claims.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/TL02000288" target="_blank" >TL02000288: Proměna etických aspektů s nástupem žurnalistiky umělé inteligence</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
TL02000288-V15
Technické parametry
Vlastní anotační software je implementován v programovacím jazyce Python 3. Uživatelské rozhraní je postaveno pomocí nástroje Dash. Anotační nástroj pracuje se zdrojovými texty, znalostním rámcem a pravdivými tvrzeními a jejich obměnami.
Ekonomické parametry
Výsledek je možné šířit bezúplatně pro nekomerční použití formou podlicence třetím osobám pod licencí Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 20 000,- Kč a roční udržovací poplatek ve výši 5 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 10 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.
IČO vlastníka výsledku
47115068
Název vlastníka
hledání Česká tisková kancelář