Natural language inference data annotation software
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47115068%3A_____%2F21%3AN0000002" target="_blank" >RIV/47115068:_____/21:N0000002 - isvavai.cz</a>
Alternative codes found
RIV/00216208:11230/21:10436080 RIV/68407700:21230/21:00354041
Result on the web
<a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Anotační software dat vyvozování v přirozeném jazyce
Original language description
Byl vyvinut speciální anotační software pro vytváření unikátních datových sad, vhodných pro učení modelů řešících problém vyvozování v přirozeném jazyce (Natural Language Inference) zároveň byla vytvořena vlastní výstupní datová sada a zpřístupněna výzkumné veřejnosti. Sada obsahuje 3097 anotovaných textových tvrzení, doplněných o 1247 odstavců extrahovaných z 665 článků archivu ČTK. Systém pracuje na základě výběru relevantních vět v rámci dokumentů, a to na úrovni odstavců. Tvrzení jsou generována na základě náhodně vybraných článků a anotátor (až na výjimky) nesmí používat vlastní znalosti, k dispozici má jen znalostní rámec, což je výchozí článek a další relevantní texty —abstrakty článků odkazovaných z výchozího článku. Systém implementuje celý proces anotace, který se skládá z tvorby výchozích tvrzení, práci se zdrojovými odstavci a obměnami tvrzení, práci se znalostním rámcem, anotací správnosti cizích tvrzení na základě důkazu a případných doplňujících tvrzení.
Czech name
Anotační software dat vyvozování v přirozeném jazyce
Czech description
—
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
20205 - Automation and control systems
Result continuities
Project
<a href="/en/project/TL02000288" target="_blank" >TL02000288: Transformation of Journalisms Ethics in the Advent of Artificial Intelligence</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2021
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
TL02000288-V15
Technical parameters
Vlastní anotační software je implementován v programovacím jazyce Python 3. Uživatelské rozhraní je postaveno pomocí nástroje Dash. Anotační nástroj pracuje se zdrojovými texty, znalostním rámcem a pravdivými tvrzeními a jejich obměnami.
Economical parameters
Výsledek je možné šířit bezúplatně pro nekomerční použití formou podlicence třetím osobám pod licencí Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 20 000,- Kč a roční udržovací poplatek ve výši 5 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 10 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.
Owner IČO
47115068
Owner name
hledání Česká tisková kancelář