Algoritmy sumarizačních modelů pro extrakci tvrzení z textů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F23%3A00372836" target="_blank" >RIV/68407700:21230/23:00372836 - isvavai.cz</a>
Výsledek na webu
<a href="https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences" target="_blank" >https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Algoritmy sumarizačních modelů pro extrakci tvrzení z textů
Popis výsledku v původním jazyce
Funkční vzorek je soubor software algoritmů, které umožňují: Mediálním domům a žurnalistům pořizovat automatizované shrnutí textů, výběr podstatných informací, a tedy lepší orientaci ve vstupech s možností dodávat jako službu čtenářům. Pracovníkům v oblasti ověřování zpráv pak sumarizace umožní efektivnější výběr zpráv, které jsou vhodné pro následné ověřování. Pracovník nemusí pročítat veškerý text, dostane shrnutí, na základě kterého se rozhoduje o výběru zprávy pro ověřování. Zároveň umožní automaticky dohledat již existující zprávy, které vstupní tvrzení potvrzují nebo vyvrací. Což znovu zjednoduší práci novinářů a profesionálů v oblasti ověřování zpráv. Pokud bude nástroje používat běžný občan, může postupovat stejným způsobem, může si z velkých vstupních textů pořídit shrnutí, které mu umožní lepší orientaci v podstatě vstupního textu. Vstupním textem nemusí být nutně pouze zpravodajský článek, ale také smlouva, či jiný text, který člověk v každodenní praxi zpracovává.
Název v anglickém jazyce
Summarization Algorithms for Extracting Assertions from Texts
Popis výsledku anglicky
A functional sample is a set of software algorithms that allow: Media houses and journalists to take automated summaries of texts, selecting essential information and therefore better navigating inputs with the possibility to deliver as a service to readers. For news verifiers, summarisation will then enable more efficient selection of news that is suitable for subsequent verification. The worker does not have to read all the text, he or she is given a summary on the basis of which a decision is made on the selection of a message for verification. It will also allow to automatically search for existing reports that confirm or refute the input claim. Which will again simplify the work of journalists and news verification professionals. If the ordinary citizen uses the tools, he or she can follow the same procedure, taking a summary of the large input texts, which will give him or her a better understanding of the substance of the input text. The input text is not necessarily just a news article, but also a contract or other text that a person handles in their daily practice.
Klasifikace
Druh
G<sub>funk</sub> - Funkční vzorek
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
V - Vyzkumna aktivita podporovana z jinych verejnych zdroju
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
Z220312000000-Sumarizace_M3.4
Číselná identifikace
Z220312000000-Sumarizace_M3.4
Technické parametry
Pro řešení této úlohy je veřejně k dispozici řada předtrénovaných modelů; z nich jsme pro vícejazyčné úlohy vybrali mBART a mT5 a pro anglické experimenty DistilBart, BART, PEGASUS a T5. Tyto modely byly dále laděny na rozsáhlých datových sadách: - FEVER (založeno na 50 tisících nejnavštěvovanějších článků Wikipedie), v adaptaci pro extrakci tvrzení FEVERSum, - XSum a XL-Sum vytvořené z veřejně dostupného archivu zpráv BBC, s každou zprávou shrnutou do jediné věcné věty profesionálním novinářem v jazycích zemí, kde BBC publikuje, - českou sadu SumeCzech – více než milion zpravodajských článků shrnutých do krátkého textového abstraktu a jednořádkového titulku, obojí psané česky mluvícím novinářem, - podobný soubor zpravodajských dat SME-Sum – 100 tisíc článků na sme.sk ve slovenštině, - vlastní dataset CTKFacts, který byl shromážděn na ČVUT v rámci dřívějšího projektu, a soubor nových anotací, které jsme provedli s českými studenty žurnalistiky s využitím podobného, upraveného rozhraní, nyní obsahuje celkem 4095 kontrolně hodnotných tvrzení extrahovaných anotátory přímo z článků ČTK. Pro interakci bylo vytvořeno webové uživatelské rozhraní “claim extractor”.
Ekonomické parametry
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence časově omezená, a to za poplatek 3 000,- Kč na měsíc, nebo 20 000,- Kč za rok. Vlastník ČVUT 80%, UK FSV 20%.
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
68407700
Název vlastníka
České vysoké učení technické v Praze
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
V - Výsledek je využíván vlastníkem
Požadavek na licenční poplatek
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Adresa www stránky s výsledkem
https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences