Summarization Algorithms for Extracting Assertions from Texts
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F23%3A00372836" target="_blank" >RIV/68407700:21230/23:00372836 - isvavai.cz</a>
Result on the web
<a href="https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences" target="_blank" >https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Algoritmy sumarizačních modelů pro extrakci tvrzení z textů
Original language description
Funkční vzorek je soubor software algoritmů, které umožňují: Mediálním domům a žurnalistům pořizovat automatizované shrnutí textů, výběr podstatných informací, a tedy lepší orientaci ve vstupech s možností dodávat jako službu čtenářům. Pracovníkům v oblasti ověřování zpráv pak sumarizace umožní efektivnější výběr zpráv, které jsou vhodné pro následné ověřování. Pracovník nemusí pročítat veškerý text, dostane shrnutí, na základě kterého se rozhoduje o výběru zprávy pro ověřování. Zároveň umožní automaticky dohledat již existující zprávy, které vstupní tvrzení potvrzují nebo vyvrací. Což znovu zjednoduší práci novinářů a profesionálů v oblasti ověřování zpráv. Pokud bude nástroje používat běžný občan, může postupovat stejným způsobem, může si z velkých vstupních textů pořídit shrnutí, které mu umožní lepší orientaci v podstatě vstupního textu. Vstupním textem nemusí být nutně pouze zpravodajský článek, ale také smlouva, či jiný text, který člověk v každodenní praxi zpracovává.
Czech name
Algoritmy sumarizačních modelů pro extrakci tvrzení z textů
Czech description
Funkční vzorek je soubor software algoritmů, které umožňují: Mediálním domům a žurnalistům pořizovat automatizované shrnutí textů, výběr podstatných informací, a tedy lepší orientaci ve vstupech s možností dodávat jako službu čtenářům. Pracovníkům v oblasti ověřování zpráv pak sumarizace umožní efektivnější výběr zpráv, které jsou vhodné pro následné ověřování. Pracovník nemusí pročítat veškerý text, dostane shrnutí, na základě kterého se rozhoduje o výběru zprávy pro ověřování. Zároveň umožní automaticky dohledat již existující zprávy, které vstupní tvrzení potvrzují nebo vyvrací. Což znovu zjednoduší práci novinářů a profesionálů v oblasti ověřování zpráv. Pokud bude nástroje používat běžný občan, může postupovat stejným způsobem, může si z velkých vstupních textů pořídit shrnutí, které mu umožní lepší orientaci v podstatě vstupního textu. Vstupním textem nemusí být nutně pouze zpravodajský článek, ale také smlouva, či jiný text, který člověk v každodenní praxi zpracovává.
Classification
Type
G<sub>funk</sub> - Functional sample
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Result continuities
Project
—
Continuities
V - Vyzkumna aktivita podporovana z jinych verejnych zdroju
Others
Publication year
2023
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
Z220312000000-Sumarizace_M3.4
Numerical identification
Z220312000000-Sumarizace_M3.4
Technical parameters
Pro řešení této úlohy je veřejně k dispozici řada předtrénovaných modelů; z nich jsme pro vícejazyčné úlohy vybrali mBART a mT5 a pro anglické experimenty DistilBart, BART, PEGASUS a T5. Tyto modely byly dále laděny na rozsáhlých datových sadách: - FEVER (založeno na 50 tisících nejnavštěvovanějších článků Wikipedie), v adaptaci pro extrakci tvrzení FEVERSum, - XSum a XL-Sum vytvořené z veřejně dostupného archivu zpráv BBC, s každou zprávou shrnutou do jediné věcné věty profesionálním novinářem v jazycích zemí, kde BBC publikuje, - českou sadu SumeCzech – více než milion zpravodajských článků shrnutých do krátkého textového abstraktu a jednořádkového titulku, obojí psané česky mluvícím novinářem, - podobný soubor zpravodajských dat SME-Sum – 100 tisíc článků na sme.sk ve slovenštině, - vlastní dataset CTKFacts, který byl shromážděn na ČVUT v rámci dřívějšího projektu, a soubor nových anotací, které jsme provedli s českými studenty žurnalistiky s využitím podobného, upraveného rozhraní, nyní obsahuje celkem 4095 kontrolně hodnotných tvrzení extrahovaných anotátory přímo z článků ČTK. Pro interakci bylo vytvořeno webové uživatelské rozhraní “claim extractor”.
Economical parameters
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence časově omezená, a to za poplatek 3 000,- Kč na měsíc, nebo 20 000,- Kč za rok. Vlastník ČVUT 80%, UK FSV 20%.
Application category by cost
—
Owner IČO
68407700
Owner name
České vysoké učení technické v Praze
Owner country
CZ - CZECH REPUBLIC
Usage type
V - Výsledek je využíván vlastníkem
Licence fee requirement
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Web page
https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences