Summarization Algorithms for Extracting Assertions from Texts

The result's identifiers

Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F23%3A00372836" target="_blank" >RIV/68407700:21230/23:00372836 - isvavai.cz</a>
Result on the web
<a href="https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences" target="_blank" >https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences</a>
DOI - Digital Object Identifier
—

Alternative languages

Result language
čeština
Original language name
Algoritmy sumarizačních modelů pro extrakci tvrzení z textů
Original language description
Funkční vzorek je soubor software algoritmů, které umožňují: Mediálním domům a žurnalistům pořizovat automatizované shrnutí textů, výběr podstatných informací, a tedy lepší orientaci ve vstupech s možností dodávat jako službu čtenářům. Pracovníkům v oblasti ověřování zpráv pak sumarizace umožní efektivnější výběr zpráv, které jsou vhodné pro následné ověřování. Pracovník nemusí pročítat veškerý text, dostane shrnutí, na základě kterého se rozhoduje o výběru zprávy pro ověřování. Zároveň umožní automaticky dohledat již existující zprávy, které vstupní tvrzení potvrzují nebo vyvrací. Což znovu zjednoduší práci novinářů a profesionálů v oblasti ověřování zpráv. Pokud bude nástroje používat běžný občan, může postupovat stejným způsobem, může si z velkých vstupních textů pořídit shrnutí, které mu umožní lepší orientaci v podstatě vstupního textu. Vstupním textem nemusí být nutně pouze zpravodajský článek, ale také smlouva, či jiný text, který člověk v každodenní praxi zpracovává.
Czech name
Algoritmy sumarizačních modelů pro extrakci tvrzení z textů
Czech description
Funkční vzorek je soubor software algoritmů, které umožňují: Mediálním domům a žurnalistům pořizovat automatizované shrnutí textů, výběr podstatných informací, a tedy lepší orientaci ve vstupech s možností dodávat jako službu čtenářům. Pracovníkům v oblasti ověřování zpráv pak sumarizace umožní efektivnější výběr zpráv, které jsou vhodné pro následné ověřování. Pracovník nemusí pročítat veškerý text, dostane shrnutí, na základě kterého se rozhoduje o výběru zprávy pro ověřování. Zároveň umožní automaticky dohledat již existující zprávy, které vstupní tvrzení potvrzují nebo vyvrací. Což znovu zjednoduší práci novinářů a profesionálů v oblasti ověřování zpráv. Pokud bude nástroje používat běžný občan, může postupovat stejným způsobem, může si z velkých vstupních textů pořídit shrnutí, které mu umožní lepší orientaci v podstatě vstupního textu. Vstupním textem nemusí být nutně pouze zpravodajský článek, ale také smlouva, či jiný text, který člověk v každodenní praxi zpracovává.

Classification

Type
G<sub>funk</sub> - Functional sample
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Result continuities

Project
—
Continuities
V - Vyzkumna aktivita podporovana z jinych verejnych zdroju

Others

Publication year
2023
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

Internal product ID
Z220312000000-Sumarizace_M3.4
Numerical identification
Z220312000000-Sumarizace_M3.4
Technical parameters
Pro řešení této úlohy je veřejně k dispozici řada předtrénovaných modelů; z nich jsme pro vícejazyčné úlohy vybrali mBART a mT5 a pro anglické experimenty DistilBart, BART, PEGASUS a T5. Tyto modely byly dále laděny na rozsáhlých datových sadách: - FEVER (založeno na 50 tisících nejnavštěvovanějších článků Wikipedie), v adaptaci pro extrakci tvrzení FEVERSum, - XSum a XL-Sum vytvořené z veřejně dostupného archivu zpráv BBC, s každou zprávou shrnutou do jediné věcné věty profesionálním novinářem v jazycích zemí, kde BBC publikuje, - českou sadu SumeCzech – více než milion zpravodajských článků shrnutých do krátkého textového abstraktu a jednořádkového titulku, obojí psané česky mluvícím novinářem, - podobný soubor zpravodajských dat SME-Sum – 100 tisíc článků na sme.sk ve slovenštině, - vlastní dataset CTKFacts, který byl shromážděn na ČVUT v rámci dřívějšího projektu, a soubor nových anotací, které jsme provedli s českými studenty žurnalistiky s využitím podobného, upraveného rozhraní, nyní obsahuje celkem 4095 kontrolně hodnotných tvrzení extrahovaných anotátory přímo z článků ČTK. Pro interakci bylo vytvořeno webové uživatelské rozhraní “claim extractor”.
Economical parameters
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence časově omezená, a to za poplatek 3 000,- Kč na měsíc, nebo 20 000,- Kč za rok. Vlastník ČVUT 80%, UK FSV 20%.
Application category by cost
—
Owner IČO
68407700
Owner name
České vysoké učení technické v Praze
Owner country
CZ - CZECH REPUBLIC
Usage type
V - Výsledek je využíván vlastníkem
Licence fee requirement
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Web page
https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences

Similar results(10)

Integration ICT into teaching and learning combinatorics and combinatorial algorithms Demonstration application of automatic news text generation and news content analysis Story as Part of News

What are you looking for?

Quick search

Smart search

Summarization Algorithms for Extracting Assertions from Texts

The result's identifiers

Alternative languages

Classification

Result continuities

Others

Data specific for result type

Similar results(10)

What are you looking for?

Quick search

Smart search

Result description

The result's identifiers

The result's identifiers

Alternative languages

Alternative languages

Classification

Classification

Result continuities

Result continuities

Others

Others

Data specific for result type

Data specific for result type

Similar results(10)