Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Algoritmy sumarizačních modelů pro extrakci tvrzení z textů

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F23%3A00372836" target="_blank" >RIV/68407700:21230/23:00372836 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences" target="_blank" >https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Algoritmy sumarizačních modelů pro extrakci tvrzení z textů

  • Popis výsledku v původním jazyce

    Funkční vzorek je soubor software algoritmů, které umožňují: Mediálním domům a žurnalistům pořizovat automatizované shrnutí textů, výběr podstatných informací, a tedy lepší orientaci ve vstupech s možností dodávat jako službu čtenářům. Pracovníkům v oblasti ověřování zpráv pak sumarizace umožní efektivnější výběr zpráv, které jsou vhodné pro následné ověřování. Pracovník nemusí pročítat veškerý text, dostane shrnutí, na základě kterého se rozhoduje o výběru zprávy pro ověřování. Zároveň umožní automaticky dohledat již existující zprávy, které vstupní tvrzení potvrzují nebo vyvrací. Což znovu zjednoduší práci novinářů a profesionálů v oblasti ověřování zpráv. Pokud bude nástroje používat běžný občan, může postupovat stejným způsobem, může si z velkých vstupních textů pořídit shrnutí, které mu umožní lepší orientaci v podstatě vstupního textu. Vstupním textem nemusí být nutně pouze zpravodajský článek, ale také smlouva, či jiný text, který člověk v každodenní praxi zpracovává.

  • Název v anglickém jazyce

    Summarization Algorithms for Extracting Assertions from Texts

  • Popis výsledku anglicky

    A functional sample is a set of software algorithms that allow: Media houses and journalists to take automated summaries of texts, selecting essential information and therefore better navigating inputs with the possibility to deliver as a service to readers. For news verifiers, summarisation will then enable more efficient selection of news that is suitable for subsequent verification. The worker does not have to read all the text, he or she is given a summary on the basis of which a decision is made on the selection of a message for verification. It will also allow to automatically search for existing reports that confirm or refute the input claim. Which will again simplify the work of journalists and news verification professionals. If the ordinary citizen uses the tools, he or she can follow the same procedure, taking a summary of the large input texts, which will give him or her a better understanding of the substance of the input text. The input text is not necessarily just a news article, but also a contract or other text that a person handles in their daily practice.

Klasifikace

  • Druh

    G<sub>funk</sub> - Funkční vzorek

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

    V - Vyzkumna aktivita podporovana z jinych verejnych zdroju

Ostatní

  • Rok uplatnění

    2023

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    Z220312000000-Sumarizace_M3.4

  • Číselná identifikace

    Z220312000000-Sumarizace_M3.4

  • Technické parametry

    Pro řešení této úlohy je veřejně k dispozici řada předtrénovaných modelů; z nich jsme pro vícejazyčné úlohy vybrali mBART a mT5 a pro anglické experimenty DistilBart, BART, PEGASUS a T5. Tyto modely byly dále laděny na rozsáhlých datových sadách: - FEVER (založeno na 50 tisících nejnavštěvovanějších článků Wikipedie), v adaptaci pro extrakci tvrzení FEVERSum, - XSum a XL-Sum vytvořené z veřejně dostupného archivu zpráv BBC, s každou zprávou shrnutou do jediné věcné věty profesionálním novinářem v jazycích zemí, kde BBC publikuje, - českou sadu SumeCzech – více než milion zpravodajských článků shrnutých do krátkého textového abstraktu a jednořádkového titulku, obojí psané česky mluvícím novinářem, - podobný soubor zpravodajských dat SME-Sum – 100 tisíc článků na sme.sk ve slovenštině, - vlastní dataset CTKFacts, který byl shromážděn na ČVUT v rámci dřívějšího projektu, a soubor nových anotací, které jsme provedli s českými studenty žurnalistiky s využitím podobného, upraveného rozhraní, nyní obsahuje celkem 4095 kontrolně hodnotných tvrzení extrahovaných anotátory přímo z článků ČTK. Pro interakci bylo vytvořeno webové uživatelské rozhraní “claim extractor”.

  • Ekonomické parametry

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence časově omezená, a to za poplatek 3 000,- Kč na měsíc, nebo 20 000,- Kč za rok. Vlastník ČVUT 80%, UK FSV 20%.

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    68407700

  • Název vlastníka

    České vysoké učení technické v Praze

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    V - Výsledek je využíván vlastníkem

  • Požadavek na licenční poplatek

    Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek

  • Adresa www stránky s výsledkem

    https://fsv.cuni.cz/en/news/central-european-digital-media-observatory-cedmo-will-be-located-faculty-social-sciences