Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Model strojového učení pro analýzu clickbaitu

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F21%3A10436344" target="_blank" >RIV/00216208:11230/21:10436344 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Model strojového učení pro analýzu clickbaitu

  • Popis výsledku v původním jazyce

    Výsledkem typu funkční vzorek (Gfunk) je naučený model strojového učení pro analýzu a rozpoznávání clickbaitu. Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující nadpisy z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec tak měl výzkumný tým k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny 2 kategorie (normal, clickbait). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Vstup: Věta v článku/nadpis - krátký text, např.: &quot;Top 10 nejlepších vánočních receptů!!!&quot; Výstup: klasifikace: Hodnota od 0 do 1, která reprezentuje, do jaké míry je model přesvědčen, že je věta clickbait. Jako zlomová hodnota je tedy brána 0.5 (0.5 &gt; x - standardní věta; 0.5 &lt;= x - clickbait).

  • Název v anglickém jazyce

    A machine learning model for clickbait analysis

  • Popis výsledku anglicky

    The result of the functional prototype is a learned machine learning model for clickbait analysis and recognition. The data used to learn the model was obtained by translating the freely available Kaggle Clickbait Dataset, which is a large annotated dataset containing headlines from several US news sites. The dataset was translated from English to English using the tool DeepL. We had a dataset of 32,000 article headlines with a balanced representation of 2 categories (normal, clickbait). 80 % of the data was used for training, where 20% was used for model evaluation. The achieved evaluation accuracy is 98.33%. Input: sentence in the article/title - short text, e.g., &quot;Top 10 best Christmas recipes!!!&quot; Output: classification: a value from 0 to 1 that represents how confident the model is that the sentence is clickbait. Thus, 0.5 is taken as the breakpoint (0.5 &gt; x - standard sentence; 0.5 &lt;= x - clickbait).

Klasifikace

  • Druh

    G<sub>funk</sub> - Funkční vzorek

  • CEP obor

  • OECD FORD obor

    50802 - Media and socio-cultural communication

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TL05000057" target="_blank" >TL05000057: Signál a šum v éře Žurnalistiky 5.0 - komparativní perspektiva novinářských žánrů automatizovaných obsahů</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2021

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    TL05000057-V11

  • Číselná identifikace

    S 313

  • Technické parametry

    Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující titulky z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec jsme tak měli k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny dvě kategorie (normal, clickbait). Model byl natrénován fine-tuningem rozsáhlého modelu small-e-czech od Seznamu, jenž vychází z modelu ELECTRA small (2020) a je jeho variantou zaměřenou na český jazyk. Samotný model je vytvořen v programovacím jazyce Python 3, kdy bylo pro jeho tvorbu použito Hugging Face Transformers a PyTorch. Pro jeho trénování byl využit GPU server (4xNVIDIA Tesla K80). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR.

  • Ekonomické parametry

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 10 000,- Kč a roční udržovací poplatek ve výši 1 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Univerzita Karlova

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    A - K využití výsledku jiným subjektem je vždy nutné nabytí licence

  • Požadavek na licenční poplatek

    A - Poskytovatel licence na výsledek požaduje licenční poplatek

  • Adresa www stránky s výsledkem

    https://aijournalism.fsv.cuni.cz/