All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

A machine learning model for clickbait analysis

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F21%3A10436344" target="_blank" >RIV/00216208:11230/21:10436344 - isvavai.cz</a>

  • Result on the web

    <a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Model strojového učení pro analýzu clickbaitu

  • Original language description

    Výsledkem typu funkční vzorek (Gfunk) je naučený model strojového učení pro analýzu a rozpoznávání clickbaitu. Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující nadpisy z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec tak měl výzkumný tým k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny 2 kategorie (normal, clickbait). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Vstup: Věta v článku/nadpis - krátký text, např.: &quot;Top 10 nejlepších vánočních receptů!!!&quot; Výstup: klasifikace: Hodnota od 0 do 1, která reprezentuje, do jaké míry je model přesvědčen, že je věta clickbait. Jako zlomová hodnota je tedy brána 0.5 (0.5 &gt; x - standardní věta; 0.5 &lt;= x - clickbait).

  • Czech name

    Model strojového učení pro analýzu clickbaitu

  • Czech description

    Výsledkem typu funkční vzorek (Gfunk) je naučený model strojového učení pro analýzu a rozpoznávání clickbaitu. Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující nadpisy z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec tak měl výzkumný tým k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny 2 kategorie (normal, clickbait). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Vstup: Věta v článku/nadpis - krátký text, např.: &quot;Top 10 nejlepších vánočních receptů!!!&quot; Výstup: klasifikace: Hodnota od 0 do 1, která reprezentuje, do jaké míry je model přesvědčen, že je věta clickbait. Jako zlomová hodnota je tedy brána 0.5 (0.5 &gt; x - standardní věta; 0.5 &lt;= x - clickbait).

Classification

  • Type

    G<sub>funk</sub> - Functional sample

  • CEP classification

  • OECD FORD branch

    50802 - Media and socio-cultural communication

Result continuities

  • Project

    <a href="/en/project/TL05000057" target="_blank" >TL05000057: The Signal and the Noise in the Era of Journalism 5.0 - A Comparative Perspective of Journalistic Genres of Automated Content</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2021

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    TL05000057-V11

  • Numerical identification

    S 313

  • Technical parameters

    Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující titulky z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec jsme tak měli k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny dvě kategorie (normal, clickbait). Model byl natrénován fine-tuningem rozsáhlého modelu small-e-czech od Seznamu, jenž vychází z modelu ELECTRA small (2020) a je jeho variantou zaměřenou na český jazyk. Samotný model je vytvořen v programovacím jazyce Python 3, kdy bylo pro jeho tvorbu použito Hugging Face Transformers a PyTorch. Pro jeho trénování byl využit GPU server (4xNVIDIA Tesla K80). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR.

  • Economical parameters

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 10 000,- Kč a roční udržovací poplatek ve výši 1 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.

  • Application category by cost

  • Owner IČO

    00216208

  • Owner name

    Univerzita Karlova

  • Owner country

    CZ - CZECH REPUBLIC

  • Usage type

    A - K využití výsledku jiným subjektem je vždy nutné nabytí licence

  • Licence fee requirement

    A - Poskytovatel licence na výsledek požaduje licenční poplatek

  • Web page

    https://aijournalism.fsv.cuni.cz/