A machine learning model for clickbait analysis
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F21%3A10436344" target="_blank" >RIV/00216208:11230/21:10436344 - isvavai.cz</a>
Result on the web
<a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Model strojového učení pro analýzu clickbaitu
Original language description
Výsledkem typu funkční vzorek (Gfunk) je naučený model strojového učení pro analýzu a rozpoznávání clickbaitu. Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující nadpisy z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec tak měl výzkumný tým k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny 2 kategorie (normal, clickbait). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Vstup: Věta v článku/nadpis - krátký text, např.: "Top 10 nejlepších vánočních receptů!!!" Výstup: klasifikace: Hodnota od 0 do 1, která reprezentuje, do jaké míry je model přesvědčen, že je věta clickbait. Jako zlomová hodnota je tedy brána 0.5 (0.5 > x - standardní věta; 0.5 <= x - clickbait).
Czech name
Model strojového učení pro analýzu clickbaitu
Czech description
Výsledkem typu funkční vzorek (Gfunk) je naučený model strojového učení pro analýzu a rozpoznávání clickbaitu. Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující nadpisy z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec tak měl výzkumný tým k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny 2 kategorie (normal, clickbait). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Vstup: Věta v článku/nadpis - krátký text, např.: "Top 10 nejlepších vánočních receptů!!!" Výstup: klasifikace: Hodnota od 0 do 1, která reprezentuje, do jaké míry je model přesvědčen, že je věta clickbait. Jako zlomová hodnota je tedy brána 0.5 (0.5 > x - standardní věta; 0.5 <= x - clickbait).
Classification
Type
G<sub>funk</sub> - Functional sample
CEP classification
—
OECD FORD branch
50802 - Media and socio-cultural communication
Result continuities
Project
<a href="/en/project/TL05000057" target="_blank" >TL05000057: The Signal and the Noise in the Era of Journalism 5.0 - A Comparative Perspective of Journalistic Genres of Automated Content</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2021
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
TL05000057-V11
Numerical identification
S 313
Technical parameters
Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující titulky z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec jsme tak měli k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny dvě kategorie (normal, clickbait). Model byl natrénován fine-tuningem rozsáhlého modelu small-e-czech od Seznamu, jenž vychází z modelu ELECTRA small (2020) a je jeho variantou zaměřenou na český jazyk. Samotný model je vytvořen v programovacím jazyce Python 3, kdy bylo pro jeho tvorbu použito Hugging Face Transformers a PyTorch. Pro jeho trénování byl využit GPU server (4xNVIDIA Tesla K80). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR.
Economical parameters
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 10 000,- Kč a roční udržovací poplatek ve výši 1 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.
Application category by cost
—
Owner IČO
00216208
Owner name
Univerzita Karlova
Owner country
CZ - CZECH REPUBLIC
Usage type
A - K využití výsledku jiným subjektem je vždy nutné nabytí licence
Licence fee requirement
A - Poskytovatel licence na výsledek požaduje licenční poplatek
Web page
https://aijournalism.fsv.cuni.cz/