Model strojového učení pro analýzu clickbaitu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F21%3A10436344" target="_blank" >RIV/00216208:11230/21:10436344 - isvavai.cz</a>
Výsledek na webu
<a href="https://aijournalism.fsv.cuni.cz/" target="_blank" >https://aijournalism.fsv.cuni.cz/</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Model strojového učení pro analýzu clickbaitu
Popis výsledku v původním jazyce
Výsledkem typu funkční vzorek (Gfunk) je naučený model strojového učení pro analýzu a rozpoznávání clickbaitu. Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující nadpisy z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec tak měl výzkumný tým k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny 2 kategorie (normal, clickbait). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Vstup: Věta v článku/nadpis - krátký text, např.: "Top 10 nejlepších vánočních receptů!!!" Výstup: klasifikace: Hodnota od 0 do 1, která reprezentuje, do jaké míry je model přesvědčen, že je věta clickbait. Jako zlomová hodnota je tedy brána 0.5 (0.5 > x - standardní věta; 0.5 <= x - clickbait).
Název v anglickém jazyce
A machine learning model for clickbait analysis
Popis výsledku anglicky
The result of the functional prototype is a learned machine learning model for clickbait analysis and recognition. The data used to learn the model was obtained by translating the freely available Kaggle Clickbait Dataset, which is a large annotated dataset containing headlines from several US news sites. The dataset was translated from English to English using the tool DeepL. We had a dataset of 32,000 article headlines with a balanced representation of 2 categories (normal, clickbait). 80 % of the data was used for training, where 20% was used for model evaluation. The achieved evaluation accuracy is 98.33%. Input: sentence in the article/title - short text, e.g., "Top 10 best Christmas recipes!!!" Output: classification: a value from 0 to 1 that represents how confident the model is that the sentence is clickbait. Thus, 0.5 is taken as the breakpoint (0.5 > x - standard sentence; 0.5 <= x - clickbait).
Klasifikace
Druh
G<sub>funk</sub> - Funkční vzorek
CEP obor
—
OECD FORD obor
50802 - Media and socio-cultural communication
Návaznosti výsledku
Projekt
<a href="/cs/project/TL05000057" target="_blank" >TL05000057: Signál a šum v éře Žurnalistiky 5.0 - komparativní perspektiva novinářských žánrů automatizovaných obsahů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
TL05000057-V11
Číselná identifikace
S 313
Technické parametry
Data použitá pro naučení modelu byla získána přeložením volně dostupné datové sady Kaggle Clickbait Dataset, což je rozsáhlý anotovaný dataset obsahující titulky z několika amerických zpravodajských serverů. Z angličtiny do češtiny byl dataset přeložen pomocí nástroje DeepL. Nakonec jsme tak měli k dispozici dataset 32 000 titulků článků, kde jsou vyváženě zastoupeny dvě kategorie (normal, clickbait). Model byl natrénován fine-tuningem rozsáhlého modelu small-e-czech od Seznamu, jenž vychází z modelu ELECTRA small (2020) a je jeho variantou zaměřenou na český jazyk. Samotný model je vytvořen v programovacím jazyce Python 3, kdy bylo pro jeho tvorbu použito Hugging Face Transformers a PyTorch. Pro jeho trénování byl využit GPU server (4xNVIDIA Tesla K80). K trénování bylo použito 80 % dat, kdy 20 % bylo využito k evaluaci modelu. Dosažená evaluační přesnost je 98.33 %. Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR.
Ekonomické parametry
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 10 000,- Kč a roční udržovací poplatek ve výši 1 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je spočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 5 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15 % marže.
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
00216208
Název vlastníka
Univerzita Karlova
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
A - K využití výsledku jiným subjektem je vždy nutné nabytí licence
Požadavek na licenční poplatek
A - Poskytovatel licence na výsledek požaduje licenční poplatek
Adresa www stránky s výsledkem
https://aijournalism.fsv.cuni.cz/