Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Nástroj pro klasifikaci mediálních textů: COVID-19class

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F21%3A10438374" target="_blank" >RIV/00216208:11230/21:10438374 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://www.infomore.cz" target="_blank" >http://www.infomore.cz</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Nástroj pro klasifikaci mediálních textů: COVID-19class

  • Popis výsledku v původním jazyce

    Funkční vzorek realizuje specializovaný nástroj pro zpracování mediálních textů (zkráceně COVID19class). Nástroj implementuje různé metody klasifikace sentimentu a kategorií mediálních dokumentů. Klasifikace textu je základním předpokladem pro hodnocení trendů mediálních zpráv a reakcí či postojů jejich čtenářů. Nástroj vznikl jako podpůrný prostředek při plnění cílů projektu TL04000176. Implementace a zejména použité modely strojového učení jsou postaveny na archivu zpravodajských článků, článků a diskusních příspěvcích sociálních sítí sbíraných firmou NEWTON Media, a.s., případně již připravených datových sad na dosažitelných na internetu (Yelp, ČSFD). Implementována je klasická klasifikace sentimentu pomocí několika variant algoritmů rozpoznávání včetně neuronových sítí. Aktuální modely pro diskuse o onemocnění COVID-19 jsou trénovány s využitím české anotované datové sady, kterou vytvořil tým FSV UK. Z pohledu uživatele umožňuje aplikace COVID19class klasifikaci textových článků a diskusních příspěvků v rozsáhlých textových databázích (odzkoušeno pro databáze mající až 60 tisíc příspěvků). Nástroj umožňuje volbu klasifikátorů a poskytuje statistické údaje o jednotlivých krocích klasifikace. Nástroj rovněž dovoluje klasifikovat texty podle shluků slov vázajících se k určitému tématu či jeho aspektu. Takové shluky slov je možné vytvořit manuálně či automatizovaně, např. pomocí shlukovacích metod, metod detekce témat či detekcí komunit. Funční vzorek je implementován v programovacím jazyce Python 3. Ovládá se přes příkazovou řádku. Je implementován pomocí knihoven Gensim, Sklearn, matplotlib, pandas, numpy. Vedle příkazové řádky nástroj umožňuje řídit parametry zpracování pomocí konfiguračních souborů. Pro anglické recenze Yelp bylo dosaženo celkové přesnosti klasifikace sentimentu 84 % (F1 scóre) na testovacích datech. Pro české recenze ČSFD jsme s nástrojem dosáhli celkové přesnosti 77 % (F1 scóre) na testovacích datech. Pro diskusní příspěvky zpráv s kovidovou tématikou anotovaných studenty FSV UK jsme však nepřesáhli přesnost 68 % (F1 scóre) na testovacích datech. Tato přesnost však odpovídá tomu, že získaný korpus je příliš malý (833 diskusních příspěvků) a dosažené výsledky odpovídají přesnostem, které jsme získali na uměle omezených předchozích dvou korpusech podobného rozsahu. Nejlepších výsledků jsme dosáhli pomocí klasifikátoru MLPClassifier. Nástroj byl použit i pro studium vlivu velikosti vektoru vnoření a vlivu počtu epoch jejich učení na přesnost klasifikace výsledků. Nástrojem se dají vytvořit i wordcloudy pro lexikon slov sentimentu.

  • Název v anglickém jazyce

    Media Text Classification Tool: COVID-19class

  • Popis výsledku anglicky

    The functional unit demonstrates a specialized media text processing tool (COVID19class for short). The tool implements various methods for sentiment and category classification of media documents. Text classification is a prerequisite for evaluating trends in media messages and the reactions or attitudes of their readers. The tool has been developed as a support tool for the objectives of the project TL04000176. The implementation and in particular the machine learning models used are based on an archive of news articles, articles and social media discussion posts collected by Newton Media, s.r.o. or already prepared datasets available on the Internet (Yelp, CSFD). Classical sentiment classification is implemented using several variants of recognition algorithms including neural networks [1]. Actual models for covid-related discussions are trained using the Czech annotated dataset created by the FSV UK team. From the user&apos;s point of view, covid19class enables the classification of text articles and discussion posts in large text databases (tested for databases having up to 60,000 posts). The tool allows the selection of classifiers and provides statistical data on individual classification steps. The tool also allows to classify texts according to clusters of words related to a certain topic or aspect of it. Such word clusters can be created manually or automatically, e.g. using clustering methods, topic detection methods or community detection. The functional unit is implemented in the Python 3 programming language. It is controlled via the command line. It is implemented using the libraries Gensim[2], Sklearn[3], matplotlib[4], pandas[5], numpy[6]. In addition to the command line, the tool allows to control processing parameters using configuration files. For the English Yelp reviews, an overall sentiment classification accuracy of 84% (F1 score) was achieved on the test data. For the Czech CSFD reviews, we achieved an overall accuracy of 77% (F1 score) with the tool on the test data. However, for discussion posts of news with covid topics annotated by FSV UK students, we did not exceed an accuracy of 68% (F1 score) on the test data. However, this accuracy is consistent with the fact that the obtained corpus is too small (833 discussion posts) and the results obtained are consistent with the accuracy we obtained on the artificially limited previous two corpora of similar size. The best results were obtained using the MLPClassifier classifier [7]. The tool was also used to study the effect of the size of the embedding vector and the effect of the number of epochs of their learning on the classification accuracy of the results. The tool can also be used to create wordclouds for a lexicon of sentiment words. Reference [1] Luis Pedro Coelho, Willi Richert. Building Machine Learning Systems with Python, Second Edition, 2015 [2] Gensim: https://radimrehurek.com/gensim/ [3] Scikit-learn: https://scikit-learn.org/ [4] Matplotlib: https://matplotlib.org/ [5] Pandas: https://pandas.pydata.org/ [6] Numpy: https://numpy.org/ [7]Multilayer Perceptron: https://scikit-learn.org/stable/modules/ neural_networks_supervised.html

Klasifikace

  • Druh

    G<sub>funk</sub> - Funkční vzorek

  • CEP obor

  • OECD FORD obor

    50802 - Media and socio-cultural communication

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TL04000176" target="_blank" >TL04000176: Covid-19 infodemie: AI komunikační platforma potlačující infodemii ve vazbě na novinářskou a mediální etiku</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2021

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    TL04000176-V3

  • Číselná identifikace

    TL04000176-V3

  • Technické parametry

    Aplikace je napsána převážně v jazyce Python 3. Je implementován pomocí knihoven Gensim[1], Sklearn[2], matplotlib[3], pandas[4], numpy[5]. Aplikace je interně provozována na 8 jádrech procesoru Intel Core i9-10885H, 64GB RAM, 1x GPU Nvidia GeForce RTX 2060 Max-Q. [1] Gensim: https://radimrehurek.com/gensim/ [2] Scikit-learn: https://scikit-learn.org/ [3] Matplotlib: https://matplotlib.org/ [4] Pandas: https://pandas.pydata.org/ [5] Numpy: https://numpy.org/ Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR ETA: TL04000176 pro výzkum. Především pak NEWTON Media, a.s.

  • Ekonomické parametry

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 20 000,- Kč a roční udržovací poplatek ve výši 5 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je propočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 15 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15% marže.

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Univerzita Karlova

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    A - K využití výsledku jiným subjektem je vždy nutné nabytí licence

  • Požadavek na licenční poplatek

    A - Poskytovatel licence na výsledek požaduje licenční poplatek

  • Adresa www stránky s výsledkem

    http://www.infomore.cz