All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Media Text Classification Tool: COVID-19class

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11230%2F21%3A10438374" target="_blank" >RIV/00216208:11230/21:10438374 - isvavai.cz</a>

  • Result on the web

    <a href="http://www.infomore.cz" target="_blank" >http://www.infomore.cz</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Nástroj pro klasifikaci mediálních textů: COVID-19class

  • Original language description

    Funkční vzorek realizuje specializovaný nástroj pro zpracování mediálních textů (zkráceně COVID19class). Nástroj implementuje různé metody klasifikace sentimentu a kategorií mediálních dokumentů. Klasifikace textu je základním předpokladem pro hodnocení trendů mediálních zpráv a reakcí či postojů jejich čtenářů. Nástroj vznikl jako podpůrný prostředek při plnění cílů projektu TL04000176. Implementace a zejména použité modely strojového učení jsou postaveny na archivu zpravodajských článků, článků a diskusních příspěvcích sociálních sítí sbíraných firmou NEWTON Media, a.s., případně již připravených datových sad na dosažitelných na internetu (Yelp, ČSFD). Implementována je klasická klasifikace sentimentu pomocí několika variant algoritmů rozpoznávání včetně neuronových sítí. Aktuální modely pro diskuse o onemocnění COVID-19 jsou trénovány s využitím české anotované datové sady, kterou vytvořil tým FSV UK. Z pohledu uživatele umožňuje aplikace COVID19class klasifikaci textových článků a diskusních příspěvků v rozsáhlých textových databázích (odzkoušeno pro databáze mající až 60 tisíc příspěvků). Nástroj umožňuje volbu klasifikátorů a poskytuje statistické údaje o jednotlivých krocích klasifikace. Nástroj rovněž dovoluje klasifikovat texty podle shluků slov vázajících se k určitému tématu či jeho aspektu. Takové shluky slov je možné vytvořit manuálně či automatizovaně, např. pomocí shlukovacích metod, metod detekce témat či detekcí komunit. Funční vzorek je implementován v programovacím jazyce Python 3. Ovládá se přes příkazovou řádku. Je implementován pomocí knihoven Gensim, Sklearn, matplotlib, pandas, numpy. Vedle příkazové řádky nástroj umožňuje řídit parametry zpracování pomocí konfiguračních souborů. Pro anglické recenze Yelp bylo dosaženo celkové přesnosti klasifikace sentimentu 84 % (F1 scóre) na testovacích datech. Pro české recenze ČSFD jsme s nástrojem dosáhli celkové přesnosti 77 % (F1 scóre) na testovacích datech. Pro diskusní příspěvky zpráv s kovidovou tématikou anotovaných studenty FSV UK jsme však nepřesáhli přesnost 68 % (F1 scóre) na testovacích datech. Tato přesnost však odpovídá tomu, že získaný korpus je příliš malý (833 diskusních příspěvků) a dosažené výsledky odpovídají přesnostem, které jsme získali na uměle omezených předchozích dvou korpusech podobného rozsahu. Nejlepších výsledků jsme dosáhli pomocí klasifikátoru MLPClassifier. Nástroj byl použit i pro studium vlivu velikosti vektoru vnoření a vlivu počtu epoch jejich učení na přesnost klasifikace výsledků. Nástrojem se dají vytvořit i wordcloudy pro lexikon slov sentimentu.

  • Czech name

    Nástroj pro klasifikaci mediálních textů: COVID-19class

  • Czech description

    Funkční vzorek realizuje specializovaný nástroj pro zpracování mediálních textů (zkráceně COVID19class). Nástroj implementuje různé metody klasifikace sentimentu a kategorií mediálních dokumentů. Klasifikace textu je základním předpokladem pro hodnocení trendů mediálních zpráv a reakcí či postojů jejich čtenářů. Nástroj vznikl jako podpůrný prostředek při plnění cílů projektu TL04000176. Implementace a zejména použité modely strojového učení jsou postaveny na archivu zpravodajských článků, článků a diskusních příspěvcích sociálních sítí sbíraných firmou NEWTON Media, a.s., případně již připravených datových sad na dosažitelných na internetu (Yelp, ČSFD). Implementována je klasická klasifikace sentimentu pomocí několika variant algoritmů rozpoznávání včetně neuronových sítí. Aktuální modely pro diskuse o onemocnění COVID-19 jsou trénovány s využitím české anotované datové sady, kterou vytvořil tým FSV UK. Z pohledu uživatele umožňuje aplikace COVID19class klasifikaci textových článků a diskusních příspěvků v rozsáhlých textových databázích (odzkoušeno pro databáze mající až 60 tisíc příspěvků). Nástroj umožňuje volbu klasifikátorů a poskytuje statistické údaje o jednotlivých krocích klasifikace. Nástroj rovněž dovoluje klasifikovat texty podle shluků slov vázajících se k určitému tématu či jeho aspektu. Takové shluky slov je možné vytvořit manuálně či automatizovaně, např. pomocí shlukovacích metod, metod detekce témat či detekcí komunit. Funční vzorek je implementován v programovacím jazyce Python 3. Ovládá se přes příkazovou řádku. Je implementován pomocí knihoven Gensim, Sklearn, matplotlib, pandas, numpy. Vedle příkazové řádky nástroj umožňuje řídit parametry zpracování pomocí konfiguračních souborů. Pro anglické recenze Yelp bylo dosaženo celkové přesnosti klasifikace sentimentu 84 % (F1 scóre) na testovacích datech. Pro české recenze ČSFD jsme s nástrojem dosáhli celkové přesnosti 77 % (F1 scóre) na testovacích datech. Pro diskusní příspěvky zpráv s kovidovou tématikou anotovaných studenty FSV UK jsme však nepřesáhli přesnost 68 % (F1 scóre) na testovacích datech. Tato přesnost však odpovídá tomu, že získaný korpus je příliš malý (833 diskusních příspěvků) a dosažené výsledky odpovídají přesnostem, které jsme získali na uměle omezených předchozích dvou korpusech podobného rozsahu. Nejlepších výsledků jsme dosáhli pomocí klasifikátoru MLPClassifier. Nástroj byl použit i pro studium vlivu velikosti vektoru vnoření a vlivu počtu epoch jejich učení na přesnost klasifikace výsledků. Nástrojem se dají vytvořit i wordcloudy pro lexikon slov sentimentu.

Classification

  • Type

    G<sub>funk</sub> - Functional sample

  • CEP classification

  • OECD FORD branch

    50802 - Media and socio-cultural communication

Result continuities

  • Project

    <a href="/en/project/TL04000176" target="_blank" >TL04000176: Covid-19 infodemic: AI communication platform suppressing infodemic in connection with journalistic and media ethics</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2021

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    TL04000176-V3

  • Numerical identification

    TL04000176-V3

  • Technical parameters

    Aplikace je napsána převážně v jazyce Python 3. Je implementován pomocí knihoven Gensim[1], Sklearn[2], matplotlib[3], pandas[4], numpy[5]. Aplikace je interně provozována na 8 jádrech procesoru Intel Core i9-10885H, 64GB RAM, 1x GPU Nvidia GeForce RTX 2060 Max-Q. [1] Gensim: https://radimrehurek.com/gensim/ [2] Scikit-learn: https://scikit-learn.org/ [3] Matplotlib: https://matplotlib.org/ [4] Pandas: https://pandas.pydata.org/ [5] Numpy: https://numpy.org/ Licenční smlouva uzavřená není. Výsledek využívá pouze příjemce a partneři projektu TAČR ETA: TL04000176 pro výzkum. Především pak NEWTON Media, a.s.

  • Economical parameters

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití byl stanoven odhad ceny poskytnuté licence na jednorázový poplatek 20 000,- Kč a roční udržovací poplatek ve výši 5 000,- Kč. Předpokládaná minimální návratnost nákladů s 15 % marží je propočtena na období 5 let s počtem poskytnutých licencí v minimálním objemu 15 kusů. Plán ceny byl stanoven metodou započtení nákladů spojených s vytvořením software a se započtením 15% marže.

  • Application category by cost

  • Owner IČO

    00216208

  • Owner name

    Univerzita Karlova

  • Owner country

    CZ - CZECH REPUBLIC

  • Usage type

    A - K využití výsledku jiným subjektem je vždy nutné nabytí licence

  • Licence fee requirement

    A - Poskytovatel licence na výsledek požaduje licenční poplatek

  • Web page

    http://www.infomore.cz