Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Improving Multi-label Document Classification of Czech News Articles

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F15%3A43926586" target="_blank" >RIV/49777513:23520/15:43926586 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://link.springer.com/chapter/10.1007/978-3-319-24033-6_35" target="_blank" >http://link.springer.com/chapter/10.1007/978-3-319-24033-6_35</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1007/978-3-319-24033-6_35" target="_blank" >10.1007/978-3-319-24033-6_35</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Improving Multi-label Document Classification of Czech News Articles

  • Popis výsledku v původním jazyce

    In this paper, we present our improvement of a multi-label document classifier for text filtering in a corpus containing Czech news articles, where relevant topics of an arbitrary document are to be assigned automatically. Different vector space models, different classifiers and different thresholding strategies were investigated and the performance was measured in terms of sample-wise average F1 score. Results of this paper show that we can improve the performance of our baseline naive Bayes classifier by 25% relatively when using linear SVC classifier with sublinear tf-idf vector space model, and another 6.1% relatively when using regressor-based sample-wise thresholding strategy.

  • Název v anglickém jazyce

    Improving Multi-label Document Classification of Czech News Articles

  • Popis výsledku anglicky

    In this paper, we present our improvement of a multi-label document classifier for text filtering in a corpus containing Czech news articles, where relevant topics of an arbitrary document are to be assigned automatically. Different vector space models, different classifiers and different thresholding strategies were investigated and the performance was measured in terms of sample-wise average F1 score. Results of this paper show that we can improve the performance of our baseline naive Bayes classifier by 25% relatively when using linear SVC classifier with sublinear tf-idf vector space model, and another 6.1% relatively when using regressor-based sample-wise thresholding strategy.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    20205 - Automation and control systems

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/GBP103%2F12%2FG084" target="_blank" >GBP103/12/G084: Centrum pro multi-modální interpretaci dat velkého rozsahu</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2015

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Text, Speech, and Dialogue, 18th International Conference, TSD 2015, Pilsen,Czech Republic, September 14-17, 2015, Proceedings

  • ISBN

    978-3-319-24032-9

  • ISSN

    0302-9743

  • e-ISSN

  • Počet stran výsledku

    9

  • Strana od-do

    307-315

  • Název nakladatele

    Springer

  • Místo vydání

    Berlin

  • Místo konání akce

    Plzeň, Czech Republic

  • Datum konání akce

    14. 9. 2015

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku

    000365947800035