Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Klasifikace textových dokumentů bez učitele

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F17%3A43932281" target="_blank" >RIV/49777513:23520/17:43932281 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://hdl.handle.net/11025/26091" target="_blank" >http://hdl.handle.net/11025/26091</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Klasifikace textových dokumentů bez učitele

  • Popis výsledku v původním jazyce

    Cı́lem je přı́prava vstupnı́ch textových dat a následná klasifikace dokumentů za použitı́ metod učenı́ bez učitele. Jedna důležitá část předzpracovánı́ dat je převedenı́ vstupnı́ch textů do tvaru vektorové reprezentace. Existuje mnoho klasifikačnı́ch metod, z nichž jsou vybrány dvě “klasický” K-means shlukovacı́ algoritmus a Latent Dirichlet Allocation (LDA) přizpůsobená ke klasifikaci dokumentů. Nakonec vybrané klasifikačnı́ metody jsou porovnány s již použı́vanými metodami a i s metodami využı́vajı́cı́ informaci učitele. Porovnánı́ je provedeno na 20NewsGroup anglickém data setu složeného z elektronické korespondence. Pro zajı́mavost jsou metody ozkoušeny na CNO českém data setu složeného z online novinových článků.

  • Název v anglickém jazyce

    Classification of text documents without a teacher

  • Popis výsledku anglicky

    The goal is the preparation of input text data and the subsequent classification of documents using methods of learning without a teacher. One important part of data preprocessing is the conversion of input texts into a vector representation. There are many classification methods, two of which are chosen: the &quot;classical&quot; K-means clustering algorithm and the Latent Dirichlet Allocation (LDA) adapted to document classification. Finally, the selected classification methods are compared with already used methods and also with methods using the teacher&apos;s information. The comparison is made on the 20NewsGroup English data set consisting of electronic correspondence. For the sake of interest, the methods are tested on the CNO Czech data set consisting of online newspaper articles.

Klasifikace

  • Druh

    O - Ostatní výsledky

  • CEP obor

  • OECD FORD obor

    20205 - Automation and control systems

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2017

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů