Klasifikace textových dokumentů bez učitele
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F17%3A43932281" target="_blank" >RIV/49777513:23520/17:43932281 - isvavai.cz</a>
Výsledek na webu
<a href="http://hdl.handle.net/11025/26091" target="_blank" >http://hdl.handle.net/11025/26091</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Klasifikace textových dokumentů bez učitele
Popis výsledku v původním jazyce
Cı́lem je přı́prava vstupnı́ch textových dat a následná klasifikace dokumentů za použitı́ metod učenı́ bez učitele. Jedna důležitá část předzpracovánı́ dat je převedenı́ vstupnı́ch textů do tvaru vektorové reprezentace. Existuje mnoho klasifikačnı́ch metod, z nichž jsou vybrány dvě “klasický” K-means shlukovacı́ algoritmus a Latent Dirichlet Allocation (LDA) přizpůsobená ke klasifikaci dokumentů. Nakonec vybrané klasifikačnı́ metody jsou porovnány s již použı́vanými metodami a i s metodami využı́vajı́cı́ informaci učitele. Porovnánı́ je provedeno na 20NewsGroup anglickém data setu složeného z elektronické korespondence. Pro zajı́mavost jsou metody ozkoušeny na CNO českém data setu složeného z online novinových článků.
Název v anglickém jazyce
Classification of text documents without a teacher
Popis výsledku anglicky
The goal is the preparation of input text data and the subsequent classification of documents using methods of learning without a teacher. One important part of data preprocessing is the conversion of input texts into a vector representation. There are many classification methods, two of which are chosen: the "classical" K-means clustering algorithm and the Latent Dirichlet Allocation (LDA) adapted to document classification. Finally, the selected classification methods are compared with already used methods and also with methods using the teacher's information. The comparison is made on the 20NewsGroup English data set consisting of electronic correspondence. For the sake of interest, the methods are tested on the CNO Czech data set consisting of online newspaper articles.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů