Doc Classifier - tool for automatic document classification
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F12%3A43917782" target="_blank" >RIV/49777513:23520/12:43917782 - isvavai.cz</a>
Result on the web
<a href="http://www.kiv.zcu.cz/vyzkum/software/2012/doc_classifier.html" target="_blank" >http://www.kiv.zcu.cz/vyzkum/software/2012/doc_classifier.html</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Doc Classifier - nástroj pro automtické rozpoznávání dokumentů
Original language description
Doc Classifier je nástroj určený pro automatickou klasifikaci textových dokumentů. Jsou zde zahrnuty tři klasifikátory: Naivní Bayes (NB), metoda podpůrných vektorů (SVM) a metoda maximální entropie. Pro výběr příznaků nabízí nástroj použití jedné z pětimetod: Dokumentová Frekvence (DF), Information Gain (IG), Mutual Information (MI), Chi-kvadrát test a GSS koeficient. Doc classifier byl vyvinut především pro testování a vyhodnocení metod určených pro klasifikaci dokumentů a pro nastavení parametrů, které ovlivňují přesnost těchto metod.
Czech name
Doc Classifier - nástroj pro automtické rozpoznávání dokumentů
Czech description
Doc Classifier je nástroj určený pro automatickou klasifikaci textových dokumentů. Jsou zde zahrnuty tři klasifikátory: Naivní Bayes (NB), metoda podpůrných vektorů (SVM) a metoda maximální entropie. Pro výběr příznaků nabízí nástroj použití jedné z pětimetod: Dokumentová Frekvence (DF), Information Gain (IG), Mutual Information (MI), Chi-kvadrát test a GSS koeficient. Doc classifier byl vyvinut především pro testování a vyhodnocení metod určených pro klasifikaci dokumentů a pro nastavení parametrů, které ovlivňují přesnost těchto metod.
Classification
Type
R - Software
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
—
Continuities
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Others
Publication year
2012
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
DocClassifier
Technical parameters
Windows nebo Linux OS java 1.6 a vyšší Ing, Pavel Král, Ph.D. Univerzitní 8 306 14 Plzeň 377 63 2454 pkral@kiv.zcu.cz
Economical parameters
Doc Classifier je vhodné použít v úlohách, kde je potřeba automaticky klasifikovat dokumenty dle tématu. Použití SW výrazně zkrátí čas ve srovnání s ruční klasifikací. Experimentálně jsme ověřili, že přesnost implementovaných metod klasifikace je na testovací množině českých dokumentů vyšší než 90 %, což je dostatečné i pro praktické nasazení nástroje.
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni, FAV, KIV