Doc Classifier - nástroj pro automtické rozpoznávání dokumentů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F12%3A43917782" target="_blank" >RIV/49777513:23520/12:43917782 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.kiv.zcu.cz/vyzkum/software/2012/doc_classifier.html" target="_blank" >http://www.kiv.zcu.cz/vyzkum/software/2012/doc_classifier.html</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Doc Classifier - nástroj pro automtické rozpoznávání dokumentů
Popis výsledku v původním jazyce
Doc Classifier je nástroj určený pro automatickou klasifikaci textových dokumentů. Jsou zde zahrnuty tři klasifikátory: Naivní Bayes (NB), metoda podpůrných vektorů (SVM) a metoda maximální entropie. Pro výběr příznaků nabízí nástroj použití jedné z pětimetod: Dokumentová Frekvence (DF), Information Gain (IG), Mutual Information (MI), Chi-kvadrát test a GSS koeficient. Doc classifier byl vyvinut především pro testování a vyhodnocení metod určených pro klasifikaci dokumentů a pro nastavení parametrů, které ovlivňují přesnost těchto metod.
Název v anglickém jazyce
Doc Classifier - tool for automatic document classification
Popis výsledku anglicky
Doc Classifier is a tool designed for automatic single or multi-label text document classification. Three classifiers: Naive Bayes (NB), Support Vectors Machine (SVM) and Maximum Entropy classifier are integrated. For feature selection, five methods areused: Document Frequency (DF), Information Gain (IG), Mutual Information (MI), Chi-square and GSS methods. The Doc Classifier tool was developed mainly for testing and evaluation of the document classification methods and for adjusting parameters influencing the accuracy of these methods.
Klasifikace
Druh
R - Software
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
DocClassifier
Technické parametry
Windows nebo Linux OS java 1.6 a vyšší Ing, Pavel Král, Ph.D. Univerzitní 8 306 14 Plzeň 377 63 2454 pkral@kiv.zcu.cz
Ekonomické parametry
Doc Classifier je vhodné použít v úlohách, kde je potřeba automaticky klasifikovat dokumenty dle tématu. Použití SW výrazně zkrátí čas ve srovnání s ruční klasifikací. Experimentálně jsme ověřili, že přesnost implementovaných metod klasifikace je na testovací množině českých dokumentů vyšší než 90 %, což je dostatečné i pro praktické nasazení nástroje.
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni, FAV, KIV