SYNTHETIC DATA GENERATOR FOR TESTING OF CLASSIFICATION RULE ALGORITHMS
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F60461373%3A22340%2F17%3A43914967" target="_blank" >RIV/60461373:22340/17:43914967 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.nnw.cz/doi/2017/NNW.2017.27.010.pdf" target="_blank" >http://www.nnw.cz/doi/2017/NNW.2017.27.010.pdf</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.14311/NNW.2017.27.010" target="_blank" >10.14311/NNW.2017.27.010</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
SYNTHETIC DATA GENERATOR FOR TESTING OF CLASSIFICATION RULE ALGORITHMS
Popis výsledku v původním jazyce
We developed a data generating system that is able to create systematically testing datasets that accomplish user's requirements such as number of rows, number and type of attributes, number of missing values, class noise and imbalance ratio. These datasets can be used for testing of the algorithms designed for solving classification rule problem. We used them for optimizing of the parameters of the classification algorithm based on the behavior of ant colonies. But they can be advantageously used for other applications too. Program generates output files in ARFF format. Two standards and one user-define probability distributions are used in data generation: uniform distribution, normal distribution and irregular distribution for nominal attributes. To our knowledge, our system is probably the first synthetic data generation system that systematically generates datasets for examination and judgment of the classification rule algorithms.
Název v anglickém jazyce
SYNTHETIC DATA GENERATOR FOR TESTING OF CLASSIFICATION RULE ALGORITHMS
Popis výsledku anglicky
We developed a data generating system that is able to create systematically testing datasets that accomplish user's requirements such as number of rows, number and type of attributes, number of missing values, class noise and imbalance ratio. These datasets can be used for testing of the algorithms designed for solving classification rule problem. We used them for optimizing of the parameters of the classification algorithm based on the behavior of ant colonies. But they can be advantageously used for other applications too. Program generates output files in ARFF format. Two standards and one user-define probability distributions are used in data generation: uniform distribution, normal distribution and irregular distribution for nominal attributes. To our knowledge, our system is probably the first synthetic data generation system that systematically generates datasets for examination and judgment of the classification rule algorithms.
Klasifikace
Druh
J<sub>imp</sub> - Článek v periodiku v databázi Web of Science
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Neural Network World
ISSN
1210-0552
e-ISSN
—
Svazek periodika
27
Číslo periodika v rámci svazku
2
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
15
Strana od-do
215-229
Kód UT WoS článku
000402020800003
EID výsledku v databázi Scopus
—