Robustness of High-Dimensional Data Mining
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F67985807%3A_____%2F14%3A00432406" target="_blank" >RIV/67985807:_____/14:00432406 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Robustness of High-Dimensional Data Mining
Popis výsledku v původním jazyce
Standard data mining procedures are sensitive to the presence of outlying measurements in the data. This work has the aim to propose robust versions of some existing data mining procedures, i.e. methods resistant to outliers. In the area of classification analysis, we propose a new robust method based on a regularized version of the minimum weighted covariance determinant estimator. The method is suitable for data with the number of variables exceeding the number of observations. The method is based onimplicit weights assigned to individual observations. Our approach is a unique attempt to combine regularization and high robustness, allowing to downweight outlying high-dimensional observations. Classification performance of new methods and some ideasconcerning classification analysis of high-dimensional data are illustrated on real raw data as well as on data contaminated by severe outliers.
Název v anglickém jazyce
Robustness of High-Dimensional Data Mining
Popis výsledku anglicky
Standard data mining procedures are sensitive to the presence of outlying measurements in the data. This work has the aim to propose robust versions of some existing data mining procedures, i.e. methods resistant to outliers. In the area of classification analysis, we propose a new robust method based on a regularized version of the minimum weighted covariance determinant estimator. The method is suitable for data with the number of variables exceeding the number of observations. The method is based onimplicit weights assigned to individual observations. Our approach is a unique attempt to combine regularization and high robustness, allowing to downweight outlying high-dimensional observations. Classification performance of new methods and some ideasconcerning classification analysis of high-dimensional data are illustrated on real raw data as well as on data contaminated by severe outliers.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
ITAT 2014. Information Technologies - Applications and Theory. Part II
ISBN
978-80-87136-19-5
ISSN
—
e-ISSN
—
Počet stran výsledku
8
Strana od-do
53-60
Název nakladatele
Institute of Computer Science AS CR
Místo vydání
Prague
Místo konání akce
Demänovská dolina
Datum konání akce
25. 9. 2014
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—