Shlukování v souborech s odlehlými objekty pomocí metod k-průměrů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F44555601%3A13510%2F10%3A00005835" target="_blank" >RIV/44555601:13510/10:00005835 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Shlukování v souborech s odlehlými objekty pomocí metod k-průměrů
Popis výsledku v původním jazyce
Velká citlivost shlukování na odlehlá pozorování je skutečnost, která může záporně ovlivnit kvalitu výsledného rozdělení do shluků. Ve většině případů jsme odkázáni na vhodné předzpracování dat a případné vyloučení odlehlých objektů z dalšího zpracování.V odborné literatuře se však objevují i shlukovací metody přímo zaměřené na data obsahující odlehlé objekty. Jedním z takovýchto postupů je například dvoufázový algoritmus k-průměrů. V příspěvku je navržena varianta metody k-průměrů pracující s mrkd-stromy, která je postavena na jiném principu. Identifikace odlehlých objektů probíhá v rámci fáze předzpracování, kterou je nutno provádět i v případě, že nás odlehlé objekty nezajímají. Je to fáze organizující data do stromové struktury, která činí následující fázi shlukování velmi efektivní. Dále článek předkládá třetí možnost detekování odlehlých objektů pomocí modifikace algoritmu k-průměrů++. Příspěvek pojednává o srovnání uvedených tří metod.
Název v anglickém jazyce
Using k-means methods to clustering of data sets containing outliers
Popis výsledku anglicky
Great sensitivity of clustering to outliers may negatively affect the quality of the resulting division into clusters. In most cases we must rely on an appropriate preprocessing and a possible exclusion of outliers. However, there are clustering methodsaimed at the data containing outliers, in professional statistics literature. One such example is the two-step k-means algorithm. The paper proposes an alternative to the k-means method working with mrkd-trees, which is based on another principle. The identification of outliers is in the phase of preprocessing, which must be done even if we are not interested in outliers. It's a phase, which organizes the data into a tree structure, which makes the next phase of clustering very effective. The article also presents a third option involving the detection of outliers by modifying the algorithm k-means++. The paper outlines a comparison between the three methods.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
BB - Aplikovaná statistika, operační výzkum
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
V - Vyzkumna aktivita podporovana z jinych verejnych zdroju
Ostatní
Rok uplatnění
2010
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Informační Bulletin České statistické společnosti
ISSN
1210-8022
e-ISSN
—
Svazek periodika
Ročník 22
Číslo periodika v rámci svazku
3
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
8
Strana od-do
—
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—