Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Shlukování v souborech s odlehlými objekty pomocí metod k-průměrů

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F44555601%3A13510%2F10%3A00005835" target="_blank" >RIV/44555601:13510/10:00005835 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Shlukování v souborech s odlehlými objekty pomocí metod k-průměrů

  • Popis výsledku v původním jazyce

    Velká citlivost shlukování na odlehlá pozorování je skutečnost, která může záporně ovlivnit kvalitu výsledného rozdělení do shluků. Ve většině případů jsme odkázáni na vhodné předzpracování dat a případné vyloučení odlehlých objektů z dalšího zpracování.V odborné literatuře se však objevují i shlukovací metody přímo zaměřené na data obsahující odlehlé objekty. Jedním z takovýchto postupů je například dvoufázový algoritmus k-průměrů. V příspěvku je navržena varianta metody k-průměrů pracující s mrkd-stromy, která je postavena na jiném principu. Identifikace odlehlých objektů probíhá v rámci fáze předzpracování, kterou je nutno provádět i v případě, že nás odlehlé objekty nezajímají. Je to fáze organizující data do stromové struktury, která činí následující fázi shlukování velmi efektivní. Dále článek předkládá třetí možnost detekování odlehlých objektů pomocí modifikace algoritmu k-průměrů++. Příspěvek pojednává o srovnání uvedených tří metod.

  • Název v anglickém jazyce

    Using k-means methods to clustering of data sets containing outliers

  • Popis výsledku anglicky

    Great sensitivity of clustering to outliers may negatively affect the quality of the resulting division into clusters. In most cases we must rely on an appropriate preprocessing and a possible exclusion of outliers. However, there are clustering methodsaimed at the data containing outliers, in professional statistics literature. One such example is the two-step k-means algorithm. The paper proposes an alternative to the k-means method working with mrkd-trees, which is based on another principle. The identification of outliers is in the phase of preprocessing, which must be done even if we are not interested in outliers. It's a phase, which organizes the data into a tree structure, which makes the next phase of clustering very effective. The article also presents a third option involving the detection of outliers by modifying the algorithm k-means++. The paper outlines a comparison between the three methods.

Klasifikace

  • Druh

    J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)

  • CEP obor

    BB - Aplikovaná statistika, operační výzkum

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

  • Návaznosti

    V - Vyzkumna aktivita podporovana z jinych verejnych zdroju

Ostatní

  • Rok uplatnění

    2010

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Informační Bulletin České statistické společnosti

  • ISSN

    1210-8022

  • e-ISSN

  • Svazek periodika

    Ročník 22

  • Číslo periodika v rámci svazku

    3

  • Stát vydavatele periodika

    CZ - Česká republika

  • Počet stran výsledku

    8

  • Strana od-do

  • Kód UT WoS článku

  • EID výsledku v databázi Scopus