Rozdíl mezi hierarchickým a částečným shlukováním

Rozdíl mezi hierarchickým a částečným shlukováním
Rozdíl mezi hierarchickým a částečným shlukováním

Video: Rozdíl mezi hierarchickým a částečným shlukováním

Video: Rozdíl mezi hierarchickým a částečným shlukováním
Video: GREY WOLF VS SPOTTED HYENA ─ Who Would Win in a Fight? 2024, Listopad
Anonim

Hierarchické vs. částečné shlukování

Clustering je technika strojového učení pro analýzu dat a jejich rozdělení do skupin podobných dat. Tyto skupiny nebo sady podobných dat jsou známé jako shluky. Clusterová analýza se zaměřuje na shlukovací algoritmy, které dokážou automaticky identifikovat shluky. Hierarchický a oddílový jsou dvě takové třídy shlukovacích algoritmů. Hierarchické shlukovací algoritmy rozdělují data do hierarchie shluků. Paritional algoritmy rozdělují soubor dat do vzájemně nesouvislých oddílů.

Co je hierarchické shlukování?

Hierarchické shlukovací algoritmy opakují cyklus buď slučování menších shluků do větších, nebo rozdělování větších shluků na menší. V každém případě vytváří hierarchii shluků nazývanou dendogram. Strategie aglomerativního klastrování využívá přístup zdola nahoru slučování klastrů do větších, zatímco strategie rozdělujícího klastrování využívá přístup shora dolů rozdělování na menší. Typicky se chamtivý přístup používá při rozhodování, které větší/menší shluky se použijí pro sloučení/rozdělení. Euklidovská vzdálenost, Manhattanská vzdálenost a kosinusová podobnost jsou některé z nejčastěji používaných metrik podobnosti pro číselná data. Pro nečíselná data se používají metriky, jako je Hammingova vzdálenost. Je důležité poznamenat, že skutečná pozorování (instance) nejsou pro hierarchické shlukování potřeba, protože stačí pouze matice vzdáleností. Dendogram je vizuální reprezentace shluků, která velmi jasně zobrazuje hierarchii. Uživatel může získat různé shlukování v závislosti na úrovni, na které je dendogram vyříznut.

Co je to částečné shlukování?

Algoritmy oddílového shlukování generují různé oddíly a poté je vyhodnocují podle nějakého kritéria. Jsou také označovány jako nehierarchické, protože každá instance je umístěna přesně v jednom z k vzájemně se vylučujících shluků. Protože pouze jedna sada klastrů je výstupem typického algoritmu dělení klastrů, musí uživatel zadat požadovaný počet klastrů (obvykle nazývaných k). Jedním z nejběžněji používaných algoritmů oddílového shlukování je algoritmus shlukování k-means. Uživatel musí před spuštěním zadat počet shluků (k) a algoritmus nejprve inicializuje středy (nebo centroidy) k oddílů. Stručně řečeno, shlukovací algoritmus k-means pak přiřazuje členy na základě aktuálních středů a znovu odhaduje střediska na základě aktuálních členů. Tyto dva kroky se opakují, dokud není optimalizována určitá cílová funkce podobnosti uvnitř shluku a cílová funkce rozdílnosti mezi shluky. Proto je rozumná inicializace center velmi důležitým faktorem při získávání kvalitních výsledků z algoritmů oddílového shlukování.

Jaký je rozdíl mezi hierarchickým a částečným shlukováním?

Hierarchické a částečné shlukování mají klíčové rozdíly v době běhu, předpokladech, vstupních parametrech a výsledných shlucích. Oddílové shlukování je obvykle rychlejší než hierarchické shlukování. Hierarchické shlukování vyžaduje pouze míru podobnosti, zatímco oddílové shlukování vyžaduje silnější předpoklady, jako je počet shluků a počáteční centra. Hierarchické klastrování nevyžaduje žádné vstupní parametry, zatímco algoritmy dělení klastrů vyžadují ke spuštění počet klastrů. Hierarchické shlukování vrací mnohem smysluplnější a subjektivnější rozdělení shluků, ale výsledkem oddílového shlukování je přesně k shluků. Hierarchické shlukovací algoritmy jsou vhodnější pro kategorická data, pokud lze odpovídajícím způsobem definovat míru podobnosti.

Doporučuje: