Rozdíl mezi hierarchickým a částečným shlukováním

👤 Autor Alex Aldridge 📧 aldridge@what-difference.com.
⏱ Public 2023-12-17 13:34.
🖍 Naposledy změněno 2025-01-23 11:02.

Hierarchické vs. částečné shlukování

Clustering je technika strojového učení pro analýzu dat a jejich rozdělení do skupin podobných dat. Tyto skupiny nebo sady podobných dat jsou známé jako shluky. Clusterová analýza se zaměřuje na shlukovací algoritmy, které dokážou automaticky identifikovat shluky. Hierarchický a oddílový jsou dvě takové třídy shlukovacích algoritmů. Hierarchické shlukovací algoritmy rozdělují data do hierarchie shluků. Paritional algoritmy rozdělují soubor dat do vzájemně nesouvislých oddílů.

Co je hierarchické shlukování?

Hierarchické shlukovací algoritmy opakují cyklus buď slučování menších shluků do větších, nebo rozdělování větších shluků na menší. V každém případě vytváří hierarchii shluků nazývanou dendogram. Strategie aglomerativního klastrování využívá přístup zdola nahoru slučování klastrů do větších, zatímco strategie rozdělujícího klastrování využívá přístup shora dolů rozdělování na menší. Typicky se chamtivý přístup používá při rozhodování, které větší/menší shluky se použijí pro sloučení/rozdělení. Euklidovská vzdálenost, Manhattanská vzdálenost a kosinusová podobnost jsou některé z nejčastěji používaných metrik podobnosti pro číselná data. Pro nečíselná data se používají metriky, jako je Hammingova vzdálenost. Je důležité poznamenat, že skutečná pozorování (instance) nejsou pro hierarchické shlukování potřeba, protože stačí pouze matice vzdáleností. Dendogram je vizuální reprezentace shluků, která velmi jasně zobrazuje hierarchii. Uživatel může získat různé shlukování v závislosti na úrovni, na které je dendogram vyříznut.

Co je to částečné shlukování?

Algoritmy oddílového shlukování generují různé oddíly a poté je vyhodnocují podle nějakého kritéria. Jsou také označovány jako nehierarchické, protože každá instance je umístěna přesně v jednom z k vzájemně se vylučujících shluků. Protože pouze jedna sada klastrů je výstupem typického algoritmu dělení klastrů, musí uživatel zadat požadovaný počet klastrů (obvykle nazývaných k). Jedním z nejběžněji používaných algoritmů oddílového shlukování je algoritmus shlukování k-means. Uživatel musí před spuštěním zadat počet shluků (k) a algoritmus nejprve inicializuje středy (nebo centroidy) k oddílů. Stručně řečeno, shlukovací algoritmus k-means pak přiřazuje členy na základě aktuálních středů a znovu odhaduje střediska na základě aktuálních členů. Tyto dva kroky se opakují, dokud není optimalizována určitá cílová funkce podobnosti uvnitř shluku a cílová funkce rozdílnosti mezi shluky. Proto je rozumná inicializace center velmi důležitým faktorem při získávání kvalitních výsledků z algoritmů oddílového shlukování.

Jaký je rozdíl mezi hierarchickým a částečným shlukováním?

Hierarchické a částečné shlukování mají klíčové rozdíly v době běhu, předpokladech, vstupních parametrech a výsledných shlucích. Oddílové shlukování je obvykle rychlejší než hierarchické shlukování. Hierarchické shlukování vyžaduje pouze míru podobnosti, zatímco oddílové shlukování vyžaduje silnější předpoklady, jako je počet shluků a počáteční centra. Hierarchické klastrování nevyžaduje žádné vstupní parametry, zatímco algoritmy dělení klastrů vyžadují ke spuštění počet klastrů. Hierarchické shlukování vrací mnohem smysluplnější a subjektivnější rozdělení shluků, ale výsledkem oddílového shlukování je přesně k shluků. Hierarchické shlukovací algoritmy jsou vhodnější pro kategorická data, pokud lze odpovídajícím způsobem definovat míru podobnosti.

Doporučuje:

Rozdíl mezi hierarchickým a částečným shlukováním

Doporučuje:

Rozdíl mezi hierarchickým a celogenomovým sekvenováním brokovnice

Rozdíl mezi shlukováním a klasifikací

Rozdíl mezi úplným a částečným molem

Rozdíl mezi denním a částečným studiem

Rozdíl mezi mezi a mezi

Rozdíl mezi vypařováním a transpirací

Rozdíl mezi asteroidem a meteoroidem

Rozdíl mezi živočišnou a rostlinnou buňkou

Rozdíl mezi webovou stránkou a webem

Rozdíl mezi geeky a pitomci

Rozdíl mezi Schistosoma Mansoni a Haemotobium

Rozdíl mezi TypeScript a ES6

Rozdíl mezi klonováním a asexuální reprodukcí

Rozdíl mezi paracelulární a transcelulární difúzí

Rozdíl mezi Integer a Float

Jaký je rozdíl mezi hydratovaným a bezvodým síranem měďnatým

Jaký je rozdíl mezi chlórem a bělidlem

Jaký je rozdíl mezi apoptózou a programovanou buněčnou smrtí

Jaký je rozdíl mezi Toll-like receptory a Nod-like receptory

Jaký je rozdíl mezi kob altovou modří a ultramarínovou modří