Klíčový rozdíl – strojové učení pod dohledem a bez dozoru
Učení pod dohledem a učení bez dohledu jsou dva základní koncepty strojového učení. Supervised Learning je úkol strojového učení, jehož cílem je naučit se funkci, která mapuje vstup na výstup na základě příkladů párů vstup-výstup. Unsupervised Learning je úkol strojového učení, který spočívá v odvození funkce k popisu skryté struktury z neoznačených dat. Klíčový rozdíl mezi strojovým učením pod dohledem a bez dozoru spočívá v tom, že učení pod dohledem používá označená data, zatímco učení bez dozoru používá neoznačená data.
Strojové učení je obor informatiky, který umožňuje počítačovému systému učit se z dat, aniž by byl explicitně naprogramován. Umožňuje analyzovat data a předpovídat v nich vzorce. Existuje mnoho aplikací strojového učení. Některé z nich jsou rozpoznávání obličeje, rozpoznávání gest a rozpoznávání řeči. Existují různé algoritmy související se strojovým učením. Některé z nich jsou regrese, klasifikace a shlukování. Nejběžnější programovací jazyky pro vývoj aplikací založených na strojovém učení jsou R a Python. Lze použít i jiné jazyky jako Java, C++ a Matlab.
Co je učení pod dohledem?
V systémech založených na strojovém učení model funguje podle algoritmu. Při učení pod dohledem je model pod dohledem. Nejprve je nutné model natrénovat. Se získanými znalostmi dokáže předvídat odpovědi pro budoucí případy. Model je trénován pomocí označené datové sady. Když jsou systému předána data ze vzorku, může předpovědět výsledek. Následuje malý výňatek z populárního datového souboru IRIS.
Podle výše uvedené tabulky se tyto atributy nazývají délka sepalu, šířka sepalu, délka patela, šířka paty a druhy. Sloupce jsou známé jako funkce. Jeden řádek obsahuje data pro všechny atributy. Proto se jeden řádek nazývá pozorování. Údaje mohou být buď číselné, nebo kategorické. Model dostane pozorování s odpovídajícím názvem druhu jako vstup. Když je zadáno nové pozorování, model by měl předpovědět typ druhu, ke kterému patří.
V učení pod dohledem existují algoritmy pro klasifikaci a regresi. Klasifikace je proces klasifikace označených dat. Model vytvořil hranice, které oddělovaly kategorie dat. Když jsou modelu poskytnuta nová data, může se kategorizovat podle toho, kde daný bod existuje. K-Nearest Neighbors (KNN) je klasifikační model. V závislosti na hodnotě k se rozhoduje o kategorii. Například, když k je 5, je-li konkrétní datový bod blízko osmi datovým bodům v kategorii A a šesti datovým bodům v kategorii B, bude datový bod klasifikován jako A.
Regrese je proces předpovídání trendu předchozích dat s cílem předpovědět výsledek nových dat. Při regresi může výstup sestávat z jedné nebo více spojitých proměnných. Predikce se provádí pomocí čáry, která pokrývá většinu datových bodů. Nejjednodušším regresním modelem je lineární regrese. Je rychlý a nevyžaduje ladění parametrů jako v KNN. Pokud data ukazují parabolický trend, pak model lineární regrese není vhodný.
To jsou některé příklady algoritmů učení pod dohledem. Obecně jsou výsledky generované metodami učení pod dohledem přesnější a spolehlivější, protože vstupní data jsou dobře známá a označená. Proto musí stroj analyzovat pouze skryté vzory.
Co je učení bez dozoru?
Při učení bez dozoru není model pod dozorem. Model funguje samostatně, předpovídá výsledky. K vyvození závěrů o neoznačených datech používá algoritmy strojového učení. Obecně platí, že algoritmy učení bez dozoru jsou těžší než algoritmy učení pod dozorem, protože existuje málo informací. Clustering je druh učení bez dozoru. Lze jej použít k seskupení neznámých dat pomocí algoritmů. K-střední hodnota a shlukování založené na hustotě jsou dva shlukovací algoritmy.
algoritmus k-střední hodnoty, umístí k těžiště náhodně pro každý shluk. Potom je každý datový bod přiřazen k nejbližšímu těžišti. Euklidovská vzdálenost se používá k výpočtu vzdálenosti od datového bodu k těžišti. Datové body jsou rozděleny do skupin. Znovu se vypočítají polohy pro k těžišť. Nová poloha těžiště je určena průměrem všech bodů ve skupině. Opět je každý datový bod přiřazen k nejbližšímu těžišti. Tento proces se opakuje, dokud se těžiště již nemění. k-mean je rychlý shlukovací algoritmus, ale není specifikována inicializace shlukovacích bodů. Existuje také velká variabilita modelů shlukování založených na inicializaci bodů shluku.
Dalším shlukovacím algoritmem je shlukování založené na hustotě. Je také známá jako aplikace pro prostorové shlukování založené na hustotě s hlukem. Funguje tak, že definuje shluk jako maximální sadu bodů spojených hustotou. Jsou to dva parametry používané pro shlukování založené na hustotě. Jsou to Ɛ (epsilon) a minimální počet bodů. Ɛ je maximální poloměr okolí. Minimální body jsou minimální počet bodů v okolí Ɛ pro definování shluku. To jsou některé příklady shlukování, které spadá do učení bez dozoru.
Výsledky generované algoritmy učení bez dozoru obecně nejsou příliš přesné a spolehlivé, protože stroj musí definovat a označit vstupní data před určením skrytých vzorců a funkcí.
Jaká je podobnost mezi strojovým učením pod dohledem a bez dozoru?
Supervised i Unsupervised Learning jsou typy strojového učení
Jaký je rozdíl mezi strojovým učením pod dohledem a bez dozoru?
Strojové učení pod dohledem vs. strojové učení bez dohledu |
|
Supervised Learning je úkolem strojového učení naučit se funkci, která mapuje vstup na výstup na základě příkladů párů vstup-výstup. | Unsupervised Learning je úkol strojového učení, který spočívá v odvození funkce k popisu skryté struktury z neoznačených dat. |
Hlavní funkce | |
Při učení pod dohledem model předpovídá výsledek na základě označených vstupních dat. | Při učení bez dozoru model předpovídá výsledek bez označených dat tím, že sám identifikuje vzorce. |
Přesnost výsledků | |
Výsledky generované metodami učení pod dohledem jsou přesnější a spolehlivější. | Výsledky generované metodami učení bez dozoru nejsou příliš přesné a spolehlivé. |
Hlavní algoritmy | |
Existují algoritmy pro regresi a klasifikaci ve výuce pod dohledem. | Existují algoritmy pro shlukování v učení bez dozoru. |
Shrnutí – Strojové učení pod dohledem vs. Strojové učení bez dozoru
Supervised Learning a Unsupervised Learning jsou dva typy strojového učení. Supervised Learning je úkolem strojového učení naučit se funkci, která mapuje vstup na výstup na základě příkladných párů vstup-výstup. Unsupervised Learning je úkol strojového učení, který spočívá v odvození funkce pro popis skryté struktury z neoznačených dat. Rozdíl mezi strojovým učením pod dohledem a bez dozoru spočívá v tom, že učení pod dohledem používá označená data, zatímco učení bez dozoru používá neoznačená data.