Rozdíl mezi Data miningem a Data Warehousingem

Rozdíl mezi Data miningem a Data Warehousingem
Rozdíl mezi Data miningem a Data Warehousingem

Video: Rozdíl mezi Data miningem a Data Warehousingem

Video: Rozdíl mezi Data miningem a Data Warehousingem
Video: Обзор HTC Wildfire 2024, Listopad
Anonim

Data mining vs. Data Warehousing

Data Mining a Data Warehousing jsou velmi výkonné a oblíbené techniky pro analýzu dat. Uživatelé, kteří inklinují ke statistikám, využívají Data Mining. Využívají statistické modely k hledání skrytých vzorců v datech. Data mineři mají zájem najít užitečné vztahy mezi různými datovými prvky, což je v konečném důsledku pro podniky ziskové. Ale na druhou stranu datoví experti, kteří dokážou přímo analyzovat dimenze podniku, mají tendenci používat datové sklady.

Data mining je také známý jako Knowledge Discovery in Data (KDD). Jak již bylo zmíněno výše, jedná se o obor informatiky, který se zabývá získáváním dříve neznámých a zajímavých informací z hrubých dat. Vzhledem k exponenciálnímu růstu dat, zejména v oblastech, jako je podnikání, se dolování dat stalo velmi důležitým nástrojem pro převod tohoto velkého množství dat na business intelligence, protože manuální extrakce vzorů se v posledních několika desetiletích zdánlivě stala nemožnou. V současnosti se například používá pro různé aplikace, jako je analýza sociálních sítí, odhalování podvodů a marketing. Data mining se obvykle zabývá následujícími čtyřmi úkoly: shlukování, klasifikace, regrese a asociace. Clustering je identifikace podobných skupin z nestrukturovaných dat. Klasifikace je učení se pravidlům, která lze aplikovat na nová data a obvykle zahrnuje následující kroky: předběžné zpracování dat, návrh modelování, výběr učení/funkcí a vyhodnocení/ověření. Regrese je nalezení funkcí s minimální chybou při modelování dat. A asociace hledá vztahy mezi proměnnými. Dolování dat se obvykle používá k zodpovězení otázek, jako jsou hlavní produkty, které by mohly v příštím roce pomoci získat vysoký zisk ve Wal-Martu?

Jak již bylo zmíněno výše, datové sklady se také používají k analýze dat, ale různými skupinami uživatelů s mírně odlišným cílem. Například pokud jde o maloobchod, uživatelé datových skladů se více zajímají o to, jaké druhy nákupů jsou mezi zákazníky oblíbené, takže výsledky analýzy mohou zákazníkovi pomoci zlepšit zákaznickou zkušenost. Ale těžaři dat nejprve předpokládají hypotézu, například kteří zákazníci kupují určitý typ produktu, a analyzují data, aby hypotézu otestovali. Datové sklady by mohl provádět velký maloobchodník, který zpočátku zásobuje své obchody stejnými velikostmi produktů, aby později zjistil, že obchody v New Yorku prodávají zásoby menší velikosti mnohem rychleji než v obchodech v Chicagu. Když se tedy podíváte na tento výsledek, může maloobchodník naskladnit obchod v New Yorku v menších velikostech ve srovnání s obchody v Chicagu.

Jak tedy jasně vidíte, tyto dva typy analýz se zdají být pouhým okem stejné povahy. Oba se obávají zvýšení zisků na základě historických dat. Ale samozřejmě existují zásadní rozdíly. Jednoduše řečeno, Data Mining a Data Warehousing se zaměřují na poskytování různých typů analýz, ale rozhodně pro různé typy uživatelů. Jinými slovy, Data Mining hledá korelace, vzory pro podporu statistické hypotézy. Data Warehousing však odpovídá na poměrně širší otázku a odtamtud rozděluje a krájí data, aby bylo možné rozpoznat způsoby zlepšení v budoucnosti.

Doporučuje: