KDD vs těžba dat
KDD (Knowledge Discovery in Databases) je obor počítačové vědy, který zahrnuje nástroje a teorie, které lidem pomáhají extrahovat užitečné a dříve neznámé informace (tj. znalosti) z velkých sbírek digitalizovaných dat. KDD se skládá z několika kroků a dolování dat je jedním z nich. Data Mining je aplikace specifického algoritmu za účelem extrahování vzorů z dat. KDD a dolování dat se nicméně používají zaměnitelně.
Co je KDD?
Jak již bylo zmíněno výše, KDD je obor informatiky, který se zabývá extrakcí dříve neznámých a zajímavých informací z nezpracovaných dat. KDD je celý proces pokusu o pochopení smyslu dat vývojem vhodných metod nebo technik. Tento proces se zabývá mapováním nízkoúrovňových dat do jiných forem, které jsou kompaktnější, abstraktnější a užitečnější. Toho je dosaženo vytvářením krátkých zpráv, modelováním procesu generování dat a vývojem prediktivních modelů, které mohou předpovídat budoucí případy. Vzhledem k exponenciálnímu růstu dat, zejména v oblastech, jako je podnikání, se KDD stal velmi důležitým procesem pro převod tohoto velkého množství dat na business intelligence, protože ruční extrakce vzorů se v posledních několika desetiletích zdánlivě stala nemožnou. V současnosti se například používá pro různé aplikace, jako je analýza sociálních sítí, odhalování podvodů, věda, investice, výroba, telekomunikace, čištění dat, sport, vyhledávání informací a z velké části pro marketing. KDD se obvykle používá k zodpovězení otázek, jako jsou hlavní produkty, které by mohly v příštím roce pomoci získat vysoký zisk ve Wal-Martu?. Tento proces má několik kroků. Začíná to pochopením aplikační domény a cíle a poté vytvořením cílové datové sady. Následuje čištění, předzpracování, redukce a projekce dat. Dalším krokem je použití dolování dat (vysvětleno níže) k identifikaci vzoru. Nakonec se objevené znalosti konsolidují vizualizací a/nebo interpretací.
Co je dolování dat?
Jak je uvedeno výše, dolování dat je pouze krokem v rámci celkového procesu KDD. Existují dva hlavní cíle dolování dat, jak jsou definovány cílem aplikace, a to ověření nebo zjišťování. Verifikace ověřuje uživatelovu hypotézu o datech, zatímco objev automaticky nachází zajímavé vzorce. Existují čtyři hlavní úkoly dolování dat: shlukování, klasifikace, regrese a asociace (sumarizace). Clustering je identifikace podobných skupin z nestrukturovaných dat. Klasifikace je učení pravidel, která lze aplikovat na nová data. Regrese je nalezení funkcí s minimální chybou při modelování dat. A asociace hledá vztahy mezi proměnnými. Poté je třeba vybrat konkrétní algoritmus dolování dat. V závislosti na cíli lze vybrat různé algoritmy, jako je lineární regrese, logistická regrese, rozhodovací stromy a Naïve Bayes. Poté se hledají vzorce zájmu v jedné nebo více reprezentativních formách. Nakonec jsou modely vyhodnoceny buď pomocí prediktivní přesnosti nebo srozumitelnosti.
Jaký je rozdíl mezi KDD a Data mining?
Přestože se dva termíny KDD a Data Mining často zaměňují, označují dva související, ale mírně odlišné koncepty. KDD je celkový proces získávání znalostí z dat, zatímco dolování dat je krokem uvnitř procesu KDD, který se zabývá identifikací vzorců v datech. Jinými slovy, Data Mining je pouze aplikace specifického algoritmu založeného na celkovém cíli procesu KDD.