Rozdíl mezi KDD a dolováním dat

👤 Autor Alex Aldridge 📧 aldridge@what-difference.com.
⏱ Public 2023-12-17 13:34.
🖍 Naposledy změněno 2025-01-23 11:02.

KDD vs těžba dat

KDD (Knowledge Discovery in Databases) je obor počítačové vědy, který zahrnuje nástroje a teorie, které lidem pomáhají extrahovat užitečné a dříve neznámé informace (tj. znalosti) z velkých sbírek digitalizovaných dat. KDD se skládá z několika kroků a dolování dat je jedním z nich. Data Mining je aplikace specifického algoritmu za účelem extrahování vzorů z dat. KDD a dolování dat se nicméně používají zaměnitelně.

Co je KDD?

Jak již bylo zmíněno výše, KDD je obor informatiky, který se zabývá extrakcí dříve neznámých a zajímavých informací z nezpracovaných dat. KDD je celý proces pokusu o pochopení smyslu dat vývojem vhodných metod nebo technik. Tento proces se zabývá mapováním nízkoúrovňových dat do jiných forem, které jsou kompaktnější, abstraktnější a užitečnější. Toho je dosaženo vytvářením krátkých zpráv, modelováním procesu generování dat a vývojem prediktivních modelů, které mohou předpovídat budoucí případy. Vzhledem k exponenciálnímu růstu dat, zejména v oblastech, jako je podnikání, se KDD stal velmi důležitým procesem pro převod tohoto velkého množství dat na business intelligence, protože ruční extrakce vzorů se v posledních několika desetiletích zdánlivě stala nemožnou. V současnosti se například používá pro různé aplikace, jako je analýza sociálních sítí, odhalování podvodů, věda, investice, výroba, telekomunikace, čištění dat, sport, vyhledávání informací a z velké části pro marketing. KDD se obvykle používá k zodpovězení otázek, jako jsou hlavní produkty, které by mohly v příštím roce pomoci získat vysoký zisk ve Wal-Martu?. Tento proces má několik kroků. Začíná to pochopením aplikační domény a cíle a poté vytvořením cílové datové sady. Následuje čištění, předzpracování, redukce a projekce dat. Dalším krokem je použití dolování dat (vysvětleno níže) k identifikaci vzoru. Nakonec se objevené znalosti konsolidují vizualizací a/nebo interpretací.

Co je dolování dat?

Jak je uvedeno výše, dolování dat je pouze krokem v rámci celkového procesu KDD. Existují dva hlavní cíle dolování dat, jak jsou definovány cílem aplikace, a to ověření nebo zjišťování. Verifikace ověřuje uživatelovu hypotézu o datech, zatímco objev automaticky nachází zajímavé vzorce. Existují čtyři hlavní úkoly dolování dat: shlukování, klasifikace, regrese a asociace (sumarizace). Clustering je identifikace podobných skupin z nestrukturovaných dat. Klasifikace je učení pravidel, která lze aplikovat na nová data. Regrese je nalezení funkcí s minimální chybou při modelování dat. A asociace hledá vztahy mezi proměnnými. Poté je třeba vybrat konkrétní algoritmus dolování dat. V závislosti na cíli lze vybrat různé algoritmy, jako je lineární regrese, logistická regrese, rozhodovací stromy a Naïve Bayes. Poté se hledají vzorce zájmu v jedné nebo více reprezentativních formách. Nakonec jsou modely vyhodnoceny buď pomocí prediktivní přesnosti nebo srozumitelnosti.

Jaký je rozdíl mezi KDD a Data mining?

Přestože se dva termíny KDD a Data Mining často zaměňují, označují dva související, ale mírně odlišné koncepty. KDD je celkový proces získávání znalostí z dat, zatímco dolování dat je krokem uvnitř procesu KDD, který se zabývá identifikací vzorců v datech. Jinými slovy, Data Mining je pouze aplikace specifického algoritmu založeného na celkovém cíli procesu KDD.

Doporučuje:

Rozdíl mezi KDD a dolováním dat

Doporučuje:

Rozdíl mezi dolováním dat a strojovým učením

Rozdíl mezi ověřením dat a ověřením dat

Rozdíl mezi DBMS a dolováním dat

Rozdíl mezi dolováním dat a dotazovacími nástroji

Rozdíl mezi dolováním dat a OLAP

Rozdíl mezi světlem a rádiovými vlnami

Rozdíl mezi Nokia Lumia 928 a Blackberry Z10

Rozdíl mezi Nokia Lumia 928 a HTC Windows Phone 8X

Rozdíl mezi Nokia Lumia 928 a Apple iPhone 5

Rozdíl mezi Samsung Galaxy S4 GT-I9500 a GT-I9505

Rozdíl mezi uhlíkovou NMR a protonovou NMR

Rozdíl mezi DNA a RNA nukleotidem

Rozdíl mezi listem pestrým a listem etiolovaným

Rozdíl mezi nitridem boru a grafitem

Rozdíl mezi Torr a mmHg

Rozdíl mezi cyklem uhlíku a cyklem fosforu

Rozdíl mezi solným mostem a vodíkovým můstkem

Rozdíl mezi energií stabilizující krystalové pole a štěpící energií

Rozdíl mezi diferenciací a morfogenezí

Rozdíl mezi RQ a RER