Klíčový rozdíl mezi RDBMS a Hadoop je v tom, že RDBMS ukládá strukturovaná data, zatímco Hadoop ukládá strukturovaná, polostrukturovaná a nestrukturovaná data.
RDBMS je systém správy databází založený na relačním modelu. Hadoop je software pro ukládání dat a spouštění aplikací na klastrech komoditního hardwaru.
Co je RDBMS?
RDBMS znamená Relational Database Management System založený na relačním modelu. V RDBMS se tabulky používají k ukládání dat a klíče a indexy pomáhají tabulky propojit. Tabulka je kolekce datových prvků a jsou to entity. Obsahuje řádky a sloupce. Řádky představují jeden záznam v tabulce. Sloupce představují atributy.
Například databáze prodeje může obsahovat entity zákazníků a produktů. Zákazník může mít atributy jako customer_id, name, address, phone_no. Položka může mít atributy jako product_id, name atd. Primární klíč tabulky zákazníků je customer_id, zatímco primární klíč tabulky produktů je product_id. Umístění product_id do tabulky zákazníka jako cizí klíč spojuje tyto dvě entity. Stejně tak tabulky spolu souvisí. Poskytují integritu dat, normalizaci a mnoho dalších. Některé z běžných RDBMS jsou MySQL, MSSQL a Oracle. K dotazování používají SQL.
Co je Hadoop?
Hadoop je open source framework Apache napsaný v Javě. Pomáhá ukládat a zpracovávat velké množství dat napříč shluky počítačů pomocí jednoduchých programovacích modelů. Hlavním cílem Hadoopu je ukládat a zpracovávat velká data, která se týkají velkého množství komplexních dat. Propustnost Hadoopu, což je kapacita zpracovat objem dat v určitém časovém období, je vysoká.
V architektuře Hadoop jsou čtyři moduly. Jsou to Hadoop common, YARN, Hadoop Distributed File System (HDFS) a Hadoop MapReduce. Společný modul obsahuje Java knihovny a utility. Má také soubory pro spuštění Hadoop. Hadoop YARN provádí plánování úloh a správu prostředků clusteru.
Dále je Hadoop Distributed File System (HDFS) úložným systémem Hadoop. Využívá architekturu master-slave. Hlavní uzel je NameNode a spravuje metadata systému souborů. Ostatní počítače jsou slave uzly nebo DataNodes. Ukládají aktuální data. Na druhou stranu Hadoop MapReduce provádí distribuovaný výpočet. Má algoritmy pro zpracování dat. V HDFS má hlavní uzel nástroj pro sledování úloh. Spouští úlohy redukce mapy na podřízených uzlech. Pro každý podřízený uzel existuje nástroj Task Tracker pro dokončení zpracování dat a odeslání výsledku zpět do hlavního uzlu. Celkově Hadoop poskytuje masivní úložiště dat s vysokým výpočetním výkonem.
Jaký je rozdíl mezi RDBMS a Hadoop?
RDBMS vs Hadoop |
|
RDBMS je systémový software pro vytváření a správu databází založených na relačním modelu. | Hadoop je kolekce softwaru s otevřeným zdrojovým kódem, který propojuje mnoho počítačů a řeší problémy zahrnující velké množství dat a výpočtů. |
datová rozmanitost | |
RDBMS ukládá strukturovaná data. | Hadoop ukládá strukturovaná, polostrukturovaná a nestrukturovaná data. |
Ukládání dat | |
RDBMS ukládá průměrné množství dat. | Hadoop ukládá velké množství dat než RDBMS. |
Rychlost | |
V RDBMS je čtení rychlé. | V Hadoopu je čtení a zápis rychlé. |
Škálovatelnost | |
RDBMS má vertikální škálovatelnost. | Hadoop má horizontální škálovatelnost. |
Hardware | |
RDBMS používají špičkové servery. | Hadoop používá komoditní hardware. |
Propustnost | |
Propustnost RDBMS je vyšší. | Propustnost Hadoop je nižší. |
Shrnutí – RDBMS vs Hadoop
Tento článek pojednával o rozdílu mezi RDBMS a Hadoop. Klíčový rozdíl mezi RDBMS a Hadoop je v tom, že RDBMS ukládá strukturovaná data, zatímco Hadoop ukládá strukturovaná, polostrukturovaná a nestrukturovaná data.