Skillnader mellan Data Warehouse vs Hadoop
Under varje decennium upplever IT-branschen en stor innovation som skakar hela IT-branschen. Under de senaste åren har Apache Hadoop gjort samma sak genom att infusera datacentra med ny infrastruktur
Genom att ge kraften i parallellbehandling till programmeraren Hadoop är på en sådan exponentiell ökning av antagandet och dess ekosystem expanderar i både djup och bredd, är det naturligt att fråga sig om Hadoop's kommer att ersätta traditionella Data Warehouse.
Låt oss se vad Alasdair Anderson (vice verkställande direktör på Nordea) sa vid ett Hadoop-toppmöte om detta heta ämne i staden.
”Det finns ingen relation mellan EDW och Hadoop just nu - de kommer att komplettera. Det handlar INTE om att rippa och ersätta: vi kommer inte att bli av med RDBMS eller MPP, utan istället använda rätt verktyg för rätt jobb - och det kommer mycket att drivas av priset. ”
När denna intressanta diskussion börjar kommer många frågor att tänka på oss som:
1) Om du har big data, behöver du ett datalager?
2) Kommer Hadoop att ersätta datavarehuset?
3) Är det döden i den traditionella Data Warehouse-eran?
För att känna till svaren på alla dessa frågor måste vi undersöka den större bilden av denna bild.
1. Vad är Hadoop?
Vem har inte hört talas om Big Data nyligen? Med hundratals terabyte data som genereras varje dag från olika källor är det uppenbart att dagens moderna värld är en Big Data-värld
När du börjar prata om Big Data kommer du förr eller senare att börja diskutera det hetaste ämnet i Big Data World: Hadoop - men vad är det egentligen?
Hadoop är en open-source, en Java-baserad programmeringsram som stöder bearbetning och lagring av extremt stora datamängder i en distribuerad datormiljö.
De 4 modulerna i Hadoop -
Hadoop består av fyra moduler -
- Distribuerat filsystem
Distribuerat filsystem gör att data kan lagras i ett lättillgängligt format över ett stort antal länkade lagringsenheter.
- Karta Minska
Map Reduce är kombinationen av två operationer - läsa data från databasen och sätta dem i ett format som är lämpligt för analys (karta) och utför matematiska operationer (reducera).
- Hadoop Common
Hadoop Common tillhandahåller de verktyg som behövs för data lagrade i HDFS (Hadoop Distribuerat filsystem)
- GARN
YARN hanterar resurser för systemen som lagrar data och kör analysen.
2. Vad är ett datavarehus?
Ett datalager är en relationsdatabas som är utformad för frågeställningar och analysdata. Det innehåller vanligtvis historiska data härrörande från olika källor.
Datalagermiljön inkluderar ETL-lösningar, en OLAP-motor online, klientanalysverktyg och andra applikationer som hanterar processen för att analysera data och leverera den till företagets användare.
Låt oss sammanfatta vad datalager är -
-
Angående orienterad
Ett datalager kan användas för att analysera ett visst ämnesområde som försäljning, ekonomi och lager. Varje ämnesområde innehåller detaljerad information.
-
integrerad
Ett datalager integrerar data från flera datakällor. Datum är till exempel i samma format, manliga / kvinnliga koder är konsekventa. I ett datalager finns det bara ett enda sätt att identifiera en produkt och de använder samma kundpost, inte kopior
-
Icke-flyktiga
Data lagras i datalageret omodifierat och de kommer inte att ändras. Så historiska data i ett datalager ska aldrig ändras.
-
Tids variant
man kan hämta data från 3 månader, 6 månader, 12 månader eller till och med äldre data från ett datalager.
-
Inte virtuellt
Datalageret är ett fysiskt, ihållande arkiv.
Data Warehouse vs Hadoop (Infographics)
Nedan visas de 6 bästa jämförelserna mellan Data Warehouse vs Hadoop
Data Warehouse vs Hadoop - Vilken man ska använda?
- Om du har rena, konsekventa och högkvalitativa data bör du gå till Data Warehouse eftersom Hadoop saknar datakvalitet i några av sina lösningar.
- Om du har råa ostrukturerade data, bör du gå för Hadoop eftersom Hadoop fungerar bra med ostrukturerad / rå data men Data Warehouse fungerar endast med strukturerade data.
- För låg latens och interaktiva rapporter bör du gå till Data Warehouse
- För OLTP / Realtime / Point Queries bör du gå till Data Warehouse eftersom Hadoop fungerar bra med batchdata.
- För stora datamängder bör du gå till Hadoop eftersom Hadoop är utformad för att lösa Big data-problem.
Jämförelsetabell mellan head-to-head mellan datavarehus vs Hadoop
Nedan är listan över punkter som beskriver jämförelser mellan datavarehus vs Hadoop
Grund för jämförelse | Datalager | Hadoop |
Data | I Data Warehouse analyserar vi strukturerade och bearbetade data | I Hadoop kan vi behandla alla slags data inklusive strukturerad / ostrukturerad / halvstrukturerad och rå |
bearbetning | Dess behandling är baserad på schema-på-skriv-koncept | Dess behandling är baserad på schema-på-läs-koncept |
Lagring | Lämplig för data med liten volym och det är för mycket dyrt för storvolymdata | Det fungerar bra med stora datamängder med enorm volym, hastighet och variation |
Rörlighet | Det är mindre smidigt och med fast konfiguration | Det är mycket smidigt, konfigurera och konfigurera om det behövs |
säkerhet | Data Warehouse-teknologier har funnits i decennier. På säkerhetsnivå kan vi därför lita på Data Warehouse | Även om Hadoop-teknologier är relativt nya jämfört med Data Warehouse, så är säkerhet ett stort problem här |
användare | Företagare använder vanligtvis datalager | Hadoop är ganska känd inom datavetenskap och datateknik |
Slutsats - Data Warehouse vs Hadoop
Nu vet vi om Data Warehouse och Hadoop båda, låt oss gå tillbaka och undersöka frågan som vi ställde i början av denna Data Warehouse och Hadoop artikel -
1) Om du har big data, behöver du ett datalager?
Svar - så länge din organisation behöver en pålitlig, trovärdig och tillgänglig data, så behöver du ett datalager.
2) Kommer Hadoop att ersätta datavarehuset?
Svar - Jämför Data Warehouse vs Hadoop är som att jämföra äpplen och apelsiner. De båda Data Warehouse och Hadoop har sina egna fördelar i olika användningsfallsscenarier. I vissa fall är vi fortfarande beroende av traditionella Data Warehouse-tekniker, men när tiden förändras fokuserar vi mer på Hadoop Framework för att hantera Big Data-problem.
3) Är detta en död av den traditionella Data Warehouse-eran?
Svar - Som ni ser är detta inte riktigt en enkel fråga och lämpar sig därför inte för ett enkelt svar. Det är sant att big data kommer att förändra den traditionella datalagringsmetoden under de kommande nästa åren, men det kommer inte att föråldras begreppen och praktiken för datalagring.
Rekommenderad artikel
Detta har varit en användbar guide till Data Warehouse vs Hadoop här vi har diskuterat deras betydelse, Head to Head jämförelse, nyckel skillnad och slutsats. Du kan också titta på följande artikel för att lära dig mer -
- Hadoop vs Splunk - Ta reda på de bästa 7 skillnaderna
- Hadoop vs Elasticsearch - Vilken är mer användbar
- Big Data vs Data Warehouse - Ta reda på de bästa skillnaderna
- Business Intelligence vs Data Warehouse
- Splunk vs Nagios