Data Warehouse vs Hadoop - 6 viktiga skillnader att veta

Innehållsförteckning:

Anonim

Skillnader mellan Data Warehouse vs Hadoop

Under varje decennium upplever IT-branschen en stor innovation som skakar hela IT-branschen. Under de senaste åren har Apache Hadoop gjort samma sak genom att infusera datacentra med ny infrastruktur

Genom att ge kraften i parallellbehandling till programmeraren Hadoop är på en sådan exponentiell ökning av antagandet och dess ekosystem expanderar i både djup och bredd, är det naturligt att fråga sig om Hadoop's kommer att ersätta traditionella Data Warehouse.

Låt oss se vad Alasdair Anderson (vice verkställande direktör på Nordea) sa vid ett Hadoop-toppmöte om detta heta ämne i staden.

”Det finns ingen relation mellan EDW och Hadoop just nu - de kommer att komplettera. Det handlar INTE om att rippa och ersätta: vi kommer inte att bli av med RDBMS eller MPP, utan istället använda rätt verktyg för rätt jobb - och det kommer mycket att drivas av priset.

När denna intressanta diskussion börjar kommer många frågor att tänka på oss som:

1) Om du har big data, behöver du ett datalager?

2) Kommer Hadoop att ersätta datavarehuset?

3) Är det döden i den traditionella Data Warehouse-eran?

För att känna till svaren på alla dessa frågor måste vi undersöka den större bilden av denna bild.

1. Vad är Hadoop?

Vem har inte hört talas om Big Data nyligen? Med hundratals terabyte data som genereras varje dag från olika källor är det uppenbart att dagens moderna värld är en Big Data-värld

När du börjar prata om Big Data kommer du förr eller senare att börja diskutera det hetaste ämnet i Big Data World: Hadoop - men vad är det egentligen?

Hadoop är en open-source, en Java-baserad programmeringsram som stöder bearbetning och lagring av extremt stora datamängder i en distribuerad datormiljö.

De 4 modulerna i Hadoop -

Hadoop består av fyra moduler -

  1. Distribuerat filsystem

Distribuerat filsystem gör att data kan lagras i ett lättillgängligt format över ett stort antal länkade lagringsenheter.

  1. Karta Minska

Map Reduce är kombinationen av två operationer - läsa data från databasen och sätta dem i ett format som är lämpligt för analys (karta) och utför matematiska operationer (reducera).

  1. Hadoop Common

Hadoop Common tillhandahåller de verktyg som behövs för data lagrade i HDFS (Hadoop Distribuerat filsystem)

  1. GARN

YARN hanterar resurser för systemen som lagrar data och kör analysen.

2. Vad är ett datavarehus?

Ett datalager är en relationsdatabas som är utformad för frågeställningar och analysdata. Det innehåller vanligtvis historiska data härrörande från olika källor.

Datalagermiljön inkluderar ETL-lösningar, en OLAP-motor online, klientanalysverktyg och andra applikationer som hanterar processen för att analysera data och leverera den till företagets användare.

Låt oss sammanfatta vad datalager är -

  1. Angående orienterad

Ett datalager kan användas för att analysera ett visst ämnesområde som försäljning, ekonomi och lager. Varje ämnesområde innehåller detaljerad information.

  1. integrerad

Ett datalager integrerar data från flera datakällor. Datum är till exempel i samma format, manliga / kvinnliga koder är konsekventa. I ett datalager finns det bara ett enda sätt att identifiera en produkt och de använder samma kundpost, inte kopior

  1. Icke-flyktiga

Data lagras i datalageret omodifierat och de kommer inte att ändras. Så historiska data i ett datalager ska aldrig ändras.

  1. Tids variant

man kan hämta data från 3 månader, 6 månader, 12 månader eller till och med äldre data från ett datalager.

  1. Inte virtuellt

Datalageret är ett fysiskt, ihållande arkiv.

Data Warehouse vs Hadoop (Infographics)

Nedan visas de 6 bästa jämförelserna mellan Data Warehouse vs Hadoop

Data Warehouse vs Hadoop - Vilken man ska använda?

  • Om du har rena, konsekventa och högkvalitativa data bör du gå till Data Warehouse eftersom Hadoop saknar datakvalitet i några av sina lösningar.
  • Om du har råa ostrukturerade data, bör du gå för Hadoop eftersom Hadoop fungerar bra med ostrukturerad / rå data men Data Warehouse fungerar endast med strukturerade data.
  • För låg latens och interaktiva rapporter bör du gå till Data Warehouse
  • För OLTP / Realtime / Point Queries bör du gå till Data Warehouse eftersom Hadoop fungerar bra med batchdata.
  • För stora datamängder bör du gå till Hadoop eftersom Hadoop är utformad för att lösa Big data-problem.

Jämförelsetabell mellan head-to-head mellan datavarehus vs Hadoop

Nedan är listan över punkter som beskriver jämförelser mellan datavarehus vs Hadoop

Grund för jämförelseDatalagerHadoop
DataI Data Warehouse analyserar vi strukturerade och bearbetade dataI Hadoop kan vi behandla alla slags data inklusive strukturerad / ostrukturerad / halvstrukturerad och rå
bearbetningDess behandling är baserad på schema-på-skriv-konceptDess behandling är baserad på schema-på-läs-koncept
LagringLämplig för data med liten volym och det är för mycket dyrt för storvolymdataDet fungerar bra med stora datamängder med enorm volym, hastighet och variation
RörlighetDet är mindre smidigt och med fast konfigurationDet är mycket smidigt, konfigurera och konfigurera om det behövs
säkerhetData Warehouse-teknologier har funnits i decennier. På säkerhetsnivå kan vi därför lita på Data WarehouseÄven om Hadoop-teknologier är relativt nya jämfört med Data Warehouse, så är säkerhet ett stort problem här
användareFöretagare använder vanligtvis datalagerHadoop är ganska känd inom datavetenskap och datateknik

Slutsats - Data Warehouse vs Hadoop

Nu vet vi om Data Warehouse och Hadoop båda, låt oss gå tillbaka och undersöka frågan som vi ställde i början av denna Data Warehouse och Hadoop artikel -

1) Om du har big data, behöver du ett datalager?

Svar - så länge din organisation behöver en pålitlig, trovärdig och tillgänglig data, så behöver du ett datalager.

2) Kommer Hadoop att ersätta datavarehuset?

Svar - Jämför Data Warehouse vs Hadoop är som att jämföra äpplen och apelsiner. De båda Data Warehouse och Hadoop har sina egna fördelar i olika användningsfallsscenarier. I vissa fall är vi fortfarande beroende av traditionella Data Warehouse-tekniker, men när tiden förändras fokuserar vi mer på Hadoop Framework för att hantera Big Data-problem.

3) Är detta en död av den traditionella Data Warehouse-eran?

Svar - Som ni ser är detta inte riktigt en enkel fråga och lämpar sig därför inte för ett enkelt svar. Det är sant att big data kommer att förändra den traditionella datalagringsmetoden under de kommande nästa åren, men det kommer inte att föråldras begreppen och praktiken för datalagring.

Rekommenderad artikel

Detta har varit en användbar guide till Data Warehouse vs Hadoop här vi har diskuterat deras betydelse, Head to Head jämförelse, nyckel skillnad och slutsats. Du kan också titta på följande artikel för att lära dig mer -

  1. Hadoop vs Splunk - Ta reda på de bästa 7 skillnaderna
  2. Hadoop vs Elasticsearch - Vilken är mer användbar
  3. Big Data vs Data Warehouse - Ta reda på de bästa skillnaderna
  4. Business Intelligence vs Data Warehouse
  5. Splunk vs Nagios