Ta reda på de bästa 5 skillnaderna mellan Hadoop vs MapReduce

Skillnaden mellan Hadoop och MapReduce

Hadoops rötter går tillbaka till år 2002 då Dough Cutting arbetade på ett open source-projekt med namnet Nutch (som användes för att indexera webbsidorna och använda de indexerade webbsidorna för att söka, samma sak som Google gör). Han stod inför skalbarhetsproblem både vad gäller lagring och datoranvändning. 2003 publicerade Google GFS (google file system) och 2004 skapade Nutch NDFS (Nutch distribuerat filsystem). Efter att Google tillkännagav MapReduce som deras beräkningshjärna bakom sina sorteringsalgoritmer, kunde Dough köra Nutch på NDFS och använde MapReduce år 2005 och år 2006 föddes Hadoop.

Hadoop och MapReduce! Hadoop är ett ekosystem med öppen källkodsprojekt som Hadoop Common, Hadoop distribuerat filsystem (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop är som sådan en öppen källkodsram för lagring och bearbetning av enorma datasätt. Lagringen utförs av HDFS och behandlingen sköts av MapReduce. MapReduce, å andra sidan, är en programmeringsmodell som låter dig bearbeta enorma data lagrade i Hadoop. Låt oss förstå Hadoop och MapReduce i en detalj i det här inlägget.

Head to Head Jämförelse mellan Hadoop Vs MapReduce (Infographics)

Nedan visas topp 5-jämförelsen mellan Hadoop vs MapReduce

Viktiga skillnader mellan Hadoop vs MapReduce

Följande är skillnaden mellan Hadoop och MapReduce

Om vi vill differentiera Hadoop och MapReduce i lekmannens termer kan vi säga det, Hadoop är som bilen där du har allt som behövs för att resa avstånd men MapReduce är som bilens motor, så utan bilen kan en motor " Det finns inte men utsidan av bilen kan förändras (andra DFS (distribuerade filsystem)).
Grundtanken bakom Hadoop är att uppgifterna måste vara tillförlitliga och skalbara, pålitliga eftersom vid en katastrof eller nätverksfel måste uppgifterna vara tillgängliga hela tiden och detta uppnås genom Hadoops ramverk med hjälp av Namn Noder och Datanoder.
Någon grundläggande idé om datanoder och namnnoder

Den grundläggande idén bakom arkitekturen för datanoden och namnnoden är master / slavarkitekturen där en lagrar datorns plats (namnnod) och den andra lagrar själva uppgifterna (datanoden). Uppgifterna delas upp i bitar på 64 MB och sparas i datablocken och registret för dessa upprätthålls vid Namnnoden. Data replikeras tre gånger som standard för tillförlitlighet. När vi talar om skalbarhet kan hårdvaran ökas när du är på språng och det hjälper till att öka lagringsutrymmet och göra systemet skalbart.
Nu till MapReduce finns det tre faser
1. Kartfas
2. Blandningsfas
3. Minska fas

Låt oss ta ett exempel för att förstå det bättre. MapReduce som ett programmeringsram har också ett hej världsprogram, men det är känt som ordräkningsprogram i MapReduce.

Word Count-programmet ger oss nyckelvärdsparen för ordet och dess frekvens i ett stycke / artikel eller vilken datakälla som helst. För att kunna förstå det enkelt, låt oss ta nedanstående som exempeldata.

I datasatsen kan vi se tre ord buss, bil och tåg. Kolumnen Input har data som vi har i datasatsen, kolumnen Output har data i mellansteget där blandningen kommer att äga rum.

Här tar vi delaren som komma (, ) för att dela orden. Delaren kan vara komma eller utrymme eller en ny rad etc.

Inmatning

Uppsättning data

caR, BIL, bil, BUS, TÅG, buss, tåg, buss, TÅG, BUS, buS, Bil, buss, bil, tåg, bil, buss, bil

Produktion

Konvertera till en annan uppsättning data

(Nyckelvärde)

(Buss, 1), (Bil, 1), (buss, 1), (bil, 1), (tåg, 1),

(bil, 1), (buss, 1), (bil, 1), (tåg, 1), (buss, 1),

(TÅG, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(bil, 1), (BUS, 1), (TÅG, 1)

Och utgången från ovanstående mellansteg ges till reduceraren och nedan är programmets slututgång.

Inmatning

(utgång av kartfunktionen)

Uppsättning av tuples

(Buss, 1), (Bil, 1), (buss, 1), (bil, 1), (tåg, 1),

(bil, 1), (buss, 1), (bil, 1), (tåg, 1), (buss, 1),

(TÅG, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(bil, 1), (BUS, 1), (TÅG, 1)

Produktion

Konverteras till en mindre uppsättning tuplingar

(BUS, 7),

(CAR, 7),

(TÅG, 4)

En av de viktigaste skillnaderna i Hadoop med andra stora databehandlingsramar är att Hadoop skickar koden (MapReduce-kod) till de kluster där data lagras snarare än att skicka data till kod, eftersom datauppsättningarna kommer att vara i TB eller ibland i PB: er det kommer att vara en tråkig uppgift att göra.

Hadoop vs MapReduce jämförelsetabell

Grund för jämförelse	Hadoop	MapReduce
Menande	Namnet “Hadoop” var namnet på leksakselefanten till Doug Cuts son. Han utsåg projektet till "Hadoop" eftersom det var lätt att uttala det.	Namnet "MapReduce" kom till enligt funktionen själv för att kartlägga och minska i nyckelvärdespar.
Begrepp	Apache Hadoop är ett ekosystem som ger en miljö som är pålitlig, skalbar och redo för distribuerad datoranvändning.	MapReduce är en undermodul för detta projekt som är en programmeringsmodell och används för att behandla enorma datasätt som ligger på HDFS (Hadoop distribuerade filsystem).
Förutsättningar	Hadoop kör på implementeringar HDFS (Hadoop Distribuerat filsystem)	MapReduce kan köras på HDFS / GFS / NDFS eller något annat distribuerat filsystem, till exempel MapR-FS
Språk	Hadoop är en samling av alla moduler och kan därför inkludera andra programmerings- / skriptspråk också	MapReduce är i princip skrivet på Java-programmeringsspråk
Ramverk	Hadoop har inte bara lagringsramar som lagrar data utan skapar namnnoder och datanoder, det har också andra ramverk som inkluderar MapReduce själv.	MapReduce är ett programmeringsram som använder en nyckel, värdekartläggningar för att sortera / bearbeta data

Nedanstående figur hjälper till att differentiera MapReduce från Hadoop.

MapReduce Framework

Som vi kan se av ovanstående bild att MapReduce är en distribuerad behandlingsram medan Hadoop är en samling av alla ramverk.

Slutsats - Hadoop vs MapReduce

Hadoop som öppen källkod fick popularitet eftersom det var gratis att använda och programmerarna kan ändra koden enligt deras behov. Hadoop Eco-system utvecklades kontinuerligt under de senaste åren för att göra Eco-systemet så felfritt som möjligt.

Med världens ständigt föränderliga behov förändras tekniken snabbt och det blir svårt att hålla reda på förändringarna. Data som genereras på en månad fördubblas / tredubblas när du läser den här artikeln och behovet av snabbare bearbetning av datamängder ledde till många andra programmeringsramar som MapReduce 2, Spark etc.

Rekommenderade artiklar

Detta har varit en guide till Hadoop vs MapReduce, deras betydelse, jämförelse mellan huvud och huvud, viktiga skillnader, jämförelsetabell och slutsats. Du kan också titta på följande artiklar för att lära dig mer -