Vad är MapReduce i Hadoop
MapReduce är ett ramverk för Hadoop som används för att behandla parallella enorma mängder data om stora kluster av råvaruhårdvara på ett tillförlitligt sätt. Hadoop är ett öppen källkodsprojekt som tillhandahålls av Apache-programvarufonden. Hadoop brukade utföra analyser snabbt och pålitligt för både strukturerad data och ostrukturerad data. Hadoop kan hantera mycket stora datauppsättningar och som kan vara både strukturerad data och ostrukturerad data, vilket faktiskt är associerat med big data. Hadoop-ramverk som gör det möjligt för en applikation att lagra informationen i en distribuerad form och bearbeta stora datamängder över kluster av datorer med en enkel programmeringsmodell, det är vad Map Reduce, så med andra ord kan vi kalla Map Reduce som en programmeringsmodell som används för bearbetning enorm mängd data fördelat över antalet kluster. Hadoop kan skala upp från enkla servrar till tusentals datornoder eller maskiner som vardera använder för beräkning och lagring.
Apache Hadoop-projektet innehåller ett antal delprojekt som:
- Hadoop Common: Hadoop Common som har verktyg som stöder de andra Hadoop-delprojekten.
- Hadoop Distribuerat filsystem (HDFS): Hadoop Distribuerat filsystem ger tillgång till den distribuerade filen till applikationsdata.
- Hadoop MapReduce: Hadoop MapReduce är en mjukvararam för bearbetning av stora distribuerade datamängder på datorkluster.
- Hadoop YARN: Hadoop YARN är ett ramverk för resurshantering och schemaläggningsjobb.
Hur gör MapReduce i Hadoop arbetet så enkelt?
MapReduce gör det enkelt att uppskatta databehandlingen över hundratals eller tusentals klustermaskiner. MapReduce-modellen fungerar faktiskt i två steg som kallas map and reducera och behandlingen kallas som mapper respektive reducer. När vi har skrivit MapReduce för en applikation är applikationen att skala upp för att köra över multiplar eller till och med flera tusen kluster bara en konfigurationsändring. Denna funktion i MapReduce-modellen har lockat många programmerare att använda den.
Hur MapReduce i Hadoop fungerar?
MapReduce-programmet körs huvudsakligen i fyra steg:
- Ingångsdelning
- Karta
- Blanda
- Minska
Nu kommer vi att se varje steg hur de fungerar.
1. Kartsteg-
Detta steg är kombinationen av ingångsdelningssteget och kartsteget. I kartsteget överförs källfilen som rad för rad. Innan ingången går till kartfunktionsjobbet delas ingången in i den lilla fasta storleken som kallas ingångsdelningar. Inputdelningen är en bit av ingången som kan konsumeras av en enda karta. I kartsteget överförs varje delad data till mapperfunktionen, därefter bearbetar mapperfunktionen data och utsätter sedan värden. I allmänhet har kartans eller mapparens jobbinmatningsdata i form av en fil eller katalog som lagras i Hadoop-filsystemet (HDFS).
2. Minska steg-
Det här steget är kombinationen av Shuffle-steget och Minska. Minskningsfunktionen eller Minskarens jobb tar data som är resultatet av kartfunktionen. Efter bearbetning genom att reducera funktionen producerar en ny uppsättning resultat som åter lagrar i HDFS.
I ett Hadoop-ramverk är det inte säkert att varje kluster utför vilket jobb antingen Map eller Reduce eller både Map och Reduce. Så begäran från kartan och Minska uppgifterna ska skickas till lämpliga servrar i klustret. Hadoop-ramverket själv hanterar alla uppgifter att utfärda, verifiera avslutat arbete, hämta data från HDFS, kopiera data till kluster av noderna och så allt. I Hadoop sker mestadels beräkningen på noder tillsammans med data i själva noder som minskar nätverkstrafiken.
Så MapReduce-ramverket är till stor hjälp i Hadoop-ramverket.
Fördelar med MapReduce
- Skalbarhet - MapReduce gör Hadoop mycket skalbar eftersom det gör det möjligt att lagra stora datamängder i distribueringsform över flera servrar. Eftersom det är fördelat över flera så kan fungera parallellt.
- Kostnadseffektiv lösning - MapReduce ger en mycket kostnadseffektiv lösning för företag som behöver lagra den växande informationen och bearbeta data på ett mycket kostnadseffektivt sätt, vilket är dagens affärsbehov.
- Flexibilitet - MapReduce gör Hadoop väldigt flexibel för olika datakällor och till och med för olika typer av data som strukturerade eller ostrukturerade data. Så det gör det mycket flexibelt att få åtkomst till strukturerad eller ostrukturerad data och bearbeta dem.
- Snabbt - Som Hadoop-lagringsdata i det distribuerade filsystemet, där lagring av data på den lokala disken i ett kluster och MapReduce-programmen också vanligtvis finns i samma servrar, vilket möjliggör snabbare bearbetning av data som inget behov av åtkomst data från andra servrar.
- Parallell behandling - Som Hadoop-lagringsdata i det distribuerade filsystemet och funktionen i MapReduce-programmet är sådan att det delar upp arbetsuppgiftskartan och minskar och som kan utföras parallellt. Och igen på grund av den parallella exekveringen minskar det hela körtiden.
Kompetens
Nödvändiga färdigheter för MapReduce i Hadoop har god programmeringskunskap om Java (obligatoriskt), operativsystem Linux och kunskap om SQL Queries.
Omfattningen av MapReduce i Hadoop
MapReduce i Hadoop är ett snabbt växande fält eftersom stordatafältet växer så omfattningen av MapReduce i Hadoop är mycket lovande i framtiden eftersom mängden strukturerad och ostrukturerad data ökar exponentiellt dag för dag. Sociala medieplattformar genererar mycket ostrukturerad data som kan brytas för att få verklig insikt om olika domäner.
Slutsats
- MapReduce är ett ramverk för Hadoop som används för att behandla parallella enorma mängder data om stora kluster av råvaruhårdvara på ett tillförlitligt sätt.
- Apache Hadoop-projektet innehåller ett antal delprojekt som Hadoop Common, Hadoop Distribuerat filsystem (HDFS), Hadoop MapReduce, Hadoop YARN.
- I kartsteget överförs varje delad data till mapperfunktionen, därefter behandlar mapperfunktionen data och utsätter sedan värden.
- Minskningsfunktionen eller Minskarens jobb tar data som är resultatet av kartfunktionen.
- MapReduce-fördelarna som anges som skalbarhet, kostnadseffektiv lösning, flexibilitet, snabb, parallellbehandling.
Rekommenderade artiklar
Detta har varit en guide till Vad är MapReduce i Hadoop. Här diskuterade vi komponenterna, arbeta, färdigheter, karriärstillväxt och fördelarna med MapReduce i Hadoop. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer
- Vad är en algoritm?
- Skillnader mellan Hadoop vs MapReduce
- Vad är Azure?
- Vad är Big Data Technology?
- Så fungerar MapReduce