Introduktion till MapReduce intervjufrågor och svar

MapReduce är en enkel parallell dataprogrammeringsmodell designad för skalbarhet och feltolerans. Vi kan säga att MapReduce är ett ramverk, som använder begreppet noder för att parallellisera problemen som uppstår i stora datamängder, om de är lokala nätverk använder den samma hårdvara och om MapReduce är geografiskt distribuerad använder den olika hårdvara respektive. MapReduce består i huvudsak av funktionen Map () och Reduce (). Det gjordes populärt av det öppna Hadoop-projektet.

Nedan är de 9 viktiga MapReduce intervjufrågor och svar från 2019:

Om du letar efter ett jobb som är relaterat till MapReduce måste du förbereda dig för intervjufrågorna om MapReduce 2019. Även om varje MapReduce-intervju är annorlunda och omfattningen av ett jobb också är annorlunda, kan vi hjälpa dig med de bästa MapReduce-intervjufrågorna med svar, som hjälper dig att ta språng och få din framgång i din intervju.

Dessa frågor är indelade i två delar är följande:

Del 1 - MapReduce Interview Questions (Basic)

Den här första delen täcker grundläggande MapReduce intervjufrågor och svar.

1. Vad är MapReduce?

Svar:
MapReduce är en enkel parallell dataprogrammeringsmodell designad för skalbarhet och feltolerans. Med andra ord är det ett ramverk som behandlar parallelliserbara problem i stora datauppsättningar med begreppet noder (antalet datorer) som i sin tur klassificeras som kluster om det är ett lokalt nätverk och använder samma hårdvara eller rutnät om de är geografiskt distribuerade och använda olika hårdvara. MapReduce består huvudsakligen av en Map () -funktion och en Reduce () -funktion. Det var banbrytande av Google och bearbetar många petabytes med data varje dag. Det gjordes populärt av det öppna Hadoop-projektet och används på Yahoo, Facebook och Amazon för att nämna några.

2. Vad används MapReduce för företag?

Svar:
Google
• Konstruktion av index för Google-sökning
Processen för att konstruera ett positions- eller icke-positionellt index kallas indexkonstruktion eller indexering. MapReduce roll är Indexkonstruktion och är utformad för stora datorkluster. Syftet med klustret är att lösa beräkningsproblem för noder eller datorer som är byggda med standarddelar snarare än en superdator.
• Artikelklustering för Google Nyheter
För artikelklustering klassificeras sidorna först beroende på om de behövs för klustering. Sidor innehåller mycket information som inte behövs för klustring. Därefter föres artikeln till sin vektorform baserad på nyckelord och den vikt som den ges. Sedan grupperas de med hjälp av algoritmer.
• Statistisk maskinöversättning
Översättningen av tvåspråkiga textföretag genom analys genererar statistiska modeller som översätter ett språk till ett annat med hjälp av vikter och reduceras till den mest troliga översättningen.
Yahoo
• "Webbkarta" som driver Yahoo! Sök
I likhet med artikelklustering för Google Nyheter används MapReduce för att klustera sökutgångar på Yahoo! Plattform.
• Spamdetektion för Yahoo! Post
Facebook
• Data Mining
Den senaste trenden med dataexplosion har resulterat i behovet av sofistikerade metoder för att dela upp data i bitar som lätt kan användas för nästa analyssteg.
• d Optimera
• Spam Detection

Låt oss gå till nästa intervjufrågor för MapReduce.

3. Vad är MapReduce designmålen

Svar:
Skalbarhet till stora datamängder
Eftersom MapReduce är ett ramverk som syftar till att arbeta med parallelliserbara data med hjälp av begreppet noder som är antalet datorer antingen som kluster eller rutnät, kan det skalas till n antal datormaskiner. Så ett framträdande designmål för MapReduce är att det är skalbart till 1000-tal av maskiner och så 10 000-tal för diskar.
Kostnadseffektivitet
Eftersom MapReduce fungerar med parallelliserande data i noderna eller antalet datorer, är följande orsakerna som gör det kostnadseffektivt:
-Välja varumaskiner istället för en superdator. Fast billiga är de opålitliga.
-Nätverk för boende
-Automatisk feltolerans, dvs färre administratörer krävs.
-Det är lätt att använda, dvs det kräver färre programmerare.

4. Vilka är utmaningarna med MapReduce?

Svar:
Detta är de vanliga MapReduce intervjufrågor som ställs i en intervju. De viktigaste utmaningarna med MapReduce är följande:
-Cheap Nodes misslyckas, särskilt om du har många
Medeltiden mellan misslyckanden för 1 nod är lika med 3 år. Medeltiden mellan misslyckanden för 1000 noder är lika med 1 dag. Lösningen är att bygga feltolerans i själva systemet.
-Nätverk för boende är lika med eller innebär låg bandbredd
Lösningen för en låg bandbredd är att skjuta beräkningen till data.
-Programmering av distribuerade system är svåra
Lösningen för detta är att enligt dataparallell programmeringsmodell skriver användare "karta" och "minskar" -funktioner. Systemet distribuerar arbetet och hanterar fel.

5. Vad är MapReduce-programmeringsmodellen?

Svar:
MapReduce-programmeringsmodellen är baserad på ett koncept som kallas nyckelvärdesposter. Det ger också paradigmer för parallell databehandling. För bearbetning av data i MapReduce måste både Input-data och Output kartläggas i formatet för flera nyckelvärdespar. Det enda nyckelvärdsparet kallas också en post. MapReduce-programmeringsmodellen består av en Map () -funktion och en Reduce-funktion. Modellen för dessa är följande.
Funktion Map (): (K in, V in) )lista (K inter, V inter)
Minska () -funktion: (K inter, lista (V inter))  lista (K ut, V ut)

Del 2 - MapReduce Interview Questions (Advanced)

Låt oss nu titta på de avancerade intervjufrågorna för MapReduce.

6. Vad är MapReduce-exekveringsdetaljer?

Svar:
När det gäller MapReduce-körning, kontrollerar en enda master jobbutförande på flera slavar. Kartläggarna föredras att placeras på samma nod eller samma rack som deras ingångsblock så att det minimerar nätverksanvändningen. Dessutom sparar kartläggare utgångar på den lokala disken innan de serveras till reducatorer. Detta tillåter återställning om en reducer kraschar och tillåter fler reducerare än noder.

7. Vad är en kombinerare?

Svar:
Kombinationen, som också är känd som halvreduceraren, fungerar genom att acceptera ingångar från kartklassen och överföra utgångsnyckelvärdepar till reducerarklassen. Huvudfunktionen för en kombinerare är att sammanfatta kartoutputposter med samma tangent. Med andra ord är en kombinerare en lokal aggregeringsfunktion för upprepade nycklar producerade av samma karta. Det fungerar för associerande funktioner som SUM, COUNT och MAX. Det minskar storleken på mellanliggande data eftersom det är en sammanfattning av värdenes aggregering för alla repetitiva nycklar.

Låt oss gå till nästa intervjufrågor för MapReduce.

8.Varför gris? Varför inte MapReduce?

Svar:
• MapReduce gör det möjligt för programmeraren att utföra en kartfunktion följt av en reduceringsfunktion, men det kan vara en utmaning att arbeta med hur din databehandling anpassas till detta mönster, som ofta kräver flera MapReduce-steg.
• Med Pig är datastrukturerna mycket rikare, eftersom de är mångvärda och kapslade, och uppsättningen transformationer som du kan använda på data är mycket kraftigare. Till exempel inkluderar de sammanfogningar som inte är möjliga i MapReduce.
• Pig är också ett program som förvandlar förvandlingen till en serie MapReduce-jobb.

9.MapReduce Kritik

Svar:
En framträdande kritik av MapReduce är att utvecklingscykeln är mycket lång. Att skriva kartläggare och reduceringsapparater, sammanställa och packa koden, skicka in jobbet och hämta resultaten är tidskrävande. Även med streaming, som tar bort kompilering och paketsteg, tar upplevelsen fortfarande lång tid.

Rekommenderad artikel

Detta har varit en guide till lista över MapReduce intervjufrågor och svar så att kandidaten enkelt kan slå samman dessa MapReduce intervjufrågor. Du kan också titta på följande artiklar för att lära dig mer -

  1. Viktiga intervallfrågor för Data Analytics
  2. 10 bästa frågor om designmönster
  3. Elasticsearch intervjufrågor
  4. Mest användbara Ruby intervjufrågor
  5. Så fungerar MapReduce