Hadoop Admin Intervjufrågor - Mest användbar och uppmanad

Introduktion till Hadoop Admin Intervjufrågor och svar

Så du har äntligen hittat ditt drömjobb i Hadoop Admin men undrar hur du ska knäcka Hadoop Admin Intervju och vad som kan vara de troliga Hadoop Admin intervjufrågorna. Varje intervju är annorlunda och omfattningen av ett jobb är också annorlunda. Med detta i åtanke har vi utformat de vanligaste Hadoop Admin Intervjufrågor och svar för att hjälpa dig att få framgång i din intervju.

Följande är Hadoop Admin Interview Questions som hjälper dig att spricka en intervju med Hadoop.

1. Vad är rackmedvetenhet? Och varför är det nödvändigt?

Svar:
Rack-medvetenhet handlar om att distribuera datanoder över flera rack.HDFS följer rack-medvetenhetsalgoritmen för att placera datablocken. Ett rack innehåller flera servrar. Och för ett kluster kan det finnas flera rack. Låt oss säga att det finns ett Hadoop-kluster med 12 noder. Det kan finnas 3 rack med 4 servrar på varje. Alla 3 racken är anslutna så att alla 12 noder är anslutna och som bildar ett kluster. När du bestämmer om antalet rack är den viktiga punkten att tänka på replikeringsfaktorn. Om det finns 100 GB data som kommer att flöda varje dag med replikeringsfaktorn 3. Då är det 300 GB data som måste ligga i klustret. Det är ett bättre alternativ att kopiera data över racken. Även om någon nod går ner kommer kopian att ligga i ett annat rack.

2. Vad är standardblockstorleken och hur definieras det?

Svar:
128MB och det definieras i hdfs-site.xml och detta är också anpassningsbart beroende på volym på datan och åtkomstnivån. Säg, 100 GB data som flyter på en dag, data blir segregerade och lagras över klustret. Vad blir antalet filer? 800 filer. (1024 * 100/128) (1024 à konverterade en GB till MB.) Det finns två sätt att ställa in anpassad datablockstorlek.

hadoop fs -D fs.local.block.size = 134217728 (i bitar)
Lägg till den här egenskapen i hdfs-site.xml à block.size med bitstorleken.

Om du ändrar standardstorleken till 512MB eftersom datastorleken är enorm, är de genererade no.of-filerna 200. (1024 * 100/512)

3. Hur får du rapporten om hdfs filsystem? Om disktillgänglighet och inga aktiva noder?

Svar:
Kommando: sudo -u hdfs dfsadmin –rapport

Det här är listan med information som visas,

Konfigurerad kapacitet - Total kapacitet tillgänglig i hdfs
Nuvarande kapacitet - Detta är den totala mängden utrymme som tilldelats resurserna för att ligga bredvid metastore och fsimage användning av utrymme.
Återstående DFS - Det är den mängd lagringsutrymme som fortfarande finns tillgängligt för HDFS för att lagra fler filer
DFS Used - Det är lagringsutrymmet som har använts av HDFS.
DFS används% - i procent
Under replikerade block - Antal block
Block med korrupta kopior - Om några skadade block
Saknade block
Saknade block (med replikeringsfaktor 1)

4. Vad är Hadoop-balanser och varför är det nödvändigt?

Svar:
Uppgifterna spridda över noderna distribueras inte i rätt proportion, vilket innebär att användningen av varje nod inte kanske balanseras. En nod kan vara överanvänd och den andra kan vara underutnyttjad. Detta leder till att ha en hög kostnadseffekt när du kör någon process och det skulle hamna i hård användning av dessa noder. För att lösa detta används Hadoop-balanserare som kommer att balansera användningen av data i noderna. Så när en balansör utförs flyttas data över var de underutnyttjade noderna fylls och de överanvända noderna kommer att frigöras.

5. Skillnad mellan Cloudera och Ambari?

Svar:

Cloudera Manager	Ambari
Administrationsverktyg för Cloudera	Administrationsverktyg för Horton fungerar
Övervakar och hanterar hela klustret och rapporterar användningen och eventuella problem	Övervakar och hanterar hela klustret och rapporterar användningen och eventuella problem
Levereras med Cloudera betaltjänst	Öppen källa

6. Vilka är de viktigaste åtgärderna som utförs av Hadoop-administratören?

Svar:
Övervaka hälsa för kluster - Det finns många applikationssidor som måste övervakas om några processer körs. (Jobbshistorikserver, YARN resurschef, Cloudera manager / ambary beroende på distributionen)

aktivera säkerhet - SSL eller Kerberos

Tune performance - Hadoop balancer

Lägg till nya datanoder vid behov - Infrastrukturändringar och konfigurationer

Valfritt att aktivera MapReduce Job History Tracking Server à Ibland kan omstart av tjänsterna hjälpa till att frigöra cacheminne. Detta är när klustret med en tom process.

7. Vad är Kerberos?

Svar:
Det är en autentisering som krävs för att varje tjänst ska synkroniseras för att köra processen. Det rekommenderas att aktivera Kerberos. Eftersom vi har att göra med distribuerad datoranvändning är det alltid god praxis att ha kryptering medan tillgång till data och bearbetning av dem. Eftersom varje nod är ansluten och all informationskanal går över ett nätverk. Eftersom Hadoop använder Kerberos, skickas lösenord inte över nätverket. Istället används lösenord för att beräkna krypteringsnycklarna. Meddelandena utbyts mellan klienten och servern. Enkelt uttryckt ger Kerberos identitet till varandra (noder) på ett säkert sätt med krypteringen.

Konfiguration i core-site.xml
Hadoop.security.authentication: Kerberos

8. Vad är den viktiga listan med hdfs-kommandon?

Svar:

kommandon	Ändamål
hdfs dfs –ls	För att lista filerna från hdfs-filsystemet.
Hdfs dfs –put	Kopiera fil från det lokala systemet till hdfs-filsystemet
Hdfs dfs –chmod 777	Ge en läs, skriva, utföra tillstånd till filen
Hdfs dfs –get	Kopiera filen från hdfs-filsystemet till det lokala filsystemet
Hdfs dfs –katt	Visa filinnehållet från hdfs-filsystemet
Hdfs dfs –rm	Ta bort filen från hdfs-filsystemet. Men den kommer att flyttas till papperskorgen (det är som en papperskorg i Windows)
Hdfs dfs –rm –skipTrash	Tar bort filen permanent från klustret.
Hdfs dfs –ouchouch	Skapa en fil i hdfs-filsystemet

9. Hur kontrollerar jag loggarna för ett Hadoop-jobb som skickats in i klustret och hur man avslutar redan pågående process?

Svar:
garnloggar –applicationId - Applikationsledaren genererar loggar på sin behållare och den kommer att bifogas med den id den genererar. Detta kommer att vara till hjälp för att övervaka processens körstatus och logginformationen.

garnapplikation –kill - Om en befintlig process som körs i klustret måste avslutas används kill-kommando där applikations-id används för att avsluta jobbet i klustret.

Rekommenderad artikel

Detta har varit en guide till Lista över Hadoop Admin Intervjufrågor och svar så att kandidaten lätt kan slå ned dessa Hadoop Admin Intervjufrågor. Du kan också titta på följande artiklar för att lära dig mer

Hadoop Cluster Intervjufrågor och svar - Topp 10 mest användbara
Datamodelleringsintervju - 10 viktiga frågor
SAS Systemintervjufrågor - Topp 10 användbara frågor

Hadoop Admin Intervjufrågor - Mest användbar och uppmanad

Innehållsförteckning:

Introduktion till Hadoop Admin Intervjufrågor och svar

1. Vad är rackmedvetenhet? Och varför är det nödvändigt?

2. Vad är standardblockstorleken och hur definieras det?

3. Hur får du rapporten om hdfs filsystem? Om disktillgänglighet och inga aktiva noder?

4. Vad är Hadoop-balanser och varför är det nödvändigt?

5. Skillnad mellan Cloudera och Ambari?

6. Vilka är de viktigaste åtgärderna som utförs av Hadoop-administratören?

7. Vad är Kerberos?

8. Vad är den viktiga listan med hdfs-kommandon?

9. Hur kontrollerar jag loggarna för ett Hadoop-jobb som skickats in i klustret och hur man avslutar redan pågående process?

Rekommenderad artikel

Hur ERP kan förbättra företagets produktivitet och vinst?

Erlang vs Haskell - Topp 9 användbara jämförelser av Erlang vs Haskell

ETF vs indexfonder - Lär dig de 6 bästa skillnaderna (med Infographics)

Ethereum vs Ethereum Classic - Topp 11 skillnader - Infografik

6 väsentliga försäljningsrapporter som varje säljledare måste ha - edu CBA

Svartvit justering i Photoshop CS3

Svartvit justering i Photoshop CS3

Photoshop svarta och vita konverteringar - Handledning för färgkanaler

Adobe Camera Raw 8 Tutorials - Rätt verktyget

Använda Perspective Crop Tool i Photoshop

Vänd alla bilder till en bakgrund med Photoshop

Bröllopspar i vinglas - Photoshophandledning

Tre bildrammamall i Photoshop

Faking Text Wrap in Photoshop

Redigerbar suddig typ med lagerstilar i Photoshop