Introduktion till Hadoop Admin Intervjufrågor och svar

Så du har äntligen hittat ditt drömjobb i Hadoop Admin men undrar hur du ska knäcka Hadoop Admin Intervju och vad som kan vara de troliga Hadoop Admin intervjufrågorna. Varje intervju är annorlunda och omfattningen av ett jobb är också annorlunda. Med detta i åtanke har vi utformat de vanligaste Hadoop Admin Intervjufrågor och svar för att hjälpa dig att få framgång i din intervju.

Följande är Hadoop Admin Interview Questions som hjälper dig att spricka en intervju med Hadoop.

1. Vad är rackmedvetenhet? Och varför är det nödvändigt?

Svar:
Rack-medvetenhet handlar om att distribuera datanoder över flera rack.HDFS följer rack-medvetenhetsalgoritmen för att placera datablocken. Ett rack innehåller flera servrar. Och för ett kluster kan det finnas flera rack. Låt oss säga att det finns ett Hadoop-kluster med 12 noder. Det kan finnas 3 rack med 4 servrar på varje. Alla 3 racken är anslutna så att alla 12 noder är anslutna och som bildar ett kluster. När du bestämmer om antalet rack är den viktiga punkten att tänka på replikeringsfaktorn. Om det finns 100 GB data som kommer att flöda varje dag med replikeringsfaktorn 3. Då är det 300 GB data som måste ligga i klustret. Det är ett bättre alternativ att kopiera data över racken. Även om någon nod går ner kommer kopian att ligga i ett annat rack.

2. Vad är standardblockstorleken och hur definieras det?

Svar:
128MB och det definieras i hdfs-site.xml och detta är också anpassningsbart beroende på volym på datan och åtkomstnivån. Säg, 100 GB data som flyter på en dag, data blir segregerade och lagras över klustret. Vad blir antalet filer? 800 filer. (1024 * 100/128) (1024 à konverterade en GB till MB.) Det finns två sätt att ställa in anpassad datablockstorlek.

  1. hadoop fs -D fs.local.block.size = 134217728 (i bitar)
  2. Lägg till den här egenskapen i hdfs-site.xml à block.size med bitstorleken.

Om du ändrar standardstorleken till 512MB eftersom datastorleken är enorm, är de genererade no.of-filerna 200. (1024 * 100/512)

3. Hur får du rapporten om hdfs filsystem? Om disktillgänglighet och inga aktiva noder?

Svar:
Kommando: sudo -u hdfs dfsadmin –rapport

Det här är listan med information som visas,

  1. Konfigurerad kapacitet - Total kapacitet tillgänglig i hdfs
  2. Nuvarande kapacitet - Detta är den totala mängden utrymme som tilldelats resurserna för att ligga bredvid metastore och fsimage användning av utrymme.
  3. Återstående DFS - Det är den mängd lagringsutrymme som fortfarande finns tillgängligt för HDFS för att lagra fler filer
  4. DFS Used - Det är lagringsutrymmet som har använts av HDFS.
  5. DFS används% - i procent
  6. Under replikerade block - Antal block
  7. Block med korrupta kopior - Om några skadade block
  8. Saknade block
  9. Saknade block (med replikeringsfaktor 1)

4. Vad är Hadoop-balanser och varför är det nödvändigt?

Svar:
Uppgifterna spridda över noderna distribueras inte i rätt proportion, vilket innebär att användningen av varje nod inte kanske balanseras. En nod kan vara överanvänd och den andra kan vara underutnyttjad. Detta leder till att ha en hög kostnadseffekt när du kör någon process och det skulle hamna i hård användning av dessa noder. För att lösa detta används Hadoop-balanserare som kommer att balansera användningen av data i noderna. Så när en balansör utförs flyttas data över var de underutnyttjade noderna fylls och de överanvända noderna kommer att frigöras.

5. Skillnad mellan Cloudera och Ambari?

Svar:

Cloudera ManagerAmbari
Administrationsverktyg för ClouderaAdministrationsverktyg för Horton fungerar
Övervakar och hanterar hela klustret och rapporterar användningen och eventuella problemÖvervakar och hanterar hela klustret och rapporterar användningen och eventuella problem
Levereras med Cloudera betaltjänstÖppen källa

6. Vilka är de viktigaste åtgärderna som utförs av Hadoop-administratören?

Svar:
Övervaka hälsa för kluster - Det finns många applikationssidor som måste övervakas om några processer körs. (Jobbshistorikserver, YARN resurschef, Cloudera manager / ambary beroende på distributionen)

aktivera säkerhet - SSL eller Kerberos

Tune performance - Hadoop balancer

Lägg till nya datanoder vid behov - Infrastrukturändringar och konfigurationer

Valfritt att aktivera MapReduce Job History Tracking Server à Ibland kan omstart av tjänsterna hjälpa till att frigöra cacheminne. Detta är när klustret med en tom process.

7. Vad är Kerberos?

Svar:
Det är en autentisering som krävs för att varje tjänst ska synkroniseras för att köra processen. Det rekommenderas att aktivera Kerberos. Eftersom vi har att göra med distribuerad datoranvändning är det alltid god praxis att ha kryptering medan tillgång till data och bearbetning av dem. Eftersom varje nod är ansluten och all informationskanal går över ett nätverk. Eftersom Hadoop använder Kerberos, skickas lösenord inte över nätverket. Istället används lösenord för att beräkna krypteringsnycklarna. Meddelandena utbyts mellan klienten och servern. Enkelt uttryckt ger Kerberos identitet till varandra (noder) på ett säkert sätt med krypteringen.

Konfiguration i core-site.xml
Hadoop.security.authentication: Kerberos

8. Vad är den viktiga listan med hdfs-kommandon?

Svar:

kommandonÄndamål
hdfs dfs –lsFör att lista filerna från hdfs-filsystemet.
Hdfs dfs –putKopiera fil från det lokala systemet till hdfs-filsystemet
Hdfs dfs –chmod 777Ge en läs, skriva, utföra tillstånd till filen
Hdfs dfs –getKopiera filen från hdfs-filsystemet till det lokala filsystemet
Hdfs dfs –kattVisa filinnehållet från hdfs-filsystemet
Hdfs dfs –rmTa bort filen från hdfs-filsystemet. Men den kommer att flyttas till papperskorgen (det är som en papperskorg i Windows)
Hdfs dfs –rm –skipTrashTar bort filen permanent från klustret.
Hdfs dfs –ouchouchSkapa en fil i hdfs-filsystemet

9. Hur kontrollerar jag loggarna för ett Hadoop-jobb som skickats in i klustret och hur man avslutar redan pågående process?

Svar:
garnloggar –applicationId - Applikationsledaren genererar loggar på sin behållare och den kommer att bifogas med den id den genererar. Detta kommer att vara till hjälp för att övervaka processens körstatus och logginformationen.

garnapplikation –kill - Om en befintlig process som körs i klustret måste avslutas används kill-kommando där applikations-id används för att avsluta jobbet i klustret.

Rekommenderad artikel

Detta har varit en guide till Lista över Hadoop Admin Intervjufrågor och svar så att kandidaten lätt kan slå ned dessa Hadoop Admin Intervjufrågor. Du kan också titta på följande artiklar för att lära dig mer

  1. Hadoop Cluster Intervjufrågor och svar - Topp 10 mest användbara
  2. Datamodelleringsintervju - 10 viktiga frågor
  3. SAS Systemintervjufrågor - Topp 10 användbara frågor