Hadoop Cluster Intervjufrågor och svar

Syftet med denna artikel är att hjälpa alla Big Data-aspiranter att svara på alla frågor från Hadoop Cluster Interview som är relaterade till installationen av Big Data miljö i en organisation. Detta frågeformulär hjälper till med att ställa in datanoder, namnnod och definiera kapaciteten för Big Data-daemons värdserver.

Så om du äntligen hittat ditt drömjobb i Hadoop Cluster men undrar hur du ska knäcka Hadoop Cluster-intervjun och vad som kan vara de troliga frågorna om Hadoop Cluster Interview. Varje intervju är annorlunda och omfattningen av ett jobb är också annorlunda. Med detta i åtanke har vi utformat de vanligaste Hadoop Cluster intervjufrågorna och svaren för att hjälpa dig att få framgång i din intervju.

Några av de viktigaste Hadoop Cluster-intervjufrågorna som ofta ställs i en intervju är följande:

1. Vad är de viktigaste Hadoop-komponenterna i Hadoop-klustret?

Svar:
Hadoop är ett ramverk där vi bearbetar big data eller Hadoop är plattformen där man kan bearbeta den enorma mängden data på råvaruservrar. Hadoop är kombinationen av många komponenter. Följande är de viktigaste komponenterna i Hadoop-miljön.
Namn Nod : Det är Master Node som tar hand om all information om datanoder och datalagringsplats i metadataformat.
Sekundärnamnod : Det fungerar som primärnamnod om primärnamnoden försvinner.
HDFS (Hadoop Distribuerat filsystem) : Det tar hand om all lagring av Hadoop-kluster.
Datanoder : Datanoder är slavnoder. Faktiska data sparas på slavkoder för bearbetning.
YARN (Yet Another Resource Negotiator) : En mjukvararam för att skriva applikationerna och för att behandla stora mängder data. Det ger samma funktioner som MapReduce dessutom skulle det tillåta varje batchjobb att köra parallellt i Hadoop-klustret.

2.Hur planerar jag datalagring i Hadoop-klustret?

Svar:
Lagring är baserad på formel (Lagring = Dagligt intag av data * Replikation).
Om Hadoop-klustret får data 120 TB på daglig basis och vi har standardreplikationsfaktor så det dagliga datalagringsbehovet skulle vara
Lagringskrav = 120 TB (dagligt intag av data) * 3 (standardreplikation) => 360 TB
Som ett resultat måste vi ställa in minst 360 TB datakluster för dagligt intag av data.
Lagring beror också på datalagringskravet. Om vi ​​vill att data ska lagras i två år i samma kluster så måste vi ordna datanoder enligt behållningskravet.

3. Beräkna antalet datanoder.

Svar:
Vi måste beräkna ett antal datanoder som krävs för Hadoop-kluster. Anta att vi har servrar med JBOD på 10 diskar och varje disk har 4 TB lagringsstorlek så att varje server har 40 TB lagring. Hadoop-klustret får data 120 TB per dag och 360 TB efter att ha använt standardreplikationsfaktor.
Antal datanoder = Dagligt intag av data / kapacitet för datanoder
Antal datanoder = 360/40 => 9 datanoder
Därför måste Hadoop-klustret få 120 TB-data med ovanstående konfiguration bara installera 9 datanoder.

4.Hur man ändrar replikeringsfaktor i Hadoop-klustret?

Svar:
Redigera hdfs-site.xml-filen. Standardvägen är under konf / mapp i Hadoop installationskatalog. ändra / lägg till följande egendom i hdfs-site.xml:
dfs.replication
3
Blockera replikering
Det är inte obligatoriskt att ha replikeringsfaktor 3. Den kan ställas in som 1 också. Replikeringsfaktor 5 fungerar också i Hadoop-klustret. Inställning av standardvärde gör kluster mer effektiva och minsta maskinvara krävs.
En ökning av replikeringsfaktorn skulle öka hårdvarukravet för att datalagret multipliceras med replikeringsfaktorn.

5. Vad är standarddatablockstorleken i Hadoop och hur man ändrar den?

Svar:
Blockstorlek skära ned / dela upp data i block och spara dem på olika-olika datanoder.
Som standard är blockstorlek 128 MB (i Apache Hadoop) och vi kan ändra standardblockstorleken.
Redigera hdfs-site.xml-filen. Standardvägen är under konf / mapp i Hadoop installationskatalog. ändra / lägg till följande egendom i hdfs-site.xml:
dfs.block.size
134217728
Block storlek
blockstorlek i byte är 134 217 728 eller 128 MB. Ange också storleken med suffix (skiftlägeskänslig) som k (kilo-), m (mega-), g (giga-) eller t (tera-) för att ställa in blockstorleken i KB, MB, TB osv …

6. Hur länge bör Hadoop-klustret behålla en raderad HDFS-fil i katalogen Delete / Trash?

Svar:
"Fs.trash.interval" är den parameter som anger hur länge HDFS kan behålla alla raderade filer i Hadoop-miljön för att hämta den raderade filen.
Intervallperiod kan endast definieras i minuter. Under två dagar återhämtningsintervall måste vi ange egenskapen i ett flödande format.
Redigera filen core-site.xml och lägg till / modifiera den med följande egenskap
fs.trash.interval
2880
Som standard är återvinningsintervallet 0 men Hadoop-administratör kan lägga till / ändra ovanstående egendom enligt krav.

7. Vad är de grundläggande kommandona för att starta och stoppa Hadoop-demoner?

Svar:
Alla kommandon för att starta och stoppa demoner som är lagrade i sbin / mapp.
./sbin/stop-all.sh - Att stoppa alla demoner på en gång.
hadoop-daemon.sh startnamnod
Hadoop-daemon.sh startdatanod
yarn-daemon.sh, starta resurshanteraren
yarn-daemon.sh, starta nodhanteraren
mr-jobhistory-daemon.sh starta historikservern

8.Vad är egenskapen för att definiera minnesallokering för uppgifter som hanteras av YARN?

Svar:
Egenskapen "yarn.nodemanager.resource.memory-mb" måste modifieras / läggas till för att ändra minnesallokering för alla uppgifter som hanteras av YARN.
Den anger mängden RAM i MB. Datanoder tar 70% av det faktiska RAM-minnet som ska användas för YARN. Datanoden med 96 GB kommer att använda 68 GB för YARN, resten av RAM-minnet används av Data Node-demonen för "Non-YARN-Work"
Redigera filen "yarn.xml-fil" och lägg till / ändra följande egenskap.
yarn.nodemanager.resource.memory-mb
68.608
yarn.nodemanager.resource.memory-mb standardvärde är 8192 MB (8GB). Om datanoder har stor RAM-kapacitet måste vi ändra till värde till upp till 70% annars kommer vi att slösa bort vårt minne.

9. Vad är rekommendationerna för storleksanpassning av namnnoden?

Svar:
Följande detaljer rekommenderas för att ställa in Master Node i ett mycket inledande skede.
Processorer: För processer räcker en enda CPU med 6-8 kärnor.
RAM-minne: För data- och jobbbehandlingsservern bör minst 24-96 GB RAM-minne.
Lagring: Eftersom ingen HDFS-data lagras på huvudnoden. Du kan 1-2TB som lokal lagring
Eftersom det är svårt att bestämma framtida arbetsbelastningar, så design ditt kluster genom att välja hårdvara som CPU, RAM och minne som lätt kan uppgraderas över tid.

10. Vad är standardportarna i Hadoop-klustret?

Svar:

Daemon NamnStandardport nr
Namn Nod.50070
Datanoder.50075
Sekundärnamn Nod.50090
Backup / Checkpoint-nod.50105
Job Tracker.50030
Uppgiftsspårare.50060

Rekommenderade artiklar

Detta har varit en guide till lista över intervjufrågor och svar på Hadoop Cluster-intervjuer så att kandidaten enkelt kan slå ned dessa intervjufrågor för Hadoop Cluster. Du kan också titta på följande artiklar för att lära dig mer -

  1. Elasticsearch Intervjufrågor och svara-top och mest användbara
  2. 9 Fantastiska MapReduce intervjufrågor och svar
  3. 8 Mest användbar guide till intervjufrågor i Big Data
  4. ETL-intervjufrågor och svar som du borde veta