Sparkintervjufrågor - Topp 12 frågor uppdaterade för 2018

Innehållsförteckning:

Anonim

Introduktion till gnistorintervjufrågor och svar

Apache Spark är en öppen källkodsram. Spark, eftersom det är en öppen källkodsplattform, kan vi använda flera programmeringsspråk som java, python, Scala, R. Jämfört med Map-Reduce-processprestanda hjälper gnist att förbättra exekveringsprestanda. Det ger också 100 gånger snabbare körning i minnet än Map-Reduce. På grund av gnistens bearbetningskraft föredrar för närvarande gnistor.

Så du har äntligen hittat ditt drömjobb i Spark men undrar hur du kan knäcka Sparkintervju och vad som kan vara de troliga Sparkintervjufrågorna för 2018. Varje intervju är annorlunda och omfattningen av ett jobb är också annorlunda. Med detta i åtanke har vi utformat de vanligaste Spark Interview Questions and Answers för 2018 för att hjälpa dig att få framgång i din intervju.

Dessa frågor är indelade i två delar

Del 1 - Spark Interview Questions (Basic)

Den första delen täcker grundläggande Spark-intervjufrågor och svar

1. Vad är gnista?

Svar:
Apache Spark är en öppen källkodsram. Det förbättrar exekveringsprestanda än Map-Reduce-processen. Det är en öppen plattform där vi kan använda flera programmeringsspråk som Java, Python, Scala, R. Spark ger exekvering i minnet som är 100 gånger snabbare än Map-Reduce. Den använder begreppet RDD. RDD är ett fjädrande distribuerat datasätt som gör det möjligt att öppna lagring av data i minnet och fortsätta att skiva endast det behövs. Det är här det kommer att minska tiden för åtkomst till data från minnet istället för Disk. Idag föredrar industrin Spark på grund av sin processorkraft.

2. Skillnad mellan Hadoop och Spark?

Svar:

FunktionskriterierApache SparkHadoop
Hastighet10 till 100 gånger snabbare än HadoopNormal hastighet
bearbetningRealtid & batchbehandling, i minnet, cachingEndast gruppbearbetning, Diskberoende
SvårighetEnkelt på grund av högnivåmodulerSvårt att lära sig
ÅterhämtningTillåter återställning av partitioner med RDDFeltolerant
InteraktivitetHar interaktiva, interaktiva lägenInget interaktivt läge utom Pig & Hive, Inget iterativt läge

Normal Hadoop-arkitektur följer grundläggande Map-Reduce. För samma process ger gnist exekvering i minnet. I stället för att läsa-skriva från hårddisken för Map-Reduce, tillhandahåller gnista läs-skriv från virtuellt minne.

Låt oss gå till nästa Spark-intervjufrågor

3. Vilka är funktionerna hos Spark?

Svar:

  1. Ge integrationsfunktion med Hadoop och filer på HDFS. Spark kan köras ovanpå Hadoop med hjälp av YARN-resurskluster. Spark har kapacitet att ersätta Hadoop's Map-Reduce-motor.
  2. Polyglot: Spark Ge API på hög nivå för Java, Python, Scala och R. Spark Code kan skrivas på något av dessa fyra språk. IT tillhandahåller ett oberoende skal för skala (det språk som gnistor är skriven i) och en pytontolk. Vilket hjälper till att interagera med gnistmotor? Scala shell kan nås via ./bin/spark-shell och Python shell genom ./bin/pyspark från den installerade katalogen.
  3. Hastighet: Gnistmotorn är 100 gånger snabbare än Hadoop Map-Reduce för storskalig databehandling. Hastighet uppnås genom partitionering för parallellisering av distribuerad databehandling med minimal nätverkstrafik. Spark Provide RDD: er (Resilient Distribuerade databaser), som kan cachelagras över datornoder i ett kluster
  4. Flera formater: Spark har en datakälla API. Det kommer att tillhandahålla en mekanism för att få åtkomst till strukturerad data genom spark SQL. Datakällor kan vara vad som helst, Spark skapar bara en mekanism för att konvertera data och dra den till gnistan. Spark stöder flera datakällor som Hive, HBase, Cassandra, JSON, Parkett, ORC.
  5. Spark tillhandahåller några inbyggda bibliotek för att utföra flera uppgifter från samma kärna som batchbehandling, ångning, maskininlärning, interaktiva SQL-frågor. Hadoop stöder dock endast batchbehandling. Spark Ge MLIb (maskininlärningsbibliotek) som kan vara till hjälp för Big-Data Developer för att bearbeta data. Detta hjälper till att ta bort beroenden av flera verktyg för olika ändamål. Spark tillhandahåller en gemensam kraftfull plattform för dataingenjörer och datavetare med både snabba prestanda och enkla att använda.
  6. Apache Spark försenar processutförandet tills åtgärden är nödvändig. Detta är en av de viktigaste funktionerna i gnista. Spark lägger till varje transformation till DAG (Direct Acyclic Graph) för exekvering, och när åtgärden vill utföra kommer den faktiskt att trigga DAG att bearbetas.
  7. Realtidströmning: Apache Spark ger beräkningar i realtid och låg latens, på grund av exekvering i minnet. Spark är designat för stora skalbarheter som tusen nod i klustret och flera modeller för beräkningar.

4. Vad är YARN?

Svar:
Detta är de grundläggande Spark Interview Questions som ställs i en intervju. YARN (Yet Another Resource Negotiator) är Resource Manager. Spark är en plattform som ger snabb körning. Spark kommer att använda YARN för att utföra jobbet till klustret snarare än sin egen inbyggda manager. Det finns några konfigurationer för att köra Yarn. De inkluderar master, distribueringsläge, drivrutinminne, exekutorminne, exekutorkärnor och kö. Detta är de vanliga Spark Interview Intervjuer som ställs i en intervju nedan är fördelarna med gnista:

Fördelar med gnista över kartminskning

Gnist har fördelar jämfört med Map-Reduce enligt följande: -
På grund av förmågan att använda minnet, kan Spark köra 10 till 100 gånger snabbare än Map-Reduce. Där Map-Reduce kan användas för att upprätthålla data på kartan och reducera scenen.

Apache Spark tillhandahåller en hög nivå av inbyggda bibliotek för att bearbeta flera uppgifter samtidigt som batchbehandling, realtidströmning, Spark-SQL, strukturerad strömning, MLib osv. Samtidigt ger Hadoop endast batchbehandling.
Hadoop Map-Reduce-processen kommer att vara beroende av skivor, där Spark tillhandahåller caching och in-minne.

Spark har både iterativ, utför beräkningsmultipel på samma datasats och interaktiv, utför beräkning mellan olika datasätt där Hadoop inte stöder iterativ beräkning.

5. Vad stöds av Spark?

Svar:
Spark support scala, Python, R och Java. På marknaden föredrar big data-utvecklare mestadels scala och python. För att en skala ska kunna kompilera koden behöver vi Ange skalväg / fackkatalog eller för att skapa en burkfil.

6. Vad är RDD?

Svar:
RDD är en abstraktion av Resilient Distribuerad dataset, som tillhandahåller en samling av element som är indelade över alla noder i klustret som kommer att hjälpa till att utföra flera processer parallellt. Användning av RDD-utvecklare kan lagra data i minnet eller cache, så att de kan återanvändas effektivt för parallell utförande av operationer. RDD kan enkelt återställas från nodfel.

Del 2 - Sparkintervjufrågor (avancerat)

Låt oss nu titta på de avancerade frågorna om Spark Interview.

7. Vilka är de faktorer som ansvarar för exekveringen av Spark?

Svar:
1. Spark ger exekvering i minnet istället för diskberoende som Hadoop Map-Reduce.
2.RDD Resilient Distribuerad databas, som är en ansvarsfull parallellkörning av flera operationer på alla noder i ett kluster.
3. Spark tillhandahåller en delad variabelfunktion för parallellkörning. Dessa variabler hjälper till att minska dataöverföringen mellan noder och dela en kopia av alla noder. Det finns två variabler.
4.Broadcast Variable: Den här variabeln kan användas för att cache ett värde i minnet på alla noder
5.Accumulators Variable: Denna variabel är bara "läggs till" till, såsom räknare och summor.

8. Vad är exekutivminne?

Svar:
Detta är de vanliga frågorna om Spark Interview i en intervju. Det är högstorlek som tilldelas för gnistutförare. Den här egenskapen kan kontrolleras av egenskapen spark.executor.memory i flaggan –executor-memory. Varje Spark-applikation har en exekutör för varje arbetarnod. Den här egenskapen hänvisar till hur mycket minne av arbetarkoder som kommer att tilldelas för en applikation.

9. Hur använder du Spark Stream? Förklara Ett användningsfall?

Svar:
Spark Stream är en av funktionerna som är användbara för ett realtidsanvändningsfall. Vi kan använda flume, Kafka med en gnista för detta ändamål. Flume utlöser data från en källa. Kafka kommer att fortsätta uppgifterna till ämnet. Från Kafka kommer Spark att dra data med hjälp av strömmen och det kommer att D-strömma uppgifterna och utföra omvandlingen.

Vi kan använda den här processen för en misstänkt transaktion i realtid, erbjudanden i realtid etc.

Låt oss gå till nästa Spark-intervjufrågor

10. Kan vi använda Spark för ETL-processen?

Svar:
Ja, vi kan använda gnistplattform för ETL-processen.

11. Vad är Spark SQL?

Svar:
Det är en speciell gnistkomponent som stöder SQL-frågor.

12. Vilken lat utvärdering?

Svar:
När vi arbetar med en gnista utvärderas inte transformationer förrän du utför en åtgärd. Detta hjälper till att optimera det övergripande arbetsflödet för databehandling. När du definierar transformation kommer det att läggas till DAG (Direct Acyclic Graph). Och vid tidpunkten kommer det att börja genomföra stegvisa transformationer. Detta är den användbara Spark Interview-frågan som ställs i en intervju.

Rekommenderad artikel

Detta har varit en guide till Lista över Sparkintervjufrågor och svar så att kandidaten lätt kan slå ned dessa Spark Interview Questions. Du kan också titta på följande artiklar för att lära dig mer-

  1. Java vs Node JS förenklar skillnaderna
  2. Mongo-databasintervjufrågor | Användbart och mest frågat
  3. 15 mest framgångsrika R-intervjufrågor och svar
  4. Perl intervjufrågor och svar
  5. SAS Systemintervjufrågor - Topp 10 användbara frågor