Installera Spark - Komplett guide om installation av gnista

Hur installerar man gnista?

Spark är en öppen källkodsram för att köra analysapplikationer. Det är en databehandlingsmotor som är värd hos leverantörens oberoende Apache Software Foundation för att arbeta med stora datamängder eller big data. Det är ett generellt datorsystem för klusterdatorer som tillhandahåller API på hög nivå i Scala, Python, Java och R. Det utvecklades för att övervinna begränsningarna i Hadoop-MapReduce-paradigmet. Datavetare tror att Spark körs 100 gånger snabbare än MapReduce eftersom det kan cache-data i minnet medan MapReduce fungerar mer genom att läsa och skriva på diskar. Den utför behandling i minnet vilket gör den mer kraftfull och snabb.

Spark har inget eget filsystem. Den bearbetar data från olika datakällor som Hadoop Distribuerat filsystem (HDFS), Amazons S3-system, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Den kan köras på Hadoop YARN (Yet Another Resource Negotiator), på Mesos, på EC2, på Kubernetes eller med fristående klusterläge. Den använder RDD: er (Resilient Distribuerad Dataset) för att delegera arbetsbelastningar till enskilda noder som stöder i iterativa applikationer. På grund av RDD är programmering lätt jämfört med Hadoop.

Spark består av olika komponenter som kallas Spark Ecosystem Components.

Spark Core: Det är grunden för Spark-applikationen som andra komponenter är direkt beroende av. Det tillhandahåller en plattform för ett brett utbud av applikationer, såsom schemaläggning, distribuerad uppgiftssändning, i minnesbehandling och datareferenser.
Gnistströmning: Det är den komponent som fungerar på live-strömningsdata för att tillhandahålla analys i realtid. Live-data intas i diskreta enheter som kallas partier som exekveras på Spark Core.
Spark SQL: Det är den komponent som fungerar ovanpå Spark core för att köra SQL-frågor på strukturerade eller semistrukturerade data. Dataram är sättet att interagera med Spark SQL.
GraphX: Det är grafberäkningsmotorn eller ramverket som tillåter bearbetning av grafdata. Det tillhandahåller olika grafalgoritmer att köras på Spark.
MLlib: Den innehåller maskininlärningsalgoritmer som ger maskininlärningsramar i en minnebaserad distribuerad miljö. Den utför iterativa algoritmer effektivt på grund av kapaciteten för databehandling.
SparkR: Spark tillhandahåller ett R-paket för att köra eller analysera datauppsättningar med R-skal.

Det finns tre sätt att installera eller distribuera gnista till dina system:

Fristående läge i Apache Spark
Hadoop YARN / Mesos
SIMR (Spark in MapReduce)

Låt oss se distributionen i fristående läge.

Spark fristående driftsätt:

Steg 1: Uppdatera paketindex

Detta är nödvändigt för att uppdatera alla nuvarande paket på din maskin.

Använd kommando : $ sudo apt-get update

Steg 2: Installera Java Development Kit (JDK)

Detta installerar JDK i din maskin och hjälper dig att köra Java-applikationer.

Steg 3: Kontrollera om Java har installerats ordentligt

Java är en förutsättning för att använda eller köra Apache Spark-applikationer.

Använd kommando : $ java –version

Den här skärmdumpen visar java-versionen och garanterar närvaron av java på maskinen.

Steg 4: Installera Scala på din maskin

Eftersom Spark är skriven i skala så måste skalan installeras för att driva gnista på din maskin.

Använd kommando: $ sudo apt-get install scala

Steg 5: Kontrollera om Scala är korrekt installerat

Detta kommer att säkerställa en framgångsrik installation av skala på ditt system.

Använd kommando : $ scala –version

Steg 6: Ladda ner Apache Spark

Ladda ner Apache Spark enligt din Hadoop-version från https://spark.apache.org/downloads.html

När du går till länken ovan visas ett fönster.

Steg 7: Välj rätt version enligt din Hadoop-version och klicka på länken markerad.

Ett annat fönster skulle dyka upp.

Steg 8: Klicka på länken som är markerad och Apache-gnista laddas ner i ditt system.

Verifiera om .tar.gz- filen är tillgänglig i nedladdningsmappen.

Steg 9: Installera Apache Spark

För installation av Spark måste tjärfilen extraheras.

Använd kommando: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Du måste ändra versionen som nämns i kommandot enligt din nedladdade version. I det här har vi laddat ner versionen spark-2.4.0-bin-hadoop2.7.

Steg 10: Inställningsmiljövariabel för Apache Spark

Använd Kommando: $ source ~ / .bashrc

Lägg till rad : exportera PATH = $ PATH: / usr / local / spark / bin

Steg 11: Kontrollera installationen av Apache Spark

Använd kommando : $ spark-shell

Om installationen lyckades produceras följande utgång.

Detta betyder att den framgångsrika installationen av Apache Spark på din maskin och Apache Spark startar i Scala.

Distribution av gnista på Hadoop YARN:

Det finns två lägen att distribuera Apache Spark på Hadoop YARN.

Cluster-läge: I det här läget hanterar YARN på cluster Spark-drivrutinen som körs i en applikationsmastersprocess. Efter att ha startat applikationen kan klienten gå.
Klientläge: I det här läget begär resurserna från YARN av applikationsmästare och gnistdrivrutinen körs i klientprocessen.

För att distribuera en Spark-applikation i klusterläge, använd kommando:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Ovanstående kommando startar ett YARN-klientprogram som startar standard Application Master.

För att distribuera en Spark-applikation i klientläge, använd kommando:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Du kan köra gnistskal i klientläge genom att använda kommandot:

$ spark-shell –master yarn –deploy-mode client

Tips och tricks för att använda gnistinstallation:

Se till att Java är installerat på din maskin innan du installerar gnista.
Om du använder skalaspråk ska du se till att skalan redan är installerad innan du använder Apache Spark.
Du kan använda Python också i stället för Scala för att programmera i Spark men det måste också vara förinstallerat som Scala.
Du kan också köra Apache Spark på Windows men det föreslås att du skapar en virtuell maskin och installerar Ubuntu med Oracle Virtual Box eller VMWare Player .
Spark kan köras utan Hadoop (dvs fristående läge) men om det krävs en inställning med flera noder krävs resurshanterare som YARN eller Mesos.
När du använder YARN är det inte nödvändigt att installera Spark på alla tre noderna. Du måste installera Apache Spark på en enda nod.
När du använder YARN om du är i samma lokala nätverk med klustret kan du använda klientläge medan du är långt borta kan du använda klusterläge.

Rekommenderade artiklar - Spark Install

Detta har varit en guide för hur du installerar Spark. Här har vi sett hur man distribuerar Apache Spark i fristående läge och ovanför resurshanteraren YARN och även några tips och tricks nämns också för en smidig installation av Spark. Du kan också titta på följande artikel för att lära dig mer -

Hur man använder gnistkommandon
En karriär inom Spark - You Must Try
Skillnader mellan Splunk vs Spark
Sparkintervjufrågor och svar
Fördelar med gnistströmning
Typer av sammanfogningar i Spark SQL (exempel)

Installera Spark - Komplett guide om installation av gnista

Innehållsförteckning:

Hur installerar man gnista?

Spark består av olika komponenter som kallas Spark Ecosystem Components.

Det finns tre sätt att installera eller distribuera gnista till dina system:

Spark fristående driftsätt:

Steg 1: Uppdatera paketindex

Steg 2: Installera Java Development Kit (JDK)

Steg 3: Kontrollera om Java har installerats ordentligt

Steg 4: Installera Scala på din maskin

Steg 5: Kontrollera om Scala är korrekt installerat

Steg 6: Ladda ner Apache Spark

Steg 7: Välj rätt version enligt din Hadoop-version och klicka på länken markerad.

Steg 8: Klicka på länken som är markerad och Apache-gnista laddas ner i ditt system.

Steg 9: Installera Apache Spark

Steg 10: Inställningsmiljövariabel för Apache Spark

Steg 11: Kontrollera installationen av Apache Spark

Distribution av gnista på Hadoop YARN:

Tips och tricks för att använda gnistinstallation:

Rekommenderade artiklar - Spark Install

Hur man roterar och rätar bilder i Photoshop CC

Ta sig runt i Photoshop CC - Lär dig gränssnittet

Lär dig Adobe Photoshop - Komma igång med Photoshop

Photoshop Image Navigation Tutorials

Hur du ändrar storlek på bilder i Photoshop - komplett guide

VLOOKUP med Sum i Excel - Hur använder man VLOOKUP med Sum i Excel?

VLOOKUP i Excel (formel, exempel) - Hur man använder?

Volatilitetsformel - Kalkylator (exempel med Excel-mall)

Topp 15 VSAM-intervjufrågor och svar (Uppdaterad för 2019)

Vue.js vs jQuery - Vet de 13 viktigaste skillnaderna

Karriär i teradata - Utbildning och jobbmöjligheter - Lön - synsätt

Karriär i WordPress - Utbildning - Lön - Jobb - synsätt

Karriärer i Splunk - Karriärväg och lön - Jobb - Syn

Karriär inom webbutveckling - Information om jobb, lön och utbildning

Karriär i Unix - Utbildning och stor karriärmöjlighet - Lön och jobb