Hur installerar man gnista?
Spark är en öppen källkodsram för att köra analysapplikationer. Det är en databehandlingsmotor som är värd hos leverantörens oberoende Apache Software Foundation för att arbeta med stora datamängder eller big data. Det är ett generellt datorsystem för klusterdatorer som tillhandahåller API på hög nivå i Scala, Python, Java och R. Det utvecklades för att övervinna begränsningarna i Hadoop-MapReduce-paradigmet. Datavetare tror att Spark körs 100 gånger snabbare än MapReduce eftersom det kan cache-data i minnet medan MapReduce fungerar mer genom att läsa och skriva på diskar. Den utför behandling i minnet vilket gör den mer kraftfull och snabb.
Spark har inget eget filsystem. Den bearbetar data från olika datakällor som Hadoop Distribuerat filsystem (HDFS), Amazons S3-system, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Den kan köras på Hadoop YARN (Yet Another Resource Negotiator), på Mesos, på EC2, på Kubernetes eller med fristående klusterläge. Den använder RDD: er (Resilient Distribuerad Dataset) för att delegera arbetsbelastningar till enskilda noder som stöder i iterativa applikationer. På grund av RDD är programmering lätt jämfört med Hadoop.
Spark består av olika komponenter som kallas Spark Ecosystem Components.
- Spark Core: Det är grunden för Spark-applikationen som andra komponenter är direkt beroende av. Det tillhandahåller en plattform för ett brett utbud av applikationer, såsom schemaläggning, distribuerad uppgiftssändning, i minnesbehandling och datareferenser.
- Gnistströmning: Det är den komponent som fungerar på live-strömningsdata för att tillhandahålla analys i realtid. Live-data intas i diskreta enheter som kallas partier som exekveras på Spark Core.
- Spark SQL: Det är den komponent som fungerar ovanpå Spark core för att köra SQL-frågor på strukturerade eller semistrukturerade data. Dataram är sättet att interagera med Spark SQL.
- GraphX: Det är grafberäkningsmotorn eller ramverket som tillåter bearbetning av grafdata. Det tillhandahåller olika grafalgoritmer att köras på Spark.
- MLlib: Den innehåller maskininlärningsalgoritmer som ger maskininlärningsramar i en minnebaserad distribuerad miljö. Den utför iterativa algoritmer effektivt på grund av kapaciteten för databehandling.
- SparkR: Spark tillhandahåller ett R-paket för att köra eller analysera datauppsättningar med R-skal.
Det finns tre sätt att installera eller distribuera gnista till dina system:
- Fristående läge i Apache Spark
- Hadoop YARN / Mesos
- SIMR (Spark in MapReduce)
Låt oss se distributionen i fristående läge.
Spark fristående driftsätt:
Steg 1: Uppdatera paketindex
Detta är nödvändigt för att uppdatera alla nuvarande paket på din maskin.
Använd kommando : $ sudo apt-get update
Steg 2: Installera Java Development Kit (JDK)
Detta installerar JDK i din maskin och hjälper dig att köra Java-applikationer.
Steg 3: Kontrollera om Java har installerats ordentligt
Java är en förutsättning för att använda eller köra Apache Spark-applikationer.
Använd kommando : $ java –version
Den här skärmdumpen visar java-versionen och garanterar närvaron av java på maskinen.
Steg 4: Installera Scala på din maskin
Eftersom Spark är skriven i skala så måste skalan installeras för att driva gnista på din maskin.
Använd kommando: $ sudo apt-get install scala
Steg 5: Kontrollera om Scala är korrekt installerat
Detta kommer att säkerställa en framgångsrik installation av skala på ditt system.
Använd kommando : $ scala –version
Steg 6: Ladda ner Apache Spark
Ladda ner Apache Spark enligt din Hadoop-version från https://spark.apache.org/downloads.html
När du går till länken ovan visas ett fönster.
Steg 7: Välj rätt version enligt din Hadoop-version och klicka på länken markerad.
Ett annat fönster skulle dyka upp.
Steg 8: Klicka på länken som är markerad och Apache-gnista laddas ner i ditt system.
Verifiera om .tar.gz- filen är tillgänglig i nedladdningsmappen.
Steg 9: Installera Apache Spark
För installation av Spark måste tjärfilen extraheras.
Använd kommando: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
Du måste ändra versionen som nämns i kommandot enligt din nedladdade version. I det här har vi laddat ner versionen spark-2.4.0-bin-hadoop2.7.
Steg 10: Inställningsmiljövariabel för Apache Spark
Använd Kommando: $ source ~ / .bashrc
Lägg till rad : exportera PATH = $ PATH: / usr / local / spark / bin
Steg 11: Kontrollera installationen av Apache Spark
Använd kommando : $ spark-shell
Om installationen lyckades produceras följande utgång.
Detta betyder att den framgångsrika installationen av Apache Spark på din maskin och Apache Spark startar i Scala.
Distribution av gnista på Hadoop YARN:
Det finns två lägen att distribuera Apache Spark på Hadoop YARN.
- Cluster-läge: I det här läget hanterar YARN på cluster Spark-drivrutinen som körs i en applikationsmastersprocess. Efter att ha startat applikationen kan klienten gå.
- Klientläge: I det här läget begär resurserna från YARN av applikationsmästare och gnistdrivrutinen körs i klientprocessen.
För att distribuera en Spark-applikation i klusterläge, använd kommando:
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
Ovanstående kommando startar ett YARN-klientprogram som startar standard Application Master.
För att distribuera en Spark-applikation i klientläge, använd kommando:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
Du kan köra gnistskal i klientläge genom att använda kommandot:
$ spark-shell –master yarn –deploy-mode client
Tips och tricks för att använda gnistinstallation:
- Se till att Java är installerat på din maskin innan du installerar gnista.
- Om du använder skalaspråk ska du se till att skalan redan är installerad innan du använder Apache Spark.
- Du kan använda Python också i stället för Scala för att programmera i Spark men det måste också vara förinstallerat som Scala.
- Du kan också köra Apache Spark på Windows men det föreslås att du skapar en virtuell maskin och installerar Ubuntu med Oracle Virtual Box eller VMWare Player .
- Spark kan köras utan Hadoop (dvs fristående läge) men om det krävs en inställning med flera noder krävs resurshanterare som YARN eller Mesos.
- När du använder YARN är det inte nödvändigt att installera Spark på alla tre noderna. Du måste installera Apache Spark på en enda nod.
- När du använder YARN om du är i samma lokala nätverk med klustret kan du använda klientläge medan du är långt borta kan du använda klusterläge.
Rekommenderade artiklar - Spark Install
Detta har varit en guide för hur du installerar Spark. Här har vi sett hur man distribuerar Apache Spark i fristående läge och ovanför resurshanteraren YARN och även några tips och tricks nämns också för en smidig installation av Spark. Du kan också titta på följande artikel för att lära dig mer -
- Hur man använder gnistkommandon
- En karriär inom Spark - You Must Try
- Skillnader mellan Splunk vs Spark
- Sparkintervjufrågor och svar
- Fördelar med gnistströmning
- Typer av sammanfogningar i Spark SQL (exempel)