Introduktion till Hadoop-alternativ

Apache Hadoop är ett monströst ramverk som använder flera andra komponenter som HDFS, Hive, Spark, YARN och Zookeeper. Det används för att bearbeta och analysera data som hämtats från interna eller externa källor. Det kan skala från flera maskiner eller servrar till tusentals av dem. Det finns många inbyggda biblioteksfunktioner som kan upptäcka och hantera fel.

Komponenter i Hadoop

1) Hadoop Distribuerat filsystem (HDFS):

Detta är lagringstanken med data i Hadoop. Det fungerar på principen om distribuerad data, där enorma uppsättningar av data bryts i små delar och lagras över flera maskiner i ett kluster.

2) MapReduce:

Det är en programmeringsmodell för att utföra analyser på ett parallellt sätt på data som finns i olika noder i ett kluster.

3) Hive:

Ett Open Source-ramverk som används för att fråga om strukturerade data med hjälp av ett Hive-Query-språk. Indexeringsfunktionen används för att påskynda frågeprocessen.

4) Ambari:

En plattform för att övervaka klusterhälsa och automatisera operationer. Den har ett enkelt webbgränssnitt och kan enkelt installeras och konfigureras.

Lista över Hadoop-alternativ

Nedan visas de olika Hadoop-alternativen som är följande:

Satsvis bearbetning

Här sker behandlingen endast på arkivdata. Exempelvis är finansiella revisioner och folkräkning en analys som gjorts på gamla data för att ge en bättre förutsägelse av framtida resultat. Denna information kan innehålla miljarder rader och kolumner. Batchbehandling är bäst lämpad för stor databehandling utan behov av realtidsanalys.

Process i realtid

Det är också känt som Stream-Processing. Här behandlas data från tid till annan när de genereras för att ge en snabb inblick i de troliga resultaten. Jordbävningsdetektering & aktiemarknader är de bästa exemplen där realtidsanalys är ett måste.

Apache Spark

Spark är ett ramverk som används tillsammans med Hadoop för att bearbeta batch- eller realtidsdata på grupperade maskiner. Det kan också användas som fristående, hämta och lagra data i tredjepartsservrar utan att använda HDFS. Det är en öppen källkodsprodukt. Det tillhandahåller API: er som är skrivna med SCALA, R eller Python som stöder allmän behandling. För att bearbeta strukturerade data kan Spark-SQL användas. Spark Streaming utför efterfrågad realtidsanalys. Spark ger support till maskininlärning med MLIB. I slutändan kan behandlade data visas med Graphix.

Den mest anmärkningsvärda funktionen i Spark är behandling i minnet. Hela behandlingen av data sker i minnet och inte på disken. Den här metoden sparar inläsningstiden för ingången till disken och utdata från den. Gnisten går snabbt och är nästan 100 gånger snabbare än Hadoop-bearbetningen. Hela funktionen definieras och skickas till Spark-sammanhanget. Först då börjar behandlingen från början. Den här metoden kallas Lazy -ecution. Kafka, Flume används som ingångar för strömning av data. Strukturerade eller ostrukturerade data kan användas av Spark för analys. Dataströmmar är ett gäng data för ett visst tidsintervall i gnistströmning. De konverteras till partier och skickas till Spark Engine för behandling. Strukturerade data konverteras till dataramar innan Spark-SQL används för vidare analys.

Apache Storm

Apache Storm är också ett av alternativen till Hadoop som passar bäst för distribuerad analys i realtid. Det är enkelt att installera, användarvänligt och ger ingen dataförlust. En storm har mycket hög processorkraft och ger låg latens (vanligtvis i sekunder) jämfört med Hadoop.

Vi tittar närmare på arbetsflödet från Storm:

  • Stormtopologin (liknande en DAG men en fysisk exekveringsplan) överlämnas till Nimbus (Master Node).
  • Uppgifterna och i vilken ordning det ska utföras överlämnas till Nimbus.
  • Nimbus distribuerar jämnt de tillgängliga uppgifterna till handledarna (tappar) och processen utförs av arbetarnoderna (bultar).
  • Tapparnas och bultarnas hälsa övervakas kontinuerligt genom hjärtslag. När handledaren dör tilldelar Nimbus uppgiften till en annan nod.
  • Om Nimbus dör omstartas den automatiskt av övervakningsverktygen. Under tiden fortsätter handledarna att utföra sina uppgifter som tilldelades tidigare.
  • När Nimbus har startats om fortsätter den att fungera där den slutade. Därför finns det ingen dataförlust och varje data passerar genom topologin minst en gång.
  • Topologin fortsätter att köras förrän Nimbus avslutas eller med kraft avstängning.
  • Storm använder Zookeeper för att övervaka Nimbus och de andra handledarna.

Stor fråga

Databaser används för transaktionsbearbetning. Cheferna skapar rapporter och analyserar data från olika databaser. Datalager introducerades för att hämta data från flera databaser över hela organisationen. Google utvecklade Big query som är ett datalager som hanteras av sig själv. För att hantera mycket komplexa frågor kan man behöva mycket högpresterande servrar och Node-maskiner som kan kosta enormt. Installationen av infrastrukturen kan ta upp till flera veckor. När den maximala tröskeln har uppnåtts måste den skalas upp. För att komma till rätta med dessa problem ger Big-fråga lagring i form av Google-molnet. Arbetarkoderna skalar upp till storleken på ett datacenter om det behövs för att utföra en komplex fråga inom några sekunder. Du betalar för det du använder, dvs. frågan. Google tar hand om resurserna och deras underhåll och säkerhet. Att köra frågor på vanliga databaser kan ta från minuter till timmar. Stor fråga bearbetar data mycket snabbare och det passar främst för strömmande data som online-spel och Internet of Things (IoT). Bearbetningshastigheten är lika hög som miljarder rader på en sekund.

Presto

En Presto-fråga kan användas för att kombinera data från olika källor över hela organisationen och analysera dem. Uppgifterna kan finnas i Hive, RDBMS eller Cassandra. Presto passar bäst för analytiker som förväntar sig hela frågan inom några minuter. Arkitekturen är analog med ett klassiskt databashanteringssystem med användning av flera noder över ett kluster. Det utvecklades av Facebook för att utföra analys och hitta insikter från deras interna data inklusive deras 300PB datalager. Mer än 30 000 frågor körs på deras data för att skanna över en petabyte per dag. Andra ledande företag som Airbnb och Dropbox använder sig också av Presto.

Rekommenderad artikel

Detta har varit en guide till Hadoop Alternatives. Här diskuterar vi komponenterna i Hadoop, batchbearbetning och realtidsbearbetning av Hadoop-alternativ. Du kan också titta på följande artiklar för att lära dig mer:

  1. Hadoop Administratör Jobb
  2. Hadoop vs SQL-prestanda
  3. Karriär i Hadoop
  4. Hadoop vs Spark
  5. Hadoop Administrator | Färdigheter och karriärväg

Kategori: