Introduktion till Hive-alternativ

Innan vi diskuterar alternativen till HIVE. Låt oss först förstå vad som är en HIVE? Så, HIVE är i princip ett datalagringsverktyg som utvecklas ovanpå HDFS (Hadoop Distribuerat filsystem). Det används för att ge ett SQL-liknande frågegränssnitt till frågedata som lagras i olika filer integrerade med Hadoop. Det konverterar SQL-liknande frågor till Map Reduce-jobb som hjälper till att enkelt utföra stora datamängder.

Funktioner

Nedan är några av funktionerna i Hive:

  • Liksom SQL har det sitt eget deklarativa språk som heter HiveQL.
  • Den har en tabellstruktur som liknar tabeller i Relationsdatabasen och den ger också ETL (extrakt / support / belastning) support.
  • En intressant funktion är att det tillåter konvertering av format från HIVE.

Begränsning av bikupalternativ

Låt oss veta några begränsningar av Hive:

  • Den är inte utformad för OLTP (Online Transaction Processing) men stöder OLAP (Online Analytical Processing).
  • En viktig begränsning är att den inte stöder uppdateringar och raderar.
  • I Hive stöds inte heller frågor.

5 Viktiga bikupalternativ

Nedan kommer vi att diskutera fem viktiga alternativ av HIVE som finns på marknaden:

1. Apache Impala

Det är en SQL-frågeställning med parallellbehandling med öppen källkod för data lagrade i ett datorkluster som kör Apache Hadoop. Det tillkännagavs under oktober 2012. Nedan visas de framträdande funktionerna i Apache Impala som ett alternativ till HIVE.

  • Impala är ett bra val för personer som kör SQL-frågor på Hadoop och Apache HBase utan att transformera data eftersom det inte krävs för att transformera eller flytta data, till skillnad från HIVE.
  • En annan skillnad mellan dessa två är genereringen av frågauttryck. Impala genererar dem vid körning med llvm medan HIVE genererar dem vid sammanställningstid.
  • Hive Queries har ett problem med kallstart, vilket inte är fallet med Impala-frågor, eftersom i Impala-daemonprocesserna startas i själva starttiden, alltid redo att behandla en fråga på grund av vilken den undviker kallstartproblemet.
  • Impala känner igen Hadoop-filformat, Hadoop-säkerhet, ODBC-drivrutin.
  • Den viktigaste USP för impala är den brute kraften för parallellbehandling. Så, Impala är ett bättre alternativ om man startar ett nytt projekt.

2. Presto DB

Presto är ett annat alternativ för HIVE utvecklat av facebook. Dess USP är att det till och med kan fråga data från flera källor inom en enda fråga. Nedan visas de framträdande funktionerna hos PrestoDB som ett alternativ till HIVE.

  • Presto är en SQL-förfrågningsmotor i minnet som är Den är också väldigt snabb eftersom Presto-frågestyrningen är snabb och väl lämpad för interaktiv analys.
  • USP för Presto framför andra är dess plug and play-modell med olika datakällor. På grund av denna plug-and-play-modell är det mycket enkelt med presto att gå med frågor i olika datakällor.
  • I Presto har kombinationstabeller för små dimensioner gjorts snabbare. Presto utmärker sig med de flesta andra distribuerade sökmotorer.
  • Presto är inte lämpligt för stora fakta-anslutningar eftersom det inte utnyttjar disk och använder minne för bearbetning.
  • En viktigare punkt för presto är resursallokering. Den har en prioriterad köbaserad resursallokering.
  • En avvägning för goda prestationer i Presto är att UDF-stöd inte finns tillgängligt i presto på grund av vilket man måste skriva sin egen funktion som ökar omkostnaderna eftersom det måste byggas uteslutande för presto och hindrar driftskompatibiliteten.

3. Spark SQL

Det är en modul för också strukturerad databehandling och även öppen källkod. Den kan också fungera som en distribuerad SQL-frågeställningsmotor och också en unik del av detta är att det ger programmeringsabstraktion känd som dataramar. Den släpptes först 2014 utvecklad av Apache Software Foundation. Nedan är några av de framträdande funktionerna i Spark SQL som ett alternativ till HIVE.

  • Det bra med Spark SQL är att det kan implementeras på Java, Scala, Python och R medan HIVE kan implementeras på Java Language.
  • Det finns fullständig likhet i primär databasmodell mellan HIVE och gnista, eftersom för båda primärdatabasmodellerna är Relational DBMS.
  • Det liknar också HIVE eftersom båda stöder Key-Value-butiken som en ytterligare databasmodell.
  • Den har fördefinierade datatyper som float och datum.
  • Det stöder SQL eftersom det har DML- och DDL-uttalanden.
  • Till skillnad från HIVE som stöder JDBC, ODBC och Thrift stöder Spark SQL bara JDBC och ODBC.
  • Spark SQL använder gnistkärna för att lagra data i olika noder.
  • En annan viktig skillnad mellan gnista och HIVE är replikeringsmetoder: Det finns en selektiv replikationsfaktor i HIVE för att lagra redundanta data på flera noder men ingen replikeringsfaktor är tillgänglig i Spark SQL.
  • I Spark SQL finns det inga åtkomsträttigheter för användare medan vi i Apache Hive har åtkomsträttigheter för användare, grupper.
  • Det stöder inte ett transaktionsbord och inget stöd för röntyp.

4. Haj

Det är en öppen källkod SQL-frågestyrka som är skriven i Scala. Det intressanta faktumet med Shark är istället för att använda Map-Reduce för att utföra sina frågor, det använder sina egna uppsättningar av arbetarnoder. Nedan är några av funktionerna i Shark:

  • Den använder en kommandoradsklient.
  • Det erbjuder interoperabilitet med Hive för delning av scheman.
  • Det ger stöd för befintliga bikuputvidgningar som UDF: er.

Det är inte särskilt känt men det ger ett alternativ till HIVE.

5. BigSQL av IBM

Det tillhandahålls av Big Blue (IBM). IBM har en egen Hadoop-distribution som kallas Big Insights. Så, Big SQL erbjuds som en del av det. Det är inte öppen källkod eftersom det tillhandahålls av IBM. Några av de saker de tillhandahåller är som nedan:

  • De stöder både JDBC och OJDBC drivrutiner.
  • De tillhandahåller SQL-stöd
  • De kan användas för att fråga data från HDFS.

Rekommenderade artiklar

Detta är en guide till Hive Alternatives. Här diskuterar vi funktioner, begränsning och 5 viktiga Hive-alternativ. Du kan också gå igenom våra andra relaterade artiklar för att lära dig mer-

  1. Hadoop-alternativ
  2. Tableau-alternativ
  3. Google Analytics-alternativ
  4. Hadoop Streaming
  5. Hive Order by
  6. Hiveinstallation
  7. Dataramar i R

Kategori: