Vad är en bikupa?

Apache Hive är ett datalagringssystem designat ovanpå den öppna källkodens Hadoop-plattform och används för datasammanfattning, frågning av stora data, dataanalys etc.

Hive utvecklades av Facebook och i en senare tidpunkt övertogs den av Apache Software Foundation som vidareutvecklade den som en öppen källa under namnet Apache Hive.

Definition:

Det är inte en relationsdatabas och det är därför inte lämpligt för online-transaktionshantering och realtidsfrågor med radnivåuppdateringar. Hive är utformad för online analytisk bearbetning eller OLAP. Det ger också ett frågespråk som heter HiveQL. Det är skalbart, snabbt och töjbart. Den konverterar frågorna som ser nästan ut som SQL till MapReduce-jobb för enkel körning och bearbetning av en stor mängd data. Apache-bikupa är en av Hadoop-komponenterna som normalt används av dataanalytiker medan apache-gris också används för samma uppgift, men den används mer av forskare och programmerare. Apache-bikupan som är ett datalagringssystem med öppen källkod används för att fråga och analysera enorma datamängder lagrade i Hadoop-lagring. Hive är bäst lämpad för batchjobb och inte för transaktionsbearbetningstyper online. Det stöder inte heller realtidsfrågor. Hive använder SQL som frågespråk och används främst för att skapa rapporter. Hive distribueras vanligtvis på serversidan och det stöder strukturerad data. Hive stöder också integration med JDBC och BI-verktyg.

Förstå Hive:

Nedan är de viktigaste komponenterna i bikupan:

Meta Store:

Förvaret som lagrar metadata kallas hive meta store. Metadata består av olika data om tabellerna som dess plats, schema, information om partitionerna som hjälper till att övervaka olika distribuerade dataförlopp i klustret. Det håller också reda på uppgifterna och replikerar data som ger en säkerhetskopia i nödsituationer som dataförlust. Metadatainformationen finns i relationsdatabaser och inte i Hadoop-filsystemet.

Förare:

Vid körning av Hive-frågeställningsspråket får föraren uttalandet och kontrollerar det under hela körningscykeln. Tillsammans med verkställandet av uttalandet lagrar föraren också metadata som genererades från körningen. Det skapar också sessioner för att övervaka framstegen och livscykeln för olika avrättningar. Efter att MapReduce-jobbet har avslutats för att minska operationen, samlar föraren all data och resultat från frågan

Kompilator:

Det används för att översätta Hive-frågespråket till MapReduce-ingång. Den åberopar en metod som kör de steg och uppgifter som behövs för att läsa HiveQL-utdata efter behov av MapReduce.

Optimizer:

Optimisatorns huvuduppgift är att förbättra effektiviteten och skalbarheten och skapa en uppgift medan du transformerar uppgifterna före reduceringen. Det utför också transformationer som aggregering, rörledningskonvertering med en enda koppling för flera sammanfogningar.

Testamentsexekutor:

Efter kompilering och optimeringssteg är exekutorns huvuduppgift att utföra uppgifterna. Exekutorns huvuduppgift är att interagera med Hadoop jobbsökare för att schemalägga uppgifter redo att köras.

UI, Thrift-server och CLI:

Thrift-servern används av andra klienter för att interagera med Hive-motorn. Användargränssnittet och kommandoradsgränssnittet hjälper till att skicka frågor och processövervakning och instruktioner så att externa användare kan interagera med bikupan.

Nedan följer stegen som visar hive-interaktion med Hadoop-ramverket:

Utför frågan:

Frågan skickas till drivrutinen från bikupgränssnitt som kommandorad eller webbgränssnitt. En drivrutin kan vara vilken databasdrivare som JDB eller ODBC, etc.

Få planen:

Syntaxen för kravet i frågan eller frågeplan kan kontrolleras med hjälp av en frågeställare som passerar genom frågan och åberopas av föraren.

Hämta metadata:

Metalagret kan finnas i vilken databas som helst och kompilatorn gör en begäran om åtkomst till metadata.

Skickar metadata:

På begäran av kompilatorn skickar metavatorn metadata.

Skicka planen:

Kompilatorn skickar planen till föraren när han verifierar de krav som skickas av kompilatorn. Detta steg avslutar analys och sammanställning av en fråga.

Utföra planen:

Exekveringsplanen skickas till körmotorn av föraren.

Utför jobbet:

Ett utförande av jobbet är ett MapReduce-jobb som körs i backend. Sedan följer den normala konventionen för Hadoop-ramverket - exekveringsmotorn skickar ett jobb till jobbsökaren som ligger på namnsnoden och namnnoden tilldelar i sin tur jobbet till task tracker som finns i datainmärkningen. MapReduce-jobbet körs här.

Metadata ops:

Medan jobbet utförs kan exekveringsmotorn utföra metadatafunktioner med meta-lagret.

Hämtar resultatet:

Datanoderna efter avslutad bearbetning skickar resultatet till exekveringsmotorn.

Skicka resultatet

Föraren får resultatet från körmotorn.

Resultat skickar:

Slutligen får Hive-gränssnitten resultatet från föraren.

Genom utförandet av ovanstående steg sker således en fullständig frågeställning i Hive.

Hur gör Hive att arbeta så enkelt?

Hive är ett datalagringsramverk som är byggt ovanpå Hadoop som hjälper användaren att utföra dataanalys, fråga om data och datasammanfattning på stora datamängder. HiveQL är en unik funktion som ser ut som SQL-data lagrade i databasen och utför den omfattande analysen. Jag kunde läsa data i mycket hög hastighet och skriva in data i datalagerna såväl som det kan hantera stora datamängder fördelade på flera platser. Tillsammans med denna bikupa ger också struktur till data som lagras i databasen och användare kan ansluta till bikupan med hjälp av kommandoradsverktyget eller JDBC-drivrutinen.

Topp företag:

Stora organisationer som arbetar med big data använde bikupa - som facebook, Amazon, Walmart och många andra.

Vad kan du göra med Hive?

Det finns många funktioner i bikupan som datafråga, sammanfattning av data och dataanalys. Hive stöder ett frågespråk som heter HiveQL eller Hive Query Language. Frågorna om Hive-frågeställningar översätts till MapReduce-jobb som bearbetas i Hadoop-klustret. Bortsett från detta minskar Hiveql också skript som kan läggas till i frågorna. På detta sätt ökar HiveQL schemat designflexibilitet, som också stöder deserialisering av data och dataserialisering.

Arbeta med Hive:

Nedan följer några av de operativa detaljerna i Hive. Hive-datatyper klassificeras i stort sett i fyra typer enligt nedan:

  • Kolumntyper
  • litteraler
  • Nollvärden
  • Komplexa typer

1. Kolumntyper:

Dessa är kolumndatatyperna i bikupan. Dessa klassificeras som nedan:

  • Integrerade typer: Heltalsdata representeras med integrerad datatyp. Symbolen är INT. All data som överstiger den övre gränsen för INT måste tilldelas datatyp för BIGINT. På samma sätt måste all data under den lägre gränsen för INT tilldelas SMALLINT. Det finns en annan datatyp som heter TINYINT som ännu mindre än SMALLINT.
  • Stringtyper: Stringdatatyp representeras i bikupan med en enda offert (') eller dubbla citat (“). Det kan vara av två typer - VARCHAR eller CHAR.
  • Tidsstämpel: Hive-tidsstämpel stöder java.sql.Timestampformat “yyyy-mm-dd hh: mm: ss.ffffffffff” och format “YYYY-MM-DD HH: MM: SS.fffffffff”.
  • Datum: Datum representeras i bikupan i formatet ÅÅÅÅ-MM-DD som representerar år-månad-dag.
  • Decimaler : decimaler i en bikupa representeras i java stora decimalformat och används för att representera oföränderlig godtycklig precision. Det representeras i formatet Decimal (precision, skala).
  • Unionstyper: Union används i bikupan för att skapa en samling av en heterogen datatyp. Det kan skapas med hjälp av skapa en fackförening.

Nedan är ett exempel:

UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)
UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)

2. Bokstäver:

Det finns få bokstäver som används i bikupan. De är som nedan:

  • Flytande punkttyp : De representeras som siffror med en decimalpunkt. Dessa är ganska lik dubbla datatyp.
  • Decimal typ : Denna typ av data innehåller endast decimaltypdata men med ett högre intervall för flytande punktvärde än den dubbla datatypen. Intervallet för decimaltyp är ungefärligt -10 -308 till 10 308.

3. Nollvärde:

Specialvärdet NULL representerar saknade värden i bikupan.

4. Komplexa typer:

Nedan finns de olika komplexa typerna som finns i bikupan:

  • Arrays : Arrays representeras i en bikupa i samma form som java. Syntaxen är som ARRAY.
  • Kartor : Kartor representeras i bikupan i samma form som java. Syntaxen är som MAP
  • .
  • Strukturer : Strukturer i bikupan representeras som komplexa data med kommentarer. Syntaxen är som STRUCT.

Förutom allt detta kan vi skapa databaser, tabeller, partitionera dem och många andra funktioner.

  • Databaser: Det är namnområdena som innehåller en samling tabeller. Nedan är syntaxen för att skapa en databas i en bikupa.

CREATE DATABASE (IF NOT EXISTS) sampled;

Databaserna kan också tappas om de inte behövs längre. Nedan är syntaxen för att släppa en databas.

DROP DATABASE (IF EXISTS) sampled;

  • Tabeller: De kan också skapas i bikupan för att lagra data. Nedan är syntaxen för att skapa en tabell.

CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam
((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment
(ROW FORMAT row_format) (STORED AS file_format)

Ett bord kan också släppas om det inte behövs längre. Nedan är syntaxen för att släppa en tabell.

DROP TABLE (IF EXISTS) table_name;

fördelar

Den största fördelen med Apache Hive är för datafrågor, sammanfattning och analys. Hive är utformad för bättre produktivitet hos utvecklaren och kommer också med kostnaden för att öka latensen och minska effektiviteten. Apache Hive tillhandahåller ett brett utbud av användardefinierade funktioner som kan kopplas samman med andra Hadoop-paket som RHipe, Apache Mahout, etc. Det hjälper utvecklare till stor del när de arbetar med komplex analysbehandling och flera dataformat. Det används främst för datalagring vilket betyder ett system som används för rapportering och dataanalys.

Det handlar om att rensa, transformera och modellera data för att ge användbar information om olika affärsaspekter som kan hjälpa till att producera en fördel för en organisation. Dataanalys en mängd olika aspekter och tillvägagångssätt som omfattar olika tekniker med olika namn i olika affärsmodeller, samhällsvetenskapliga domäner, etc. Hive är mycket användarvänlig och gör det möjligt för användare att samtidigt få åtkomst till data som ökar responstiden. Jämfört med den andra typen av frågor på enorma datauppsättningar är bikupans svarstid mycket snabbare än andra. Det är också mycket flexibelt vad gäller prestanda när du lägger till mer data och genom att öka antalet noder i klustret.

Varför ska vi använda bikupan?

Tillsammans med dataanalys ger hive ett brett utbud av alternativ för att lagra data i HDFS. Hive stöder olika filsystem som en platt fil eller textfil, sekvensfil bestående av binära nyckelvärdespar, RC-filer som lagrar kolumnen i en tabell i en kolumndatabas. Numera är den fil som passar bäst med Hive känd som ORC-filer eller Optimized Row Columnar-filer.

Varför behöver vi Hive?

I dagens värld är Hadoop associerad med de mest spridda teknikerna som används för stordatabehandling. Den mycket rika samlingen av verktyg och tekniker som används för dataanalys och annan stordatabehandling.

Vem är rätt publik för att lära sig Hive-tekniker?

De flesta människor med bakgrund som utvecklare, Hadoop-analys, systemadministratörer, datalagring, SQL-professionell och Hadoop-administration kan behärska hive.

Hur denna teknik kommer att hjälpa dig i karriärtillväxt?

Hive är en av de heta färdigheterna på marknaden nuförtiden och det är ett av de bästa verktygen för dataanalys i Hadoop-världen med stor data. Stora företag som gör analys över stora datamängder letar alltid efter personer med kompetensrättigheter så att de kan hantera och fråga enorma datamängder. Hive är ett av de bästa verktygen som finns tillgängliga på marknaden för stora datateknologier under de senaste dagarna som kan hjälpa en organisation runt om i världen för deras dataanalys.

Slutsats:

Förutom ovanstående funktioner har bikupan mycket mer avancerade funktioner. Kraften i hive att bearbeta ett stort antal datasätt med stor noggrannhet gör hive till ett av de bästa verktygen som används för analys i big data-plattformen. Dessutom har den också en stor potential att komma fram som ett av de ledande big data-analysverktygen under kommande dagar på grund av periodiska förbättringar och användarvänlighet för slutanvändaren.

Rekommenderade artiklar

Detta har varit en guide till What is Hive. Här diskuterade vi arbetet, färdigheter, karriärstillväxt, fördelarna med Hive och toppföretag som implementerar denna teknik. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

  1. Hive-kommandon
  2. Hiveintervjufrågor
  3. Vad är Azure?
  4. Vad är Big Data Technology?
  5. Hive Arkitektur | Definition
  6. Använda ORDER BY-funktion i Hive

Kategori: