Introduktion till Hive-kommandon

Hive-kommando är ett datalagerinfrastrukturverktyg som sitter ovanpå Hadoop för att sammanfatta Big data. Det bearbetar strukturerade data. Det underlättar datasökning och analys. Hive-kommando kallas också som "schema vid läsning;" Hive verifierar inte data när det laddas, verifiering sker bara när en fråga utfärdas. Den här egenskapen hos Hive gör det snabbt för första laddning. Det är som att kopiera eller helt enkelt flytta en fil utan att sätta några begränsningar eller kontroller. Hive utvecklades först av Facebook. Apache Software Foundation tog upp det senare och utvecklade det vidare.

Här är komponenterna i Hive-kommandot:

Fig 1. Komponenter i Hive

https://www.developer.com/

Här är kommandot Features of Hive listade nedan:

  1. Hive-butiker är råa och bearbetade datasätt i Hadoop.
  2. Det är utformat för OnLine Transaction Processing (OLTP). OLTP är de system som underlättar data med hög volym på mycket kortare tid utan att förlita sig på den enda servern.
  3. Det är snabbt, skalbart och pålitligt.
  4. Frågespråket av SQL-typ som anges här kallas HiveQL eller HQL. Detta underlättar ETL-uppgifter och annan analys.

Fig 2. Hiveegenskaper

Källor bilder: - Google

Det finns få begränsningar av Hive-kommandot också, som listas nedan:

  1. Hive stöder inte undersökningar.
  2. Hive stöder säkert överskrivning, men tyvärr stöder det inte radering och uppdateringar.
  3. Hive är inte designad för OLTP, men den används för den.

För att gå in i Hive's interaktiva skal:

$ HIVE_HOME / bin / bikupa

Grundläggande Hive-kommandon

  1. Skapa

Detta skapar den nya databasen i Hive.

  1. Släppa

Släppet tar bort ett bord från Hive

  1. Ändra

Ändra kommando hjälper dig att byta namn på tabellen eller tabellkolumnerna.

Till exempel:

hive> ALTER TABELL anställd RENAME TO anställd1;

  1. Visa

Visa-kommando visar alla databaser som finns i Hive.

  1. Beskriva

Beskriv kommando hjälper dig med informationen om schemat i tabellen.

Mellan Hive-kommandon

Hive delar upp en tabell i olika relaterade partitioner baserade på kolumner. Med hjälp av dessa partitioner blir det lättare att fråga data. Dessa partitioner delas vidare upp i hinkar för att köra frågan effektivt till data.

Med andra ord distribuerar skopor data till uppsättningen kluster genom att beräkna hashkoden för nyckeln som nämns i frågan.

  1. Lägger till partition

Lägga till partition kan åstadkommas genom att ändra tabellen. Säg att du har tabellen "EMP", med fält som Id, Namn, Lön, Inst., Beteckning och yoj.

hive> ALTER TABLE anställd

> LÄGG TILL DELNING (år = '2012')

plats '/ 2012 / del2012';

  1. Byt namn på partition

hive> ALTER TABELL ANTAL AV MEDARBETARE (år = '1203')

RENAME TO PARTITION (Yoj = '1203');

  1. Släpp partition

hive> ALTER TABELL DROP för anställda (OM EXISTER)

> DELITION (år = '1203');

  1. Relationsoperatörer

Relationsoperatörer består av en viss uppsättning operatörer, som hjälper till att hämta relevant information.

Exempel: Säg att tabellen "EMP" ser ut så här:

Låt oss utföra Hivefråga som hämtar oss den anställda vars lön är större än 30000.

bikupa> VÄLJ * FRÅN EMP VAR Lön> = 40000;

  1. Aritmetiska operatörer

Dessa är operatörer som hjälper till med att utföra aritmetiska operationer på operanderna och i sin tur alltid returnerar nummertyper.

Till exempel: Att lägga till två nummer, t.ex. 22 & 33

bikupa> VÄLJ 22 + 33 LÄGG TILL FRÅN temp;

  1. Logisk operatör

Dessa operatörer ska utföra logiska operationer, som i gengäld alltid returnerar True / False.

bikupa> VÄLJ * FRÅN EMP VAR Lön> 40000 && Avd. = TP;

Avancerade Hive-kommandon

  1. Se

Visa-konceptet i Hive är liknande som i SQL. Vyn kan skapas vid körning av ett SELECT-uttalande.

Exempel:

hive> CREATE VIEW EMP_30000 AS

VÄLJ * FRÅN EMP

VAR lön> 30000;

  1. Laddar data i tabellen

Hive> Ladda data lokal inpath '/home/hduser/Desktop/AllStates.csv' i tabellstater;

Här är "States" den redan skapade tabellen i Hive.

https://www.tutorialspoint.com/hive/

Hive har några inbyggda funktioner som hjälper dig att hämta ditt resultat på ett bättre sätt.

Som runda, golv, BIGINT etc.

  1. Ansluta sig

Kopplingsklausul kan hjälpa dig att gå med i två tabeller baserade på samma kolumnnamn.

Exempel:

hive> VÄLJ c.ID, c.NAME, c.AGE, o.AMOUNT

FRÅN KUNDER c GÅ MED ORDERS o

ON (c.ID = o.CUSTOMER_ID);

Alla typer av sammanfogningar stöds av Hive: Vänster yttre koppling, höger yttre koppling, full yttre koppling.

Tips och tricks för att använda hive-kommandon

Hive gör databehandling så enkel, enkel och utdragbar att användaren uppmärksammar mindre på att optimera Hivefrågorna. Men att uppmärksamma några saker när du skriver Hivefråga kommer säkert att få stor framgång i att hantera arbetsbelastningen och spara pengar. Nedan följer några tips om det:

  1. Partitioner och hinkar: Hive är ett big data-verktyg som kan fråga på stora datasätt. Att skriva frågan utan att förstå domänen kan dock ge stora partitioner i Hive.

Om användaren känner till datasatsen, kan relevanta och mycket använda kolumner grupperas i samma partition. Detta hjälper till att köra frågan snabbare och ineffektivt sätt.

I slutändan nej. av mapper- och I / O-operationer kommer också att reduceras.

Fig 3. Partitionering

Källbilder: Google-bild

Fig 4 Bucketing

Källor bilder: - Google-bild

  1. Parallell exekvering: Hive kör frågan i flera steg. I vissa fall kan dessa steg bero på andra steg, varför de inte kan komma igång, när det föregående steget är avslutat. Oberoende uppgifter kan dock köras parallellt för att spara den totala körtiden. För att aktivera parallellkörningen i Hive:

ställa in hive.exec.parallel = true;

Därför kommer detta att förbättra klusteranvändningen.

  1. Blockera provtagning: Sampling av data från en tabell gör det möjligt att utforska frågor om data.

Trots att vi har buckat, vill vi snarare ta prov på datasätt mer slumpmässigt. Blockprover kommer med olika kraftfulla syntaxer, som hjälper till att sampla in data på olika sätt.

Provtagning kan användas för att hitta ca. info från datasatsen som det genomsnittliga avståndet mellan ursprung och destination.

Fråga 1% av big data kommer att ge nära det perfekta svaret. Utforskning blir mycket lättare och effektivare.

Slutsats - Hive-kommandon

Hive är en högre abstraktion ovanpå HDFS, som ger flexibelt frågespråk. Det hjälper till att fråga och bearbeta data på ett enklare sätt.

Hive kan klubbas med andra Big data-element för att utnyttja dess funktionalitet på ett fullständigt sätt.

Rekommenderade artiklar

Detta har varit en guide till Hive-kommandon. Här har vi diskuterat såväl grundläggande som avancerade Hive-kommandon och några omedelbara Hive-kommandon. Du kan också titta på följande artikel för att lära dig mer -

  1. Hiveintervjufrågor
  2. Hive VS nyans - Topp 6 användbara jämförelser
  3. Tableau-kommandon
  4. Adobe Photoshop-kommandon
  5. Använda ORDER BY-funktion i Hive
  6. Ladda ner och installera Hive steg för steg

Kategori: