Hadoop Tools - Lär dig de olika verktygen i Hadoop med sina funktioner

Introduktion till Hadoop Tools

Hadoop Tools är det ramverk som används för att behandla en stor mängd data. Dessa data distribueras på ett kluster och distribuerad beräkning görs. Uppgifterna lagras i block med storlek 128Mb och för att bearbeta och uppnå en resultatstyrka av Map Reduce används. Traditionellt har Map and Reduce skrivits i Java men det var svårt att korsa kunskaperna om de resurser som arbetar i datalager eftersom de inte hade erfarenhet av det. SQL är välkänt och är lätt att använda, så genom att hitta ett sätt att skriva en SQL som en fråga som konverteras till Map and Reduce grundades detta av Facebook och donerades senare till Apache, detta verktyg kallas Hive. Yahoo kom också med ett verktyg som kallas Pig som konverteras till Map Reduce vid körning, på liknande sätt har vi Sqoop och flume för data rörelse och injektionsverktyg. HBase är ett verktyg för databashanteringssystem.

Funktioner i Hadoop Tools

Bikupa
Gris
Sqoop
HBase
zookeeper
Flume

Nu kommer vi att se funktionerna med en kort förklaring.

1. Hive

Apache Hive grundades av Facebook och donerades senare till Apache foundation som är ett datalagerinfrastruktur, det underlättar att skriva SQL som Query som kallas HQL eller HiveQL. Dessa frågor konverteras internt till Map Reduce-jobb och behandlingen görs med hjälp av Hadoops distribuerade datoranläggningar. Den kan behandla data som finns i HDFS, S3 och all lagring som är kompatibel med Hadoop. Vi kan utnyttja de faciliteter som tillhandahålls av Map Reduce när vi finner något svårt att implementera i Hive genom att implementera i användardefinierade funktioner. Det gör det möjligt för användaren att registrera UDF: er och använda dem i jobben.

Funktioner i Hive

Hive kan behandla många typer av filformat som sekvensfil, ORC-fil, textfil, etc.
Partitionering, bucketing och indexering är tillgängliga för snabbare körning.
Komprimerad data kan också laddas i en bikuptabell.
Hanterade eller interna tabeller och externa tabeller är de framträdande funktionerna i Hive.

2. Gris

Yahoo utvecklade Apache Pig för att ha ett ytterligare verktyg för att stärka Hadoop genom att ha ett ad hoc-sätt att implementera Map Reduce. Pig har en motor som heter Pig Engine som konverterar skript till Map Reduce. Pig är ett skriptspråk, skript skrivna för Pig finns i PigLatin, precis som Hive här kan vi också ha UDF: s för att förbättra funktionaliteten. Uppgifter i Pig optimeras automatiskt så programmerare behöver inte oroa sig för det. Pig Hanterar såväl strukturerade som ostrukturerade data.

Funktioner hos Pig

Användare kan ha sina egna funktioner för att göra en speciell typ av databehandling.
Det är lätt att skriva koder i gris jämförelsevis också är kodens längd mindre.
Systemet kan automatiskt optimera körningen.

3. Sqoop

Sqoop används för att överföra data från HDFS till RDBMS och vice versa. Vi kan dra data till HDFS från RDBMS, Hive etc. och vi kan bearbeta och exportera dem tillbaka till RDBMS. Vi kan lägga till uppgifterna många gånger i en tabell, vi kan också skapa ett Sqoop-jobb och utföra det ett antal gånger.

Funktioner i Sqoop

Sqoop kan importera alla tabeller samtidigt till HDFS.
Vi kan bädda in SQL-frågor och villkor för import av data.
Vi kan importera data för att hive om det finns en tabell från HDFS.
Antalet kartläggare kan styras, dvs parallellkörning kan kontrolleras genom att ange antalet kartläggare.

4. HBase

Databashanteringssystemet ovanpå HDFS kallas HBase. HBase är en NoSQL-databas som utvecklas ovanpå HDFS. HBase är inte en relationsdatabas, den stöder inte strukturerade frågespråk. HBase använder distribuerad bearbetning av HDFS. Den kan ha stora bord med miljoner och miljoner poster.

Funktioner hos HBase

HBase ger skalbarhet både såväl linjär som modulär.
API: er i JAVA kan användas för klientåtkomst.
HBase tillhandahåller ett skal för att köra frågor.

5. Zookeeper

Apache Zookeeper är en centraliserad konfiguration som upprätthåller tjänsten, den registrerar information, namnger, den ger också distribuerad synkronisering och grupptjänster. Zookeeper är ett centraliserat arkiv som används av distribuerade applikationer för att lägga och få information om det. Det hjälper också till att hantera noder, dvs att gå med eller lämna en nod i klustret. Det ger ett mycket tillförlitligt dataregister när få av noderna är nere.

Funktioner i Zookeeper

Prestanda kan ökas genom att fördela uppgifterna som uppnås genom att lägga till fler maskiner.
Det döljer distributionens komplexitet och skildrar sig själv som en enda maskin.
Om några få system misslyckas påverkar det inte hela systemet, men nackdelen är att det kan leda till delvis dataförlust.
Det ger Atomicity, dvs. transaktionen är antingen framgångsrik eller misslyckad, men inte i ett ofullständigt tillstånd.

6. Flume

Apache Flume är ett verktyg som tillhandahåller intag av data, som kan samla in, aggregera och transportera en enorm mängd data från olika källor till en HDFS, HBase, etc. Flume är mycket pålitlig och kan konfigureras. Den var utformad för att ta in strömningsdata från webbservern eller händelsesdata till HDFS, till exempel kan den ta in twitterdata till HDFS. Flume kan lagra data till någon av de centraliserade datalagren som HBase / HDFS. Om det finns en situation där dataproduktionen är i högre takt jämfört med datorns hastighet kan skrivas, fungerar flume som en mediator och säkerställer dataflöden stadigt.

Funktioner av Flume

Det kan ta in webbserverns data tillsammans med händelsedata som data från sociala medier.
Flume-transaktioner är kanalbaserade dvs två meddelanden upprätthålls ett är för att skicka och ett är för att ta emot.
Horisontell skalning är möjlig i en flume.
Det är mycket felaktigt tolerant eftersom kontextuell dirigering finns i en flume.

Slutsats - Hadoop Tools

Här i den här artikeln har vi lärt oss några av Hadoop-verktygen och hur de är användbara i datavärlden. Vi har sett Hive och Pig som används för att fråga och analysera data, sqoop för att flytta data och flume för att äta strömningsdata till HDFS.

Rekommenderade artiklar

Detta har varit en guide till Hadoop Tools. Här diskuterar vi olika Tools of Hadoop med deras funktioner. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

Hadoop-alternativ
Hadoop-databas
SQL-strängfunktioner
Vad är Big Data

Hadoop Tools - Lär dig de olika verktygen i Hadoop med sina funktioner

Innehållsförteckning:

Introduktion till Hadoop Tools

Funktioner i Hadoop Tools

1. Hive

2. Gris

3. Sqoop

4. HBase

5. Zookeeper

6. Flume

Slutsats - Hadoop Tools

Rekommenderade artiklar

Skriv ut kommentarer i Excel - Hur skriver jag ut kommentarer i Excel?

Produktiva aktiviteter - Bästa steg - Produktiva aktiviteter på kontoret - edu CBA

Product Manager vs Project Manager - 7 mest värdefulla skillnader

Produktivitetsnivå - De bästa 18 verktygen för att öka produktivitetsnivån på kontoret

Professionella broar du bör bränna direkt (kraftfull)

Byta in PHP - Byta två och tre siffror med exempel

Topp 5 snabba intervjufrågor och svar (Uppdaterad för 2019)

Snabboperatörer - Olika typer av snabboperatörer med exempel

5 bästa sätten hur Swarm Intelligence kan hjälpa ditt företag

Hjälper Swarming Technology agila lag att växa?

Hur bildupplösning påverkar utskriftskvaliteten - Instruktioner för Photoshop

Så här kopierar du smarta objekt i Photoshop

Hur man använder smarta filter i Photoshop

Photoshop Layer Mask Grunder för nybörjare

Bästa sättet att vattenmärka bilder i Photoshop CC