Introduktion till Hadoop Tools

Hadoop Tools är det ramverk som används för att behandla en stor mängd data. Dessa data distribueras på ett kluster och distribuerad beräkning görs. Uppgifterna lagras i block med storlek 128Mb och för att bearbeta och uppnå en resultatstyrka av Map Reduce används. Traditionellt har Map and Reduce skrivits i Java men det var svårt att korsa kunskaperna om de resurser som arbetar i datalager eftersom de inte hade erfarenhet av det. SQL är välkänt och är lätt att använda, så genom att hitta ett sätt att skriva en SQL som en fråga som konverteras till Map and Reduce grundades detta av Facebook och donerades senare till Apache, detta verktyg kallas Hive. Yahoo kom också med ett verktyg som kallas Pig som konverteras till Map Reduce vid körning, på liknande sätt har vi Sqoop och flume för data rörelse och injektionsverktyg. HBase är ett verktyg för databashanteringssystem.

Funktioner i Hadoop Tools

  1. Bikupa
  2. Gris
  3. Sqoop
  4. HBase
  5. zookeeper
  6. Flume

Nu kommer vi att se funktionerna med en kort förklaring.

1. Hive

Apache Hive grundades av Facebook och donerades senare till Apache foundation som är ett datalagerinfrastruktur, det underlättar att skriva SQL som Query som kallas HQL eller HiveQL. Dessa frågor konverteras internt till Map Reduce-jobb och behandlingen görs med hjälp av Hadoops distribuerade datoranläggningar. Den kan behandla data som finns i HDFS, S3 och all lagring som är kompatibel med Hadoop. Vi kan utnyttja de faciliteter som tillhandahålls av Map Reduce när vi finner något svårt att implementera i Hive genom att implementera i användardefinierade funktioner. Det gör det möjligt för användaren att registrera UDF: er och använda dem i jobben.

Funktioner i Hive

  • Hive kan behandla många typer av filformat som sekvensfil, ORC-fil, textfil, etc.
  • Partitionering, bucketing och indexering är tillgängliga för snabbare körning.
  • Komprimerad data kan också laddas i en bikuptabell.
  • Hanterade eller interna tabeller och externa tabeller är de framträdande funktionerna i Hive.

2. Gris

Yahoo utvecklade Apache Pig för att ha ett ytterligare verktyg för att stärka Hadoop genom att ha ett ad hoc-sätt att implementera Map Reduce. Pig har en motor som heter Pig Engine som konverterar skript till Map Reduce. Pig är ett skriptspråk, skript skrivna för Pig finns i PigLatin, precis som Hive här kan vi också ha UDF: s för att förbättra funktionaliteten. Uppgifter i Pig optimeras automatiskt så programmerare behöver inte oroa sig för det. Pig Hanterar såväl strukturerade som ostrukturerade data.

Funktioner hos Pig

  • Användare kan ha sina egna funktioner för att göra en speciell typ av databehandling.
  • Det är lätt att skriva koder i gris jämförelsevis också är kodens längd mindre.
  • Systemet kan automatiskt optimera körningen.

3. Sqoop

Sqoop används för att överföra data från HDFS till RDBMS och vice versa. Vi kan dra data till HDFS från RDBMS, Hive etc. och vi kan bearbeta och exportera dem tillbaka till RDBMS. Vi kan lägga till uppgifterna många gånger i en tabell, vi kan också skapa ett Sqoop-jobb och utföra det ett antal gånger.

Funktioner i Sqoop

  • Sqoop kan importera alla tabeller samtidigt till HDFS.
  • Vi kan bädda in SQL-frågor och villkor för import av data.
  • Vi kan importera data för att hive om det finns en tabell från HDFS.
  • Antalet kartläggare kan styras, dvs parallellkörning kan kontrolleras genom att ange antalet kartläggare.

4. HBase

Databashanteringssystemet ovanpå HDFS kallas HBase. HBase är en NoSQL-databas som utvecklas ovanpå HDFS. HBase är inte en relationsdatabas, den stöder inte strukturerade frågespråk. HBase använder distribuerad bearbetning av HDFS. Den kan ha stora bord med miljoner och miljoner poster.

Funktioner hos HBase

  • HBase ger skalbarhet både såväl linjär som modulär.
  • API: er i JAVA kan användas för klientåtkomst.
  • HBase tillhandahåller ett skal för att köra frågor.

5. Zookeeper

Apache Zookeeper är en centraliserad konfiguration som upprätthåller tjänsten, den registrerar information, namnger, den ger också distribuerad synkronisering och grupptjänster. Zookeeper är ett centraliserat arkiv som används av distribuerade applikationer för att lägga och få information om det. Det hjälper också till att hantera noder, dvs att gå med eller lämna en nod i klustret. Det ger ett mycket tillförlitligt dataregister när få av noderna är nere.

Funktioner i Zookeeper

  • Prestanda kan ökas genom att fördela uppgifterna som uppnås genom att lägga till fler maskiner.
  • Det döljer distributionens komplexitet och skildrar sig själv som en enda maskin.
  • Om några få system misslyckas påverkar det inte hela systemet, men nackdelen är att det kan leda till delvis dataförlust.
  • Det ger Atomicity, dvs. transaktionen är antingen framgångsrik eller misslyckad, men inte i ett ofullständigt tillstånd.

6. Flume

Apache Flume är ett verktyg som tillhandahåller intag av data, som kan samla in, aggregera och transportera en enorm mängd data från olika källor till en HDFS, HBase, etc. Flume är mycket pålitlig och kan konfigureras. Den var utformad för att ta in strömningsdata från webbservern eller händelsesdata till HDFS, till exempel kan den ta in twitterdata till HDFS. Flume kan lagra data till någon av de centraliserade datalagren som HBase / HDFS. Om det finns en situation där dataproduktionen är i högre takt jämfört med datorns hastighet kan skrivas, fungerar flume som en mediator och säkerställer dataflöden stadigt.

Funktioner av Flume

  • Det kan ta in webbserverns data tillsammans med händelsedata som data från sociala medier.
  • Flume-transaktioner är kanalbaserade dvs två meddelanden upprätthålls ett är för att skicka och ett är för att ta emot.
  • Horisontell skalning är möjlig i en flume.
  • Det är mycket felaktigt tolerant eftersom kontextuell dirigering finns i en flume.

Slutsats - Hadoop Tools

Här i den här artikeln har vi lärt oss några av Hadoop-verktygen och hur de är användbara i datavärlden. Vi har sett Hive och Pig som används för att fråga och analysera data, sqoop för att flytta data och flume för att äta strömningsdata till HDFS.

Rekommenderade artiklar

Detta har varit en guide till Hadoop Tools. Här diskuterar vi olika Tools of Hadoop med deras funktioner. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

  1. Hadoop-alternativ
  2. Hadoop-databas
  3. SQL-strängfunktioner
  4. Vad är Big Data

Kategori: