Introduktion till Hadoop Ecosystem

Apache Hadoop är ett öppen källkodssystem för att pålitligt lagra och bearbeta mycket information på många handelsdatorer. Hadoop har först skrivits i ett papper och publicerades i oktober 2013 som "Google File System". Doug Cutting, som arbetade i Yahoo vid den tiden, introducerade namnet som Hadoop Ecosystem baserat på hans sons leksaks elefantnamn. Om vi ​​överväger den viktigaste kärnan i Apache Hadoop, kan den för det första ta hänsyn till lagringsdelen, som kallas Hadoop Distribuerad filsystem (HDFS), och för det andra bearbetningsdel, som kallas Map Reduce Programming module. Hadoop delar faktiskt en enorm fil och lagrar dem i flera noder över hela klustret.

Konceptet med Hadoop Ecosystem

Apache Hadoop-ramverket hålls huvudsakligen under moduler:

  1. Hadoop Common: innehåller alla bibliotek och verktyg som behövs för att använda Hadoop-modulen.
  2. Hadoop Distribuerat filsystem (HDFS): Det är ett av de distribuerade filsystemen som hjälper till att lagra enorma data i flera eller maskinvaror. Tillhandahåller också stor användbarhet vid bandbredd, den gav normalt mycket hög bandbredd i en typ av aggregat på ett kluster.
  3. Hadoop Yarn: Det introducerades 2012. Det introduceras främst för att hantera resurser på alla system i råvaror även i ett kluster. Baserat på resursförmåga distribuerade eller planerade den användarens applikation enligt krav.
  4. Hadoop MapReduce: Det hjälper främst att bearbeta storskaliga data genom kartminskande programmeringsmetodik.

Apache Hadoop hjälper alltid till att minska IT-kostnaderna när det gäller bearbetning och lagring av enorma data smart. Eftersom Apache Hadoop är en öppen källkod och hårdvara är mycket vanligt tillgänglig, hjälper det oss alltid att hantera en korrekt minskning av IT-kostnaderna.

Open Source Software + Commodity Hardware = IT Kostnadsminskning

Om vi ​​till exempel överväger att dagligen ta emot 942787 filer och kataloger, som kräver 4077936 block, totalt 5020723 block. Så om vi konfigurerade minst 1, 46 PB-kapacitet, kommer det distribuerade filsystemet att hantera över belastning över 1, 09 PB, det vill säga nästan 74, 85% av den totala konfigurerade kapaciteten, medan vi överväger 178 levande noder och 24 döda noder.

Hadoop-ekosystem främst utformat för lagring och bearbetning av big data, som normalt har några viktiga egenskaper som nedan:

  • Volym

Volymen står för storleken på data som faktiskt lagras och genererades. Beror på storleken på data har det fastställts att datauppsättningen är big data eller inte.

  • Mängd

Variation står för naturen, strukturen och typen av data som används.

  • Hastighet

Hastighet står för hastigheten på data som har lagrats och genererats i ett visst utvecklingsprocessflöde.

  • sanningshalten

Veracity anger kvaliteten på data som har tagits och hjälper också dataanalysen att nå det avsedda målet.

HDFS är främst utformat för att lagra en mycket stor mängd information (terabyte eller petabytes) över ett stort antal maskiner i ett kluster. Det upprätthåller alltid vissa vanliga egenskaper, till exempel datapålitlighet, körs på hårdvaruvaror, använder block för att lagra en fil eller en del av den filen, använder 'skriv en gång läst många' -modellen.

HDFS följer arkitekturen nedan med konceptet Namn Nod och Datanod.

Ansvaret för Namnoden (Master):

- hanterar filsystemets namnutrymme

- upprätthåller klusterkonfiguration

- Ansvarig för replikationshantering

Datanoden (slavar) ansvar:

- Lagra data i det lokala filsystemet

- Rapportera regelbundet tillbaka till namnoden med hjärtslag

HDFS-skrivoperation:

Hadoop följer stegen nedan för att skriva någon stor fil:

  1. Skapa fil och uppdatera FS-bilden efter att ha fått en filbegäran från en HDFS-klient.
  2. Hämta information om blockeringsplats eller datanoden från namnnoden.
  3. Skriv paketet på ett individuellt datanoder parallellt.
  4. Bekräfta avslutande eller acceptera paketskrivning och skicka tillbaka information till Hadoop-klienten.

HDFS Block Replication Pipeline:

  1. Klienten hämtar en lista med datanoder från Namenoden som är värd för en kopia av det blocket
  2. Klienten spolar sedan datablocket till den första Datanoden
  3. Den första Datanoden får ett block, skriver det och överför det till nästa datanod i pipeline
  4. När alla kopior skrivs, går klienten vidare till nästa block i filen

HDFS-feltolerans:

En datanod har plötsligt varit nere, i så fall har HDFS förmågan att hantera det scenariot automatiskt. Först mottas alltid alla namnnoder en hjärtslag från varje datanod, om det på något sätt förlorat ett hjärtslag från en datanod, med tanke på samma datanod som ned, vidta omedelbart åtgärder för att automatiskt replikera alla block på återstående noder omedelbart för att tillfredsställa replikering faktor.

Om namnnoden upptäcker en ny datanod som är tillgänglig i klustret, balanserar den omedelbart alla block inklusive den tillagda datanoden.

Nu på något sätt Namn noder förlust eller misslyckades, i så fall också backup-nod som håller en FS-bild av namn nod återuppspelar alla FS-operationen omedelbart och upp namnet nod enligt krav. Men i så fall krävs manuell intervention, och hela Hadoop-ekosystemramen kommer att vara nere ett par gånger för att sätta upp ett nytt namnnod igen. Så i det här fallet kan namnnod vara en enda punktfel, för att undvika detta scenario HDFS Federation introducerar flera kluster uppsättning av namnnod, och ZooKeeper kan hantera omedelbart upp ett alternativt namnnod enligt krav.

Exempel på Hadoop Ecosystem

Exempel på fullständigt Hadoop-ekosystem kan förklaras korrekt i figuren nedan:

Data kan komma från alla typer av källor som Data Warehouse, Managed Document Repository, File Shares, Normal RDMS databas, eller moln eller externa källor. Alla dessa uppgifter kom till HDFS på strukturellt eller icke-strukturellt eller semistrukturerat sätt. HDFS lagrar alla dessa uppgifter på ett distribuerat sätt, vilket innebär att det är mycket smart att lagra i distribuerat handelssystem.

Slutsats

Hadoop-ekosystem främst utformat för lagring och bearbetning av enorma data som borde ha presenterat någon av de två faktorerna mellan volym, hastighet och variation. Den lagrar data i ett distribuerat behandlingssystem som körs på hårdvaruvaror. Med tanke på hela Hadoop-ekosystemprocessen distribuerar HDFS datablocken och Map Reduce tillhandahåller programmeringsramen för att läsa data från en fil lagrad i HDFS.

Rekommenderade artiklar:

Detta har varit en guide till Hadoop Ecosystem. Här har vi diskuterat det grundläggande konceptet om Hadoop Ecosystem, det är arkitektur, HDFS-operationer, exempel, HDFS-feltolerans etc. Du kan också titta på följande artiklar för att lära dig mer -

  1. Användningar av Hadoop i verkliga världen
  2. Hadoop vs Splunk
  3. Karriär i Hadoop
  4. Hadoop vs SQL-prestanda

Kategori: