HDFS-kommando - Grundläggande till avancerad kommando med tips och tricks

Innehållsförteckning:

Anonim

Introduktion till HDFS-kommandon

Big data är ett ord för datasätt som är så enorma eller sammansatta att konventionell programvara för databehandlingsapplikation inte räcker för att pakta med dem. Hadoop är en Java-baserad programmeringsram med öppen källkod som kedjer behandlingen och lagringsutrymmet för enormt skrymmande datamängder i en spridd datormiljö. Apache-programvarufundament är nyckeln för att installera Hadoop

Funktioner hos HDFS:

  • HDFS körs på Master / slavarkitektur
  • Filer används av HDFS för lagring av användarrelaterad data
  • har en enorm uppsättning kataloger och filer som lagras i ett hierarkiskt format.
  • På insidan rippas en fil i mindre block och dessa block lagras i en uppsättning datanoder.
  • Namenode och Datanode är den del av programvara som är avsedd att köras på produktmaskiner som klassiskt körs på GNU / Linux OS.

Namenode:

  • Här upprätthålles filsystemet med namnnod
  • Namenode ansvarar också för att logga alla ändringar i filsystemet och dessutom upprätthåller en bild av komplett filsystemens namnutrymme och fil Blockmap i minnet
  • Kontrollpunkterna utförs regelbundet. därmed lätt återhämta sig till scenen innan kraschpunkten kan uppnås här.

Datanode:

  • En Datanode tillhandahåller data i filer i det lokala filsystemet
  • För att intimera sin existens skickar datanoden hjärtslag till namnoden
  • En blockrapport kommer att genereras för varje tionde hjärtslag som mottas
  • Replikation impliceras på data lagrade i dessa datanoder

Datareplikation:

  • Här bildar sekvensen av block en fil med en standardstorlek på 128 MB
  • Alla block i filen förutom finalen har samma storlek.
  • Från varje datanoder i klustret får namnelementet ett hjärtslag
  • BlockReport innehåller alla block på en Datanode.
  • har en enorm uppsättning kataloger och filer som lagras i ett hierarkiskt format.
  • På insidan rippas en fil i mindre block och dessa block lagras i en uppsättning datanoder.
  • Namenode och Datanode är den del av programvara som är avsedd att köras på produktmaskiner som klassiskt körs på GNU / Linux OS.

Job tracker: JobTracker-debatt till NameNode för att avsluta datapositionen. Hitta också de bästa TaskTracker-noderna för att utföra uppgifter baserade på datalokaliteten

Uppgiftsspårare: En TaskTracker är en nod i klustret som accepterar uppgifter - Map, Reduce and Shuffle operations - från en JobTracker.

Sekundär namn nod (eller) kontrollpunkt node: Hämtar EditLog från namnoden i regelbundna intervall och gäller för dess FS-bild. Och kopierar en färdig FS-bild till namnnoden under omstart. Sekundärnamnens hela syfte är att ha en kontrollpunkt i HDFS.

Garn:

  • YARN har en central resurshanterarkomponent som hanterar resurser och tilldelar resurserna till varje applikation.
  • Här är Resurshanteraren befälhavaren som bedömer resurserna som är associerade till klustret, resurshanteraren är upprullad av två komponenter applikationshanteraren och en schemaläggare som dessa två komponenter tillsammans hanterar jobb på klustrsystemen. en annan komponent kallar Node Manager (NM) som är ansvarig för att hantera användarnas jobb och arbetsflöde på en given nod.
  • En exakt replikering av data i den aktiva namenoden hålls av Standby NameNode. Den fungerar som en slav, upprätthåller tillräckligt med tillstånd för att leverera en snabb failover, om det är nödvändigt.

Grundläggande HDFS-kommandon:

Grundläggande HDFS-kommandon

Sr.NoHDFS-kommandotegendomHDFS-kommando
1Tryck hadoop-version$ hadoop-version
2Lista innehållet i rotkatalogen i HDFS$ hadoop fs -ls
3Rapportera hur mycket utrymme som används och tillgängligt i ett för närvarande monterat filsystem$ hadoop fs -df hdfs: /
4HDFS-balanserare balanserar data över DataNoderna och flyttar block från överanvända till underutnyttjade noder.$ hadoop balancer
5Hjälpkommando$ hadoop fs -hjälp

Mellan HDFS-kommandon:

Mellanstatliga HDFS-kommandon

Sr.NoHDFS-kommandotegendomHDFS-kommando
6skapar en katalog på den angivna HDFS-platsen$ hadoop fs -mkdir / user / cloudera /
7Kopierar data från en plats till en annan$ hadoop fs -data / sample.txt / user / training / hadoop
8Se utrymmet som upptas av en viss katalog i HDFS$ hadoop fs -du -s -h / user / cloudera /
9Ta bort en katalog i Hadoop$ hadoop fs -rm -r / user / cloudera / pigjobs /
10Tar bort alla filer i den angivna katalogen$ hadoop fs -rm -skipTrash hadoop / retail / *
11För att tömma papperskorgen$ hadoop fs-expung
12kopierar data från och till lokalt till HDFS$ hadoop fs -copyFromLocal / home / cloudera / prov / / user / cloudera / flume /

$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Avancerade HDFS-kommandon:

Mellanstatliga HDFS-kommandon

Sr.NoHDFS-kommandotegendomHDFS-kommando
13ändra filbehörigheter$ sudo -u hdfs hadoop fs -chmod 777 / användare / cloudera / flume /
14ställa in datareplikeringsfaktor för en fil$ hadoop fs -setrep -w 5 / användare / cloudera / pigjobs /
15Räkna antalet kataloger, filer och byte under hdfs$ hadoop fs -antal hdfs: /
16få namnoden att fungera säkert$ sudo -u hdfs hdfs dfsadmin -safemode leave
17Hadoop formaterar en namnod$ hadoop namenode-format

HDFS-tips och tricks:

1) Vi kan uppnå snabbare återhämtning när klusternavtalet är högre.

2) Ökningen av lagring per tidsenhet ökar återställningstiden.

3) Namenode-hårdvara måste vara mycket pålitlig.

4) Sofistikerad övervakning kan uppnås genom ambari.

5) Systemets svält kan minskas genom att öka reduceringsantalet.

Rekommenderade artiklar

Detta har varit en guide till HDFS-kommandon. Här diskuterade vi HDFS-kommandon, funktioner, dess grundläggande, mellanliggande och avancerade kommandon med bildrepresentation, tips och tricks om kommandona. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

  1. Nodkommandon
  2. Matlab-kommandon
  3. Fördelar med DBMS
  4. Hadoop ekosystem
  5. Hadoop fs kommandon