Introduktion till Sqoop intervjufrågor och svar

Sqoop är ett öppen källkod för dataöverföring, Sqoop verktyg överför data mellan Hadoop Ecosystem och Relational Database Servers (RDBMS). Den importerar data till Hadoop-filsystemet (HDFS), från relationella databaser som Oracle, MySQL, etc., och exporterar också data från Hadoop-filsystemet till RDMS.

Nedan visas de 15 viktiga frågorna och svaren på Sqoop-intervjuer från 2019:

Så du har äntligen hittat ditt drömjobb i Sqoop men undrar hur du ska knäcka Sqoop-intervjun och vad som kan vara de troliga Sqoop-intervjuerna från 2019. Varje intervju är annorlunda och omfattningen av ett jobb är också annorlunda. Med detta i åtanke har vi utformat de vanligaste Sqoop intervjufrågorna och svaren för att hjälpa dig att få framgång i din intervju.

Dessa frågor är indelade i två delar är följande:

Del 1 - Sqoop intervjufrågor (grundläggande)

Den första delen täcker grundläggande frågor och svar från Sqoop-intervjuer.

1. Definiera Sqoop och varför använder vi Sqoop?

Svar:
Sqoop är ett öppen källkodsöverföringsverktyg, som är utformat för att överföra data mellan Hadoop Ecosystem och Relational Database Servers (RDBMS). Sqoop används för att importera data från relationsdatabaser som Oracle, MySQL, etc, till Hadoop-filsystemet (HDFS), och även för att exportera data från Hadoop-filsystemet till relationsdatabaser.

2. Vad är de olika funktionerna i Sqoop?

Svar:
Nedan visas de olika funktionerna som stöds av Sqoop -

  1. Lastkapacitet
  2. Full laddning och stegvis lastning
  3. Datakomprimeringstekniker
  4. Importera SQL-frågorna
  5. Datakontakter för alla större databaser
  6. Direktuppladdningssupport till Hadoop File Systems
  7. Säkerhetskonfigurationer som Kerberos
  8. Samtidig import eller exportfunktioner

Låt oss gå till nästa Sqoop-intervjufrågor.

3. Namnge de relationsdatabaser och Hadoop-ekosystemkällor som stöds i Sqoop?

Svar:
Sqoop stöder för närvarande MySQL, PostgreSQL, Oracle, MSSQL, Teradata och IBMs Netezza som en del av Relationsdatabaser.

För närvarande stöds Hadoop Eco-system destinationstjänster HDFC, Hive, HBase, H Catalog och Accumulo.

Sqoop använder MySQL som standarddatabas.

4. Hur fungerar Sqoop?

Svar:
Detta är de vanliga Sqoop-intervjufrågor som ställs i en intervju. För att utföra dataöverföring använder Sqoop export- och importkommandon. Map Reduce-programmet kommer att användas internt i Sqoop för att lagra datasätt till HDFS. Kommandon kommer att associeras med kartuppgifter för att hämta data från relationsdatabaser; Minska uppgiften tar ansvaret för att placera den hämtade informationen på destinationerna (HDFS / HBase / Hive)

Sqoop använder också olika API-kontakter för anslutning till flera databaser. Sqoop ger också möjligheten att skapa anpassade kontakter för att uppfylla specifika krav.

Låt oss se exempelkommandona nedan för import och export

Ett kommando för anslutning till MySQL-databas för att importera data från 'Logg' -tabellen

sqoop import –anslut jdbc: mysql: // localhost / –username –password –table –m 1
sqoop import –anslut jdbc: mysql: // localhost / mytestdb – användarnamn root – lösenord admin123 –tabellog –m 1

Ett kommando för att exportera data från HDFS till relationsdatabas

sqoop export –connect jdbc: mysql: // localhost / sqoop_export –tabell export-dir / sqoop / emp_last / part-m-00000 – uppdatering-nyckel-id
sqoop export –connect jdbc: mysql: // localhost / sqoop_export –tabell logttabell – export-dir / sqoop / data / foler1 / part-m-00000

5. Vad är Sqoop Metastore? Förklara det?

Svar:
Sqoop Metastore är ett verktyg tillgängligt i Sqoop som kommer att användas för att konfigurera Sqoop-applikationen för att möjliggöra värd för ett delat arkiv i form av metadata. Denna Metastore kan användas för att utföra jobb och hantera ett antal användare baserat på användarroller och aktiviteter. Alla flera användare kan utföra flera uppgifter eller operationer samtidigt för att uppnå uppgifterna effektivt. Sqoop Metastore kommer som standard att implementeras som en minnesrepresentation. När ett jobb skapas i Sqoop, lagras jobbdefinitionen i Metastore och listas med Sqoop-jobb om det behövs.

6. Vilka filformat stöder Sqoop vid import av data?

Svar:
Sqoop använder två filformat för dataimport. De är: - Avgränsat testfilformat och sekvensfilformat.

Avgränsat textfilformat : Avgränsat textformat är standardfilformatet för import. Vi kan fortfarande uttryckligen specificera med hjälp av –as- textilargumentet. På samma sätt som argumentet kommer att ställa in avgränsningstecken mellan rader och kolumner.

Sekvensfilformat : Det här filformatet kan vi säga att det är ett binärt filformat. Denna typ av formatfilposter lagras i anpassade postspecifika datatyper som exponeras som Java-klasser.

Låt oss gå till nästa Sqoop-intervjufrågor.

7. Kan vi kontrollera ett antal kartläggningar i sqoop? Om ja, hur?

Svar:
Ja, vi kan kontrollera antalet kartläggare i Sqoop genom att ange parametern “-num-mappers” i sqoop-kommandot. Denna parameter kan styra antalet kartuppgifter, det är inget annat än graden av parallellitet kommer att användas av sqoop. Antalet kommer att bestämmas utifrån kravet.

Syntax: Använd dessa flaggor för att kontrollera antalet kartläggare: m, -nummappar

Del 2 - Sqoop intervjufrågor (avancerat)

Låt oss nu titta på de avancerade frågorna om Sqoop-intervjuer.

8. Vad är Sqoop-merge och förklara dess användning?

Svar:
Sqoop merge är ett verktyg som kombinerar två olika datauppsättningar som behåller den enda versionen genom att skriva över poster i en äldre version av ett datasats med nya filer för att göra det till den senaste versiondatat. Det inträffar en utplattningsprocess medan de två olika datasätten slås samman och som bevarar data utan förlust och med effektivitet och säkerhet. För att utföra den här åtgärden kommer kommandot fusionsknapp att användas som “–merge-key”

9. Vilka är skillnaderna mellan Sqoop, flume och distcp?

Svar:
Både Distcp och Sqoop används för att överföra data. Sqoop används för att överföra alla typer av data från ett Hadoop-kluster till ett annat kluster, medan Sqoop överför data mellan relationella databaser och Hadoop-ekosystem som Hive, HDFS och HBase, etc. Men båda metoderna använder samma strategi för att kopiera data, som är drag / överföring.

Flume har distribuerat ett verktyg som följer agentbaserad arkitektur för att strömma loggarna till Hadoop-ekosystemet. Medan Sqoop är en anslutningsbaserad arkitektur.

Flume samlar in och sammanställer en enorm mängd loggdata. Flume kan samla in data från en annan typ av resurser; det beaktar inte schemat eller strukturerade / ostrukturerade data. Flume kan dra alla typer av data. Medan Sqoop bara kan importera Relationsdatabasdata, så schema är obligatoriskt för sqoop att bearbeta. I allmänhet, för att flytta massa arbetsbelastningar, är luften det bästa alternativet.

Låt oss gå till nästa Sqoop-intervjufrågor.

10. Vad stöds datakällorna av Apache Sqoop?

Svar:
De olika datakällorna från olika applikationer som stöds av Apache Sqoop är som nedan:

  1. Bikupa
  2. HBase
  3. Hadoop Distribuerat filsystem (HDFS)
  4. HCatalog
  5. Accumulo

11. Vilka är de mest använda kommandona / funktionerna i Sqoop?

Svar:

Detta är de avancerade Sqoop-intervjufrågor som ställs i en intervju. Lista med grundläggande kommandon som används i Sqoop är följande:

Codegen -Codegen används för att generera kod för att kommunicera med databasposter.

Eval -Sqoop Eval hjälper till med att köra exempel på SQL-frågor mot databaserna och ger resultaten på konsolen.

Hjälp - Hjälp lista tillgängliga kommandon

Importera- Importera kommer att importera tabellen till Hadoop Ecosystem

Export -Export används för att exportera HDFS-data till relationsdatabaser.

Skapa-hive-tabell -Detta kommando är användbart för att importera tabelldefinition till Hive

Import-alla-tabeller- Importera-alla-tabeller kommer att importera tabellerna för att bilda relationella databaser till HDFS.

List-databaser -Det kommer att lista alla databaser som finns på en server.

Listatabeller -Det listar upp alla tabeller som finns i en databas.

Versioner -Det kommer att visa versioninformationen.

Funktioner -Parallell import / export, Full belastning, Inkrementell belastning, Full belastning, Jämförelse, Anslutningar för RDBMS-databaser, Kerberos Security Integration, Ladda data direkt i HDFS (Hive / HBase)

12. Förklara bästa praxis när du importerar tabeller från MySQL eller andra databaser med Sqoop?

Svar:
När vi importerar tabellerna från MySQL bör vi se till om några saker som autentisering och auktorisation till målservern och databaserna. Vi måste se till att vi har beviljat nödvändiga behörigheter på databaserna, som ska komma åt, och också se till värdnamnsupplösningen när vi ansluter till käll- och destinationsvärdnamn. Om vi ​​inte har nödvändigt tillstånd får vi ett undantag för anslutningsfel medan vi ansluter till databasen.

13. Hur uppdaterar du data eller rader som redan exporterats?

Svar:
För att uppdatera raderna, som redan exporteras destinationen, kan vi använda parametern “–update-key”. I detta används en kommaseparerad kolumnlista som unikt identifierar en rad och alla dessa kolumner används i WHERE-klausulen i den genererade UPDATE-frågan. SETA en del av frågan tar hand om alla andra tabellkolumner.

Låt oss gå till nästa Sqoop-intervjufrågor.

14. Hur konfigurerar och installerar JDBC-drivrutinen i Apache Sqoop?

Svar:
JDB-drivrutinerna i Apache Sqoop kan konfigureras baserat på Hadoop-leverantören som Cloudera eller Hortonworks där det varierar något i sin konfiguration baserat på Hadoop-leverantören. JDBC i Cloudera kan konfigureras som genom att skapa en biblioteksmapp som / var / lib /. Detta kan göras för alla bibliotek från tredje part som krävs för att konfigureras enligt kravet. På detta sätt kan alla typer av databaser konfigureras med sin JDBC-drivrutin. Förutom JDBC-drivrutinen kräver Apache Sqoop ett kontaktdon för att upprätta en koppling mellan olika relationella databaser. De viktigaste komponenterna som krävs för att upprätta en anslutning till databaserna är via Driver och Connector hos den specifika databasleverantören.

15. Vad är den uppdelade klausulen och när använder vi den?

Svar:
En split-by-parameter är för att skära data som ska importeras till flera parallella uppgifter. Med denna parameter kan vi ange namnen på kolumnen, det här är kolumnnamn baserat på vilken sqoop som delar upp informationen som ska importeras i flera bitar och de kommer att köras parallellt. Det är en av teknikerna för att ställa in prestandan i Sqoop.

Rekommenderade artiklar

Detta har varit en guide till Lista över Sqoop-intervjufrågor och svar så att kandidaten lätt kan slå ned dessa Sqoop-intervjuerfrågor. Du kan också titta på följande artiklar för att lära dig mer -

  1. Hadoop vs Teradata - Vilket är fördelaktigt
  2. 13 fantastiska databas testa intervjufrågor
  3. Topp 10 mest användbara HBase-intervjufrågor
  4. 10 mest fantastiska PHP-intervjufrågor för erfarna
  5. Känner till de 5 användbara frågorna om DBA-intervjuer