Topp 15 Sqoop intervjufrågor och svar (Uppdaterad för 2019)

Introduktion till Sqoop intervjufrågor och svar

Sqoop är ett öppen källkod för dataöverföring, Sqoop verktyg överför data mellan Hadoop Ecosystem och Relational Database Servers (RDBMS). Den importerar data till Hadoop-filsystemet (HDFS), från relationella databaser som Oracle, MySQL, etc., och exporterar också data från Hadoop-filsystemet till RDMS.

Nedan visas de 15 viktiga frågorna och svaren på Sqoop-intervjuer från 2019:

Så du har äntligen hittat ditt drömjobb i Sqoop men undrar hur du ska knäcka Sqoop-intervjun och vad som kan vara de troliga Sqoop-intervjuerna från 2019. Varje intervju är annorlunda och omfattningen av ett jobb är också annorlunda. Med detta i åtanke har vi utformat de vanligaste Sqoop intervjufrågorna och svaren för att hjälpa dig att få framgång i din intervju.

Dessa frågor är indelade i två delar är följande:

Del 1 - Sqoop intervjufrågor (grundläggande)

Den första delen täcker grundläggande frågor och svar från Sqoop-intervjuer.

1. Definiera Sqoop och varför använder vi Sqoop?

Svar:
Sqoop är ett öppen källkodsöverföringsverktyg, som är utformat för att överföra data mellan Hadoop Ecosystem och Relational Database Servers (RDBMS). Sqoop används för att importera data från relationsdatabaser som Oracle, MySQL, etc, till Hadoop-filsystemet (HDFS), och även för att exportera data från Hadoop-filsystemet till relationsdatabaser.

2. Vad är de olika funktionerna i Sqoop?

Svar:
Nedan visas de olika funktionerna som stöds av Sqoop -

Lastkapacitet
Full laddning och stegvis lastning
Datakomprimeringstekniker
Importera SQL-frågorna
Datakontakter för alla större databaser
Direktuppladdningssupport till Hadoop File Systems
Säkerhetskonfigurationer som Kerberos
Samtidig import eller exportfunktioner

Låt oss gå till nästa Sqoop-intervjufrågor.

3. Namnge de relationsdatabaser och Hadoop-ekosystemkällor som stöds i Sqoop?

Svar:
Sqoop stöder för närvarande MySQL, PostgreSQL, Oracle, MSSQL, Teradata och IBMs Netezza som en del av Relationsdatabaser.

För närvarande stöds Hadoop Eco-system destinationstjänster HDFC, Hive, HBase, H Catalog och Accumulo.

Sqoop använder MySQL som standarddatabas.

4. Hur fungerar Sqoop?

Svar:
Detta är de vanliga Sqoop-intervjufrågor som ställs i en intervju. För att utföra dataöverföring använder Sqoop export- och importkommandon. Map Reduce-programmet kommer att användas internt i Sqoop för att lagra datasätt till HDFS. Kommandon kommer att associeras med kartuppgifter för att hämta data från relationsdatabaser; Minska uppgiften tar ansvaret för att placera den hämtade informationen på destinationerna (HDFS / HBase / Hive)

Sqoop använder också olika API-kontakter för anslutning till flera databaser. Sqoop ger också möjligheten att skapa anpassade kontakter för att uppfylla specifika krav.

Låt oss se exempelkommandona nedan för import och export

Ett kommando för anslutning till MySQL-databas för att importera data från 'Logg' -tabellen

sqoop import –anslut jdbc: mysql: // localhost / –username –password –table –m 1
sqoop import –anslut jdbc: mysql: // localhost / mytestdb – användarnamn root – lösenord admin123 –tabellog –m 1

Ett kommando för att exportera data från HDFS till relationsdatabas

sqoop export –connect jdbc: mysql: // localhost / sqoop_export –tabell export-dir / sqoop / emp_last / part-m-00000 – uppdatering-nyckel-id
sqoop export –connect jdbc: mysql: // localhost / sqoop_export –tabell logttabell – export-dir / sqoop / data / foler1 / part-m-00000

5. Vad är Sqoop Metastore? Förklara det?

Svar:
Sqoop Metastore är ett verktyg tillgängligt i Sqoop som kommer att användas för att konfigurera Sqoop-applikationen för att möjliggöra värd för ett delat arkiv i form av metadata. Denna Metastore kan användas för att utföra jobb och hantera ett antal användare baserat på användarroller och aktiviteter. Alla flera användare kan utföra flera uppgifter eller operationer samtidigt för att uppnå uppgifterna effektivt. Sqoop Metastore kommer som standard att implementeras som en minnesrepresentation. När ett jobb skapas i Sqoop, lagras jobbdefinitionen i Metastore och listas med Sqoop-jobb om det behövs.

6. Vilka filformat stöder Sqoop vid import av data?

Svar:
Sqoop använder två filformat för dataimport. De är: - Avgränsat testfilformat och sekvensfilformat.

Avgränsat textfilformat : Avgränsat textformat är standardfilformatet för import. Vi kan fortfarande uttryckligen specificera med hjälp av –as- textilargumentet. På samma sätt som argumentet kommer att ställa in avgränsningstecken mellan rader och kolumner.

Sekvensfilformat : Det här filformatet kan vi säga att det är ett binärt filformat. Denna typ av formatfilposter lagras i anpassade postspecifika datatyper som exponeras som Java-klasser.

Låt oss gå till nästa Sqoop-intervjufrågor.

7. Kan vi kontrollera ett antal kartläggningar i sqoop? Om ja, hur?

Svar:
Ja, vi kan kontrollera antalet kartläggare i Sqoop genom att ange parametern “-num-mappers” i sqoop-kommandot. Denna parameter kan styra antalet kartuppgifter, det är inget annat än graden av parallellitet kommer att användas av sqoop. Antalet kommer att bestämmas utifrån kravet.

Syntax: Använd dessa flaggor för att kontrollera antalet kartläggare: m, -nummappar

Del 2 - Sqoop intervjufrågor (avancerat)

Låt oss nu titta på de avancerade frågorna om Sqoop-intervjuer.

8. Vad är Sqoop-merge och förklara dess användning?

Svar:
Sqoop merge är ett verktyg som kombinerar två olika datauppsättningar som behåller den enda versionen genom att skriva över poster i en äldre version av ett datasats med nya filer för att göra det till den senaste versiondatat. Det inträffar en utplattningsprocess medan de två olika datasätten slås samman och som bevarar data utan förlust och med effektivitet och säkerhet. För att utföra den här åtgärden kommer kommandot fusionsknapp att användas som “–merge-key”

9. Vilka är skillnaderna mellan Sqoop, flume och distcp?

Svar:
Både Distcp och Sqoop används för att överföra data. Sqoop används för att överföra alla typer av data från ett Hadoop-kluster till ett annat kluster, medan Sqoop överför data mellan relationella databaser och Hadoop-ekosystem som Hive, HDFS och HBase, etc. Men båda metoderna använder samma strategi för att kopiera data, som är drag / överföring.

Flume har distribuerat ett verktyg som följer agentbaserad arkitektur för att strömma loggarna till Hadoop-ekosystemet. Medan Sqoop är en anslutningsbaserad arkitektur.

Flume samlar in och sammanställer en enorm mängd loggdata. Flume kan samla in data från en annan typ av resurser; det beaktar inte schemat eller strukturerade / ostrukturerade data. Flume kan dra alla typer av data. Medan Sqoop bara kan importera Relationsdatabasdata, så schema är obligatoriskt för sqoop att bearbeta. I allmänhet, för att flytta massa arbetsbelastningar, är luften det bästa alternativet.

Låt oss gå till nästa Sqoop-intervjufrågor.

10. Vad stöds datakällorna av Apache Sqoop?

Svar:
De olika datakällorna från olika applikationer som stöds av Apache Sqoop är som nedan:

Bikupa
HBase
Hadoop Distribuerat filsystem (HDFS)
HCatalog
Accumulo

11. Vilka är de mest använda kommandona / funktionerna i Sqoop?

Svar:

Detta är de avancerade Sqoop-intervjufrågor som ställs i en intervju. Lista med grundläggande kommandon som används i Sqoop är följande:

Codegen -Codegen används för att generera kod för att kommunicera med databasposter.

Eval -Sqoop Eval hjälper till med att köra exempel på SQL-frågor mot databaserna och ger resultaten på konsolen.

Hjälp - Hjälp lista tillgängliga kommandon

Importera- Importera kommer att importera tabellen till Hadoop Ecosystem

Export -Export används för att exportera HDFS-data till relationsdatabaser.

Skapa-hive-tabell -Detta kommando är användbart för att importera tabelldefinition till Hive

Import-alla-tabeller- Importera-alla-tabeller kommer att importera tabellerna för att bilda relationella databaser till HDFS.

List-databaser -Det kommer att lista alla databaser som finns på en server.

Listatabeller -Det listar upp alla tabeller som finns i en databas.

Versioner -Det kommer att visa versioninformationen.

Funktioner -Parallell import / export, Full belastning, Inkrementell belastning, Full belastning, Jämförelse, Anslutningar för RDBMS-databaser, Kerberos Security Integration, Ladda data direkt i HDFS (Hive / HBase)

12. Förklara bästa praxis när du importerar tabeller från MySQL eller andra databaser med Sqoop?

Svar:
När vi importerar tabellerna från MySQL bör vi se till om några saker som autentisering och auktorisation till målservern och databaserna. Vi måste se till att vi har beviljat nödvändiga behörigheter på databaserna, som ska komma åt, och också se till värdnamnsupplösningen när vi ansluter till käll- och destinationsvärdnamn. Om vi inte har nödvändigt tillstånd får vi ett undantag för anslutningsfel medan vi ansluter till databasen.

13. Hur uppdaterar du data eller rader som redan exporterats?

Svar:
För att uppdatera raderna, som redan exporteras destinationen, kan vi använda parametern “–update-key”. I detta används en kommaseparerad kolumnlista som unikt identifierar en rad och alla dessa kolumner används i WHERE-klausulen i den genererade UPDATE-frågan. SETA en del av frågan tar hand om alla andra tabellkolumner.

Låt oss gå till nästa Sqoop-intervjufrågor.

14. Hur konfigurerar och installerar JDBC-drivrutinen i Apache Sqoop?

Svar:
JDB-drivrutinerna i Apache Sqoop kan konfigureras baserat på Hadoop-leverantören som Cloudera eller Hortonworks där det varierar något i sin konfiguration baserat på Hadoop-leverantören. JDBC i Cloudera kan konfigureras som genom att skapa en biblioteksmapp som / var / lib /. Detta kan göras för alla bibliotek från tredje part som krävs för att konfigureras enligt kravet. På detta sätt kan alla typer av databaser konfigureras med sin JDBC-drivrutin. Förutom JDBC-drivrutinen kräver Apache Sqoop ett kontaktdon för att upprätta en koppling mellan olika relationella databaser. De viktigaste komponenterna som krävs för att upprätta en anslutning till databaserna är via Driver och Connector hos den specifika databasleverantören.

15. Vad är den uppdelade klausulen och när använder vi den?

Svar:
En split-by-parameter är för att skära data som ska importeras till flera parallella uppgifter. Med denna parameter kan vi ange namnen på kolumnen, det här är kolumnnamn baserat på vilken sqoop som delar upp informationen som ska importeras i flera bitar och de kommer att köras parallellt. Det är en av teknikerna för att ställa in prestandan i Sqoop.

Rekommenderade artiklar

Detta har varit en guide till Lista över Sqoop-intervjufrågor och svar så att kandidaten lätt kan slå ned dessa Sqoop-intervjuerfrågor. Du kan också titta på följande artiklar för att lära dig mer -

Hadoop vs Teradata - Vilket är fördelaktigt
13 fantastiska databas testa intervjufrågor
Topp 10 mest användbara HBase-intervjufrågor
10 mest fantastiska PHP-intervjufrågor för erfarna
Känner till de 5 användbara frågorna om DBA-intervjuer

Topp 15 Sqoop intervjufrågor och svar (Uppdaterad för 2019)

Innehållsförteckning:

Introduktion till Sqoop intervjufrågor och svar

Del 1 - Sqoop intervjufrågor (grundläggande)

1. Definiera Sqoop och varför använder vi Sqoop?

2. Vad är de olika funktionerna i Sqoop?

3. Namnge de relationsdatabaser och Hadoop-ekosystemkällor som stöds i Sqoop?

4. Hur fungerar Sqoop?

5. Vad är Sqoop Metastore? Förklara det?

6. Vilka filformat stöder Sqoop vid import av data?

7. Kan vi kontrollera ett antal kartläggningar i sqoop? Om ja, hur?

Del 2 - Sqoop intervjufrågor (avancerat)

8. Vad är Sqoop-merge och förklara dess användning?

9. Vilka är skillnaderna mellan Sqoop, flume och distcp?

10. Vad stöds datakällorna av Apache Sqoop?

11. Vilka är de mest använda kommandona / funktionerna i Sqoop?

12. Förklara bästa praxis när du importerar tabeller från MySQL eller andra databaser med Sqoop?

13. Hur uppdaterar du data eller rader som redan exporterats?

14. Hur konfigurerar och installerar JDBC-drivrutinen i Apache Sqoop?

15. Vad är den uppdelade klausulen och när använder vi den?

Rekommenderade artiklar

Delta Formel - Kalkylator (exempel med Excel-mall)

Avskrivningsformel - Exempel med Excel-mall

Krav på elasticitetsformel - Kalkylator (exempel med Excel-mall)

Graden av finansiell hävstångsformel - Kalkylator (Excel-mall)

Avskrivningar kontra avskrivningar - Topp 9 fantastiska skillnader att lära sig

Programvara för konstruktionsprojektledning - Fördelar och attribut

Principer för mjukvarutestning - Historia och topp 7 principer för programvarutestning

Software Engineer vs Software Developer - 6 bästa saker att lära sig

Programvara Testerarbete - Topp testplanering och testdefekter

Sony Vegas Pro vs Adobe Premiere - 8 mest fantastiska skillnader

Typer av webbhotell - Introduktion till typer av webbhotelltjänster

Ubuntu-kommando - Koncept - Grundläggande till avancerade kommandon

Typografi-app - Lista över topp 13 fantastiska typografi

Ubuntu vs Centos - Ta reda på de 6 användbara skillnaderna

Ubuntu vs Fedora - Ta reda på de 6 mest häftiga skillnaderna