Introduktion till Data Analytics-intervjufrågor och svar
Så du har äntligen hittat ditt drömjobb i Data Analytics men undrar hur du ska knäcka 2019-analysen från Data Analytics och vad som kan vara de troliga frågorna om Data Analytics-intervjuer. Varje Data Analytics-intervju är annorlunda och omfattningen av ett jobb är också annorlunda. Med detta i åtanke har vi designat de vanligaste Data Analytics-intervjufrågorna och svaren för att hjälpa dig att få framgång i din Data Analytics-intervju.
Nedan är de bästa intervjufrågorna för dataanalys från 2019 som oftast ställs i en intervju
1. Vad är skillnaden mellan Data Mining och Data Analys?
Svar:
|
2. Nämn vad är de olika stegen i ett analysprojekt?
Svar:
Dataanalys behandlar insamling, rensning, omvandling och modellering av data för att få värdefull insikt och stödja bättre beslutsfattande i en organisation. Steg som är involverade i dataanalysprocessen är följande:
Data Exploration - Efter att ha undersökt affärsproblemet måste en dataanalytiker analysera grundorsaken till problemet.
Dataförberedelse - I detta steg i dataanalysprocessen hittar vi datainomalier som saknade värden i data.
Datamodellering - Modelleringssteget börjar efter att data har förberedts. Modellering är en iterativ process där modellen körs upprepade gånger för förbättringar. Datamodellering säkerställer att bästa möjliga resultat för ett affärsproblem.
Validering - I detta steg valideras modellen från klienten och modellen som har utvecklats av dataanalytiker mot varandra för att ta reda på om den utvecklade modellen kommer att uppfylla företagens krav.
Implementering av modellen och spårning - I detta sista steg i dataanalysen genomförs implementeringen av modellen och efter det görs spårning för att se till att modellen implementeras korrekt eller inte?
3.Vad ansvarar en dataanalytiker?
Svar:
• Lösa affärsrelaterade problem för kunder och utföra datarevisioner.
• Tolka data med hjälp av statistiska tekniker.
• Identifiera områden för förbättringsmöjligheter.
• Analysera, identifiera och tolka trender eller mönster i komplexa datamängder.
• Skaffa data från primära eller sekundära datakällor.
• Underhålla databaser / datasystem.
• Leta reda på och korrigera kodproblem med hjälp av prestandaindikatorer.
• Säkra databasen genom att utveckla åtkomstsystem.
4.Vad är Hash-tabellkollisioner? Hur undviks det?
Svar:
En hashtabellkollision inträffar när två olika nycklar hash till samma värde. Det finns många tekniker för att undvika kollisioner med haschbord, här listar vi två:
Separat kedja: Den använder datastrukturen som hashes till samma fack för att lagra flera objekt.
Öppen adressering: Den söker efter andra platser med hjälp av en andra funktion och lagrar objekt i det första tomma kortplatsen.
5. Lista över några bästa verktyg som kan vara användbara för dataanalys?
Svar:
•Tablå
• RapidMiner
• OpenRefine
• KNIME
• Googles sökoperatörer
• Solver
• NodeXL
• io
• Wolfram Alpha's
• Google Fusion-tabeller
6. Vad är skillnaden mellan data mining och dataprofilering?
Svar:
Skillnaden mellan data mining och dataprofilering är som följer -
• Dataprofilering: Den riktar sig till omedelbar analys av enskilda attribut som pris varierar, distinkt pris och deras frekvens, en förekomst av nollvärden, datatyp, längd etc.
• Data mining: Det fokuserar på beroenden, sekvensupptäckt, relationsinnehav mellan flera attribut, klusteranalys, upptäckt av ovanliga poster etc.
7. Förklara K-medelalgoritm och hierarkisk klusteralgoritm?
Svar:
K-Mean algoritm - K mean är en känd partitionsmetod. I K-medelalgoritmen är klustren sfäriska, dvs datapunkterna i ett kluster är centrerade på det klustret. Även varianterna av klustren är liknande, dvs varje datapunkt tillhör det närmaste klustret
Hierarkisk klusteralgoritm - Hierarkisk klusteralgoritm kombinerar och delar befintliga grupper och skapar en hierarkisk struktur för dem för att visa i vilken ordning grupperna är indelade.
8.Vad är datarengöring? Nämn några bästa metoder som du behöver följa när du gör datarengöring?
Svar:
Från en given datasats är det oerhört viktigt att sortera den information som krävs för dataanalys. Datarengöring är ett avgörande steg där data inspekteras för att hitta eventuella avvikelser, ta bort upprepande och felaktig information osv. Datarengöring innebär inte att ta bort någon befintlig information från databasen, det förbättrar bara datakvaliteten så att den kan användas för analys .
Några av de bästa metoderna för datorengöring inkluderar -
• Utveckla en datakvalitetsplan för att identifiera var maximal datakvalitetsfel uppstår så att du kan bedöma grundorsaken och planera enligt det.
• Följ en sedvanlig metod för att bevisa nödvändig information innan den matas in i informationen.
• Identifiera alla duplikatdata och verifiera noggrannheten i uppgifterna eftersom det kommer att spara mycket tid under analysen.
• Att spåra alla förbättringsåtgärder som utförs på informationen är oerhört nödvändigt för att du ska upprepa eller ta bort alla åtgärder vid behov.
9. Vad är några av de statistiska metoderna som är användbara för dataanalytiker?
Svar:
Statistiska metoder som är användbara för datavetare är
• Bayesisk metod
• Markov-process
• Rymd- och klusterprocesser
• Rankningsstatistik, percentil, outlists upptäckt
• Imputationstekniker etc.
• Simplex algoritm
• Matematisk optimering
10. Förklara vad som är imputation? Lista upp olika typer av imputationstekniker? Vilken imputationsmetod är mer gynnsam?
Svar:
Under imputation har vi en tendens att ersätta saknad information med substituerade värden. De typer av imputationstekniker som krävs är -
• Enkel imputation: Enkel imputation anger att det saknade värdet ersätts av ett värde. I den här metoden hämtas provstorleken.
• Hot-deck imputation: Ett saknat värde tillförs från en slumpmässigt vald liknande post med punchkort
• Imputation av kall däck: Det fungerar på samma sätt som hotdäck imputation, men lite mer avancerad och väljer givare från andra datasätt
• Genomsnittlig imputation: Det handlar om att byta ut det saknade värdet med de förutsagda värdena för andra variabler.
• Regression imputation: Det handlar om att byta ut det saknade värdet med de förutsagda värdena för ett visst värde beroende på andra variabler.
• Stokastisk regression: Det är samma som regression imputation, men det lägger den vanliga regressionsvariansen till regression imputation
• Multipelimutation: Till skillnad från enstaka imputation uppskattar flera imputationer värdena flera gånger
Även om enstaka imputation används i stor utsträckning återspeglar den inte osäkerheten som skapas av saknade data slumpmässigt. Så flera imputationer är mer gynnsamma än enstaka imputation om data saknas slumpmässigt.
Rekommenderade artiklar
Detta har varit en omfattande guide till intervjufrågor och svar på Data Analytics-intervjuer, så att kandidaten enkelt kan slå samman dessa Data Analytics-intervjufrågor. Du kan också titta på följande artiklar för att lära dig mer -
- 10 användbara agila intervjufrågor och svar
- 8 fantastiska algoritmintervjufrågor
- 25 viktigaste intervjufrågor inom datavetenskap
- 10 fantastiska frågor och svar på dataingenjörsintervjuer