Introduktion av ETL-processen

ETL är en av de viktiga processerna som krävs av Business Intelligence. Business Intelligence förlitar sig på de data som lagras i datalager där många analyser och rapporter genereras, vilket hjälper till att bygga effektivare strategier och leder till taktiska och operativa insikter och beslutsfattande.

ETL hänvisar till processen Extract, Transform and Load. Det är ett slags dataintegrationssteg där data som kommer från olika källor extraheras och skickas till datalager. Data utvinns från olika resurser omvandlas först för att konvertera dem till ett specifikt format enligt affärsbehov. Olika verktyg som hjälper till att utföra dessa uppgifter är -

  • IBM DataStage
  • Abinitio
  • Informatica
  • Tablå
  • Talend

ETL-process

Hur fungerar det?

ETL-processen är en 3-stegsprocess som börjar med att extrahera informationen från olika datakällor och sedan genomgår rådata olika transformationer för att göra den lämplig för lagring i datalager och ladda den i datalager i önskat format och göra den redo för analys.

Steg 1: Extrahera

Detta steg hänvisar till att hämta erforderlig data från olika källor som finns i olika format som XML, Hadoop-filer, platta filer, JSON, etc. Den extraherade informationen lagras i sceneringsområdet där ytterligare transformationer utförs. Därför kontrolleras data noggrant innan de flyttas till datalager, annars kommer det att bli en utmaning att återställa förändringarna i datalager.

En korrekt datakarta krävs mellan källa och mål innan datauttag sker eftersom ETL-processen behöver interagera med olika system som Oracle, hårdvara, mainframe, realtidssystem som ATM, Hadoop, etc. samtidigt som data hämtas från dessa system .

Obs - Men man bör se till att dessa system måste förbli opåverkade vid utvinning.

Strategier för utvinning av data
  • Full utvinning: Detta följs när hela data från källor laddas in i datalagren som visar att antingen datalager fylls i första gången eller det inte har gjorts någon strategi för utvinning av data.
  • Partiell utvinning (med uppdateringsmeddelande): Denna strategi är också känt delta, där endast data som ändras extraheras och uppdaterar datalager
  • Partiell utvinning (utan meddelande om uppdatering): Denna strategi avser extrahera specifika nödvändiga data från källor beroende på belastning i datalager i stället för att extrahera hela data.

Steg 2: Transformera

Detta steg är ETL: s viktigaste steg. I detta steg utförs många transformationer för att göra data redo för lastning i datalager genom att tillämpa nedanstående transformationer: -

A. Grundläggande omvandlingar: Dessa omvandlingar tillämpas i alla scenarier eftersom de är ett grundläggande behov medan de data som har utvunnits från olika källor laddas in i datalagren

  • Rengöring eller berikning av data: Det avser rengöring av oönskade data från iscenesättningsområdet så att fel data inte laddas från datalagren.
  • Filtrering: Här filtrerar vi ut de obligatoriska uppgifterna från en stor mängd data som finns i enlighet med affärskraven. Till exempel för att generera försäljningsrapporter behöver man bara försäljningsrekord för det specifika året.
  • Konsolidering: Data som extraheras konsolideras i önskat format innan de laddas in i datalager.4.
  • Standardiseringar: Datafält transformeras för att få det i samma önskade format för t.ex. datafältet måste anges som MM / DD / ÅÅÅÅ.

B. Avancerade omvandlingar: Dessa typer av omvandlingar är specifika för företagets krav.

  • Sammanfogning: I denna operation kombineras data från två eller flera källor t genererar data med endast önskade kolumner med rader som är relaterade till varandra
  • Datatröskelvalideringskontroll: Värden som finns i olika fält kontrolleras om de är korrekta eller inte, till exempel inte noll bankkontonummer för bankdata.
  • Använd uppslag för att slå samman data: Olika platta filer eller andra filer används för att extrahera den specifika informationen genom att utföra uppslagningsoperationer på det.
  • Användning av komplex validering av data: Många komplexa valideringar används för att extrahera giltiga data endast från källsystemen.
  • Beräknade och härledda värden: Olika beräkningar används för att omvandla data till viss information
  • Duplicering: Duplicerade data som kommer från källsystemen analyseras och tas bort innan de laddas i datalagren.
  • Nyckelomstrukturering: När det gäller att fånga data som sakta ändras måste olika surrogatnycklar genereras för att strukturera data i önskat format.

Obs - MPP-Massive Parallel Processing används ibland för att utföra vissa grundläggande operationer, till exempel filtrering eller rensning av data i iscenesättningsområdet för att bearbeta en stor mängd data snabbare.

Steg 3: Ladda

Detta steg hänvisar till att ladda transformerade data till datalageret, varifrån de kan användas för att generera många analysbeslut såväl som rapportering.

1. Inledande belastning: Denna typ av belastning inträffar när data laddas i datalager för första gången.

2. Inkrementell belastning: Detta är den typ av belastning som görs för att uppdatera datalageret med jämna mellanrum med förändringar i källsystemdata.

3. Full Refresh: Denna typ av belastning hänvisar till situationen när kompletta data i tabellen raderas och laddas med färsk data.

Datalageret tillåter sedan OLAP- eller OLTP-funktioner.

Nackdelar med ETL-processen

  1. Öka data - Det finns en gräns för data som utvinns från olika källor med ETL-verktyget och skickas till datalager. Med ökningen av data blir således arbetet med ETL-verktyget och datalager tungt.
  2. Anpassning - Detta avser snabba och effektiva lösningar eller svar på data som genereras av källsystem. Men att använda ETL-verktyget här bromsar denna process.
  3. Dyrt - Att använda ett datalager för att lagra en ökande mängd data som genereras regelbundet är en hög kostnad som en organisation behöver betala.

Slutsats - ETL-process

ETL-verktyget består av extraherings-, transformations- och belastningsprocesser där det hjälper till att generera information från de data som samlas in från olika källsystem. Data från källsystemet kan komma i valfritt format och kan laddas i vilket som helst önskat format i datalager, så ETL-verktyget måste stödja anslutningen till alla typer av dessa format.

Rekommenderade artiklar

Detta är en guide till en ETL-process. Här diskuterar vi introduktionen, Hur fungerar det ?, ETL-verktyg och dess nackdelar. Du kan också gå igenom våra andra artiklar som föreslås för att lära dig mer–

  1. Informatica ETL-verktyg
  2. ETL-testverktyg
  3. Vad är ETL?
  4. Vad är ETL-testning?

Kategori: