Introduktion till Talend Data Integration

Talend Data-integration innebär att kombinera data från olika källor och kombinera dem till en enda vy för att få lite meningsfull information från det som kan hjälpa företaget eller organisationen att förbättra sin verksamhet genom att analysera dessa data. Integration hjälper till att hämta data, rengöra uppgifterna genom att göra någon nödvändig omvandling osv. Och sedan ladda dem in i ett datalager.

Vad är Talend Data Integration?

  • Talend är ett ETL-verktyg som används för dataintegration. Talend tillhandahåller en lösning för dataförberedelse, datakvalitet, dataintegration och big data.
  • Talend erbjuder Open Studio, som är en öppen källa för dataintegration och big data.
  • Talend open studio hjälper till med att hantera enorma data med big data-komponenter. Den har mer än 800 komponenter för olika integrationsändamål. Här kommer vi att diskutera några av komponenterna. För att göra det enkelt se nedanstående exempel
  • En simoperatör har enorma data om planer, kunder, simdetaljer etc. Dessa data är enorma så stor data används också i integrationen.

Kund En köp av en sim med ett regerings-id.
Ge sitt namn: AB C
Adress som: Chennai, Chennai
Telefonnummer: 1234567890

Efter dataintegration

Förnamn: AB
Efternamn: C
Adress: Chennai, Indien
Telefonnummer: +911234567890

Här rensas uppgifterna och omvandlas till något mer meningsfullt.

Fördelarna med dataintegration

Här kommer vi att diskutera fördelarna med dataintegration.

  1. Analysera affärstrender med hjälp av dataintegration
  2. Kombinera data i ett enda system
  3. Tidsbesparande och effektivare och mindre omarbetning
  4. Enkel rapportgenerering - används av BI-verktyg
  5. Underhålla och infoga data i datavarehus och datamark

Tillämpning av Talend Data Integration

Här kommer vi att diskutera tillämpningen av Talend Data Integration.

1. Arbeta med Talend

  • Se till att du har installerat java och miljövariabler.
  • Ladda ner open source från webbplatsen Talend och installera programvaran.
  • Skapa ett nytt projekt och avsluta installationen
  • Talend öppnas med designfliken.
  • Talend är ett förmörkelsebaserat verktyg och komponenterna kan dras från paletten eller så kan du klicka och skriva komponentnamnet.

2. Första jobbet som läser en fil

  • Sök efter komponenten tFileinputdelimited. Denna komponent används för att läsa eventuella avgränsade filer.
  • Placera komponenten tFileinputdelimited. Sök efter tLogRow och placera den i jobbdesignern.
  • Högerklicka på tFileinputdelimited och välj rad-> main och rita en linje till tLogRow.
  • I komponenten väljer fliken sökvägen för filen du vill läsa och ger radavskiljaren som \ n. Om filen har avgränsare kan du nämna avgränsaren.
  • Klicka på schemat och ge kolumntypdetaljer, eller så kan du läsa hela raden som en sträng med en kolumn och avgränsningsvärdet ska vara tomt.
  • Du kan också hoppa över sidhuvud och sidfot.
  • I tLogRow-komponenten väljer du hur du vill se data. Tabellformat eller enkelradig format.
  • tLogRow visar utdata i körkonsolen.
  • Efter att ha anslutit både tFileinputdelimited och tLogRow kör jobbet från fliken Kör.
  • Du kan se filinnehållet i konsolen som skrivs ut.

3. Andra jobbet med Tmap

  • Läs en fil och filtrera den i olika utgångsfiler.
  • Läs en fil i komponenten tFileinputdelimited med ett kolumnschema som post.
  • Tmap-komponent - Den här komponenten hjälper till att transformera data med vissa inbyggda funktioner som uppslag, sammanfogningar etc.
  • Skapa två utgångar ut1 och ut2 i tmap.
  • I out1-filter lägg till record.concepts (“talend”) och dra posten till out1.
  • Rita rekordraden till andra ut2.
  • Ta huvudraderna från tmaplan och anslut till två tFileoutputdelimited.
  • ut1-länk till en tfileoutputdelimited1 som file1.txt och out2 till annan tfileoutputdelimited2 som file2.txt.
  • txt kommer att ha poster som innehåller talend.
  • txt kommer att ha poster som har andra namn.

4. Inbyggt och förvar

  • Inbyggt innebär att du bör ställa in scheman eller detaljer för att ansluta till en databas varje gång.
  • Förvaret är praktiskt för att spara detaljerna i metadata så att du kan återanvända samma detaljer varje gång utan att manuellt ange information varje gång. I metadata kan du spara filschema, databasanslutningar, Hadoop-anslutning, bikupanslutning, s3-anslutning och många fler.

Komponenter i Talend Data Integration

Här kommer vi att diskutera komponenterna i Talend Data Integration.

1. tFileList: Denna komponent listar filerna i en katalog eller mapp med ett givet filmaskmönster.

2. tMysqlConnection: Den här komponenten används för anslutning till MySQL-databasen. Mysql-komponenter kan använda den här anslutningen för enkel installation av anslutningen till databasen.

3. tMysqlInput: Den här komponenten hjälper till att köra en mysql-databasfråga och få tabellen eller kolumnerna. Denna komponent används för att välja frågor och få detaljer.

4. tMysqlOutput: Den här komponenten används för att infoga eller uppdatera data i Mysql-databasen.

5. tFrejobb: Denna komponent är den första som kör i jobbet och kan anslutas till andra komponenter med på Subjob ok.

6. tPostjobb: Den här komponenten är den sista att utföra i jobbet. Du kan ansluta detta med anslutningsstängningskomponenter.

7. tLogcatcher: Den här komponenten fångar varning och fel i jobbet. Detta är den viktigaste komponenten som används i felhanteringstekniken. Felloggar kan skrivas med denna komponent tillsammans med tfileoutputdelimited. Det finns mer än 800 komponenter.

8. Kontextvariabel: Kontextvariabler är variabler som kan användas i jobbet var som helst. Det innehåller värden och kan överföras till ett annat jobb också med tRun-komponenter. Användningen av kontextvariabler är att vi kan ändra värdet för olika syften. Vi kan till exempel ha en uppsättning värden för utvecklingskontextgruppen och olika uppsättningar av kontextvärden för produktion. På detta sätt behöver vi inte ändra jobbet, det räcker med att ändra kontextparametrarna.

9. Bygga ett jobb: För att bygga ett jobb högerklicka på jobbet och välj ett byggjobb. Du kan importera build-jobbet i TAC. I Talend Administration Console planerar du ett jobb för att även utlösa beroendet på jobbuppsättningen. Du kan också importera jobbet från Nexus-arkivet med ett artefaktjobb.

10. Skapa en uppgift i TAC: Öppna jobbledare i TAC. Klicka på nya uppgifter och välj normala eller artefaktuppgifter. Importera byggjobbet eller välj från nexus. Välj den jobbserver som talend kommer att köras i. Spara uppgiften. Nu kan du distribuera och köra jobbet.

Slutsats

  • ”Förenkla ETL och ELT med det ledande gratis open source ETL-verktyget för big data.” Är taglinjen för open studio.
  • Talend Bigdata har många komponenter för att hantera enorma data.
  • Standardjobb, Bigdata-jobb, Bigdata-streamingjobb är de olika typerna av jobb som finns tillgängliga i Talend.
  • Bigdata-jobb kan skapas i ett spark- eller MapReduce-ramverk.

Rekommenderad artikel

Detta är en guide till Talend Data Integration. Här diskuterar vi introduktionen till Talend Data Integration och fördelarna tillsammans med applikationer och komponenter. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer

  1. Dataintegrationsverktyg | Bästa 12 verktyg
  2. Talendfrågor och svar
  3. Bästa datavisualiseringsverktyg med dess typer
  4. Talend vs Mulesoft - Skillnader
  5. Vad är Data Mart?

Kategori: