Introduktion till Talend Open Studio

Talend erbjuder Open Studio, som är en öppen källa för dataintegration. Den har mer än 800 komponenter för olika integrationsändamål. Ladda ner Talend Open Studio från https://www.talend.com/download/

Dataintegration innebär att kombinera data från olika källor och kombinera dem till en enda vy för att få lite meningsfull information från det som kan hjälpa företaget eller organisationen att förbättra sin verksamhet genom att analysera dessa data. Integration hjälper till att hämta data, rengöra uppgifterna genom att göra någon nödvändig omvandling osv. Och sedan ladda dem in i ett datalager.

Vad är Talend?

Talend är ett ETL-verktyg som används för dataintegration. Talend tillhandahåller en lösning för dataförberedelse, datakvalitet, dataintegration och big data. Här kommer vi att diskutera några av komponenterna. För att göra det enkelt att se exemplet nedan En simoperatör har enorma data om planer, kunder, simdetaljer etc. Dessa data är enorma så stor data används också i integrationen.

Kund En köp av en sim med ett regerings-id

Ge sitt namn som AB C

adress som Chennai, Chennai

telefonnummer som 1234567890

Efter dataintegration

Förnamn: AB

Efternamn: C

Adress: Chennai, Indien

Telefonnummer: +911234567890

Här rensas uppgifterna och omvandlas till något mer meningsfullt.

fördelar

  • Analysera affärstrender med hjälp av dataintegration
  • Kombinera data i ett enda system
  • Tidsbesparande och effektivare och mindre omarbetning
  • Enkel rapportgenerering - används av BI-verktyg
  • Underhålla och infoga data i datalageret och datamarkerna

Ansökan

Här är följande applikationer som nämns nedan

1. Arbeta med Talend

  • Se till att du har installerat java och miljövariabler.
  • Ladda ner open source från webbplatsen Talend och installera programvaran.
  • Skapa ett nytt projekt och avsluta installationen
  • Talend öppnas med designfliken.
  • Talend är ett förmörkelsebaserat verktyg och komponenterna kan dras från paletten eller så kan du klicka och skriva komponentnamnet.

2. Det första jobbet Läser en fil

  • Sök efter komponenten tFileinputdelimited. Denna komponent används för att läsa eventuella avgränsade filer.
  • Placera den tfileinput-avgränsade komponenten. Sök efter tlogrow och placera den i jobbdesignern.
  • Högerklicka på tfileinputdelimited och välj rad-> main och rita en rad för att tlogrow.
  • I komponenten väljer fliken sökvägen för filen du vill läsa och ger radavskiljaren som \ n. Om filen har avgränsare kan du nämna avgränsaren.
  • Klicka på schemat och ge kolumntypdetaljer, eller så kan du läsa hela raden som en sträng med en kolumn och avgränsningsvärdet ska vara tomt.
  • Du kan också hoppa över sidhuvud och sidfot.
  • Välj hur du vill se data i tlogrow-komponenten. Tabellformat eller enkelradig format.
  • tlogrow visar utdata i körkonsolen.
  • Efter att ha anslutit både tfileinputdelimited och tlogrow kör jobbet från run-fliken.
  • Du kan se filinnehållet i konsolen som skrivs ut.

3. Ett andra jobb med Tmap

  • Läs en fil och filtrera den i olika utgångsfiler.
  • Läs en fil i den tfileinputdelimiterade komponenten med ett kolumnschema som posten.
  • Tmap-komponent - Den här komponenten hjälper till att transformera data med vissa inbyggda funktioner som uppslag, sammanfogningar etc.
  • Skapa två utgångar ut1 och ut2 i tmap.
  • I out1-filter lägg till rad3.record.concepts (“talend”) och rita posten till out1.
  • Rita rekordraden till andra ut2.

  • Ta huvudraderna från tmaplan och anslut till två tfileoutputdelimited.
  • ut1-länk till en tfileoutputdelimited1 som file1.txt och out2 till annan tfileoutputdelimited2 som file2.txt.
  • txt kommer att ha poster som innehåller talend.
  • txt kommer att ha poster som har andra namn.

4. Inbyggt och förvar

  • Inbyggt innebär att du bör ställa in scheman eller detaljer för att ansluta till en databas varje gång.
  • Förvaret är praktiskt för att spara detaljerna i metadata så att du kan återanvända samma detaljer varje gång utan att manuellt ange information varje gång. I metadata kan du spara filschema, databasanslutningar, Hadoop-anslutning, bikupanslutning, s3-anslutning och många fler.

Komponenter i Talend Open Studio

Här är följande komponenter i Talend Open Studio som nämns nedan

1. tFileList

  • Denna komponent listar filerna i en katalog eller mapp med ett givet filmaskmönster.

2. tMysqlConnection

  • Denna komponent används för anslutning till mysql-databasen.
  • Mysql-komponenter kan använda den här anslutningen för enkel installation av anslutningen till databasen.

3. tMysqlinput

  • Den här komponenten hjälper till att köra en mysql-databasfråga och få tabellen eller kolumnerna. Denna komponent används för att välja frågor och få detaljer.

4. tMysqlOutput

  • Denna komponent används för att infoga eller uppdatera data i Mysql-databasen.

5. tprejob

  • Den här komponenten är den första som kör i jobbet och kan anslutas till andra komponenter med på subjob ok.

6. tpostjobb

  • Den här komponenten är den sista som kör i jobbet. Du kan ansluta detta med anslutningsstängningskomponenter.

7. loggfangare

  • Denna komponent fångar varning och fel i jobbet.
  • Den viktigaste komponenten som används i felhanteringsteknik.
  • Felloggar kan skrivas med denna komponent tillsammans med tfileoutputdelimited.
  • Det finns mer än 800 komponenter.

Kontextvariabel

  • Kontextvariabler är variabler som kan användas i jobbet var som helst.
  • Det har värden och kan överföras till ett annat jobb också med hjälp av trun-komponenten.
  • Användningen av kontextvariabler är att vi kan ändra värdet för olika syften.
  • Vi kan till exempel ha en uppsättning värden för utvecklingskontextgruppen och en annan uppsättning kontextvärden för produktion.
  • På detta sätt behöver vi inte ändra jobbet, det räcker med att ändra kontextparametrarna.

Bygga ett jobb

  • För att bygga ett jobb högerklicka på jobbet och välj byggjobb.
  • Du kan importera build-jobbet i TAC.
  • I Talend Administration Console planerar du ett jobb för att även utlösa beroendet på jobbuppsättningen.
  • Du kan också importera jobbet från Nexus-arkivet med ett artefaktjobb.

Skapa en uppgift i TAC

  • Öppen ledare i TAC
  • Klicka på nya uppgifter och välj normala eller artefaktuppgifter.
  • Importera det byggda jobbet eller välj från nexus.
  • Välj den jobbserver som talend kommer att köras i.
  • Spara uppgiften.
  • Nu kan du distribuera och köra jobbet.

Slutsats - Talend Open Studio

”Förenkla ETL och ELT med det ledande gratis open source ETL-verktyget för big data.” Är taglinjen för open studio. Talend Bigdata har många komponenter för att hantera enorma data. Standardjobb, Bigdata-jobb, Bigdata-streamingjobb är de olika typerna av jobb som finns tillgängliga i Talend. Bigdata-jobb kan skapas i ett spark- eller mapreduce-ramverk.

Rekommenderade artiklar

Detta är en guide till Talend Open Studio. Här diskuterar vi fördelarna, applikationerna och komponenterna i Talend Open Studio. Du kan också titta på följande artiklar för att lära dig mer -

  1. Guide till integration av Talend Data
  2. Viktiga Talend-intervjufrågor
  3. Talend vs Mulesoft: Skillnader
  4. Talend vs Pentaho: 8 användbara jämförelser att lära sig

Kategori: