Översikt över Data Lake

En datasjö är ett förvar där vi kan lagra en stor mängd semistrukturerad, strukturerad och ostrukturerad data. Ett unikt ID med en uppsättning utökade metadatataggar tilldelas alla dataelement i en datasjö. När en affärsfråga uppstår kan du be om relevant information och sedan analysera mindre data för att hjälpa till att besvara frågan. Sjön har en platt arkitektur, i motsats till ett hierarkiskt datalager där data lagras i filer och mappar. Utan att först strukturera data kan du lagra din information som den är och vi kan köra olika typer av analyser som instrumentpaneler och visualiseringar till en stor databehandling, analys i realtid och maskininlärning för att informera om bättre beslut.

En sjö används av proffs som datavetare, datautvecklare och affärsanalytiker för att lagra en stor mängd data.

Den som används i en sjö är inte relationell och relationell från IoT-enheter, webbplatser, mobilapplikationer, etc. I schemat är det skrivet i analystiden, dvs. schema för läsning. Resultatet efter körning av frågan är snabbare.

Varför behöver vi en datasjön?

Genom att bygga en sjö kan dataforskare se den oförfinade uppfattningen av data.

Skälen till att använda det är följande:

Företaget som producerar affärsfördelar från deras data överskrider framgångsrikt sina kamrater. I en Aberdeen-undersökning var företaget som inrättade en Data Lake 9% över likvärdiga företags organiska intäktstillväxt. Dessa ledare kunde utföra nya typer av analyser såsom maskininlärning genom nya källor som loggfiler, klickströmsdata, sociala medier och internetanslutning i sjön.

Det stöder import av data som kommer i realtid. Data samlas in från flera resurser och flyttas sedan till sjön i det ursprungliga formatet. En sjö ger högre skalbarhet av data. Du kan också veta vilken typ av data som finns i sjön genom att indexera, genomsöka, katalogisera data.

Det stöder Data Governance som hanterar tillgänglighet, användbarhet, säkerhet och integritet för data.

Det kan hjälpa forsknings- och utvecklingsgrupperna att testa sina hypoteser, förfina antaganden och utvärdering av resultat.

Ingen silostruktur är tillgänglig.

Det erbjuder kunderna en 360-gradersvy och en robust analys.

Kvaliteten på analysen ökar också med ökningen av datavolym, datakvalitet och metadata.

  • Lagringsmotorer som Hadoop har gjort det enkelt att lagra olik information. Det finns inget behov av att modellera data med en sjö till ett företagsomfattande system.
  • Kvaliteten på analyserna ökar också med ökningen av datavolym, datakvalitet och metadata.
  • Det erbjuder affärsrörlighet
  • Det är möjligt att använda maskininlärning och konstgjord intelligens för att göra lönsamma förutsägelser.

Data sjöarkitektur på Hadoop, AWS och Azure

En datasjö har två komponenter: lagring och beräkning. Lagring och databehandling kan antingen lokaliseras på plats eller i molnet. Detta resulterar i utformningen av en datasjönarkitektur i flera möjliga kombinationer.

1. Hadoop

En distribuerad server Hadoop-kluster löser problemet med stor datalagring. MapReduce är Hadoop-programmeringsmodellen som används för att dela upp och bearbeta information i mindre delmängder i serverklustret.

2. AWS

AWS produktsortiment för sin datasjölösning är omfattande. Amazon S3 är mitt i lagringsfunktionslösningen. Dessa dataintagningsverktyg som tillåter oss att överföra enorma mängder data till S3 är Kinesis Stream, Kinesis Firehose, Snowball och Direct Connect.

Förutom Amazon S3, erbjuder NoSQL-databasen, Dynamo DB och Elastic Search en förenklad frågeprocess. AWS erbjuder ett stort urval av produkter med en brant inlärningskurva. Lösningens omfattande funktioner används emellertid i stor utsträckning i kommersiell intelligensapplikationer.

3. Azure

Micro-soft erbjöd datasjön. Azure-datasjön har ett analys- och lagringslager som kallas Azure Store (ADLS) och de två komponenterna som det analytiska lagret har Azure Analytics och HDInsight. ADLS-standarden är inbyggd i HDFS och kan lagras med obegränsad funktion. Det kan spara biljoner filer större än en petabyte i storlek med en enda fil. Azure Store gör det möjligt att lagra och säkra data och kunna skalas i vilket format som helst.

fördelar

Några viktiga punkter visas nedan

  • Ger obegränsat datatypsvärde
  • Anpassas snabbt till förändringar
  • Långsiktiga ägarkostnader reduceras
  • Det är den största fördelen att centralisera olika innehållskällor
  • Användare från olika avdelningar runt om i världen kan ha flexibel datatillgång
  • Ger ekonomisk skalbarhet och flexibilitet

Risk

  • Det kan tappa relevans och fart efter en tid.
  • Det finns en större risk vid design
  • Det ökar också kostnaden för lagring och produkter
  • Säkerhet och åtkomstkontroll är den största risken. Ibland kan data placeras i en sjö utan övervakning, eftersom vissa av uppgifterna kan behöva skyddas och regleras.

Rekommenderade artiklar

Detta har varit en guide till What is a Data Lake ?. Här diskuterade vi konceptet, varför behöver vi Data Lake tillsammans med deras fördelar och risker. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer-

  1. Modern dataintegration
  2. Vad är Data Analytics
  3. Vad är dataöverträdelse?
  4. Data Scientist vs Big Data
  5. Data Lake vs Data Warehouse | skillnader

Kategori: