Vad är en Data Lake? - Behov av data tillsammans med deras fördelar och risker

Översikt över Data Lake

En datasjö är ett förvar där vi kan lagra en stor mängd semistrukturerad, strukturerad och ostrukturerad data. Ett unikt ID med en uppsättning utökade metadatataggar tilldelas alla dataelement i en datasjö. När en affärsfråga uppstår kan du be om relevant information och sedan analysera mindre data för att hjälpa till att besvara frågan. Sjön har en platt arkitektur, i motsats till ett hierarkiskt datalager där data lagras i filer och mappar. Utan att först strukturera data kan du lagra din information som den är och vi kan köra olika typer av analyser som instrumentpaneler och visualiseringar till en stor databehandling, analys i realtid och maskininlärning för att informera om bättre beslut.

En sjö används av proffs som datavetare, datautvecklare och affärsanalytiker för att lagra en stor mängd data.

Den som används i en sjö är inte relationell och relationell från IoT-enheter, webbplatser, mobilapplikationer, etc. I schemat är det skrivet i analystiden, dvs. schema för läsning. Resultatet efter körning av frågan är snabbare.

Varför behöver vi en datasjön?

Genom att bygga en sjö kan dataforskare se den oförfinade uppfattningen av data.

Skälen till att använda det är följande:

Företaget som producerar affärsfördelar från deras data överskrider framgångsrikt sina kamrater. I en Aberdeen-undersökning var företaget som inrättade en Data Lake 9% över likvärdiga företags organiska intäktstillväxt. Dessa ledare kunde utföra nya typer av analyser såsom maskininlärning genom nya källor som loggfiler, klickströmsdata, sociala medier och internetanslutning i sjön.

Det stöder import av data som kommer i realtid. Data samlas in från flera resurser och flyttas sedan till sjön i det ursprungliga formatet. En sjö ger högre skalbarhet av data. Du kan också veta vilken typ av data som finns i sjön genom att indexera, genomsöka, katalogisera data.

Det stöder Data Governance som hanterar tillgänglighet, användbarhet, säkerhet och integritet för data.

Det kan hjälpa forsknings- och utvecklingsgrupperna att testa sina hypoteser, förfina antaganden och utvärdering av resultat.

Ingen silostruktur är tillgänglig.

Det erbjuder kunderna en 360-gradersvy och en robust analys.

Kvaliteten på analysen ökar också med ökningen av datavolym, datakvalitet och metadata.

Lagringsmotorer som Hadoop har gjort det enkelt att lagra olik information. Det finns inget behov av att modellera data med en sjö till ett företagsomfattande system.
Kvaliteten på analyserna ökar också med ökningen av datavolym, datakvalitet och metadata.
Det erbjuder affärsrörlighet
Det är möjligt att använda maskininlärning och konstgjord intelligens för att göra lönsamma förutsägelser.

Data sjöarkitektur på Hadoop, AWS och Azure

En datasjö har två komponenter: lagring och beräkning. Lagring och databehandling kan antingen lokaliseras på plats eller i molnet. Detta resulterar i utformningen av en datasjönarkitektur i flera möjliga kombinationer.

1. Hadoop

En distribuerad server Hadoop-kluster löser problemet med stor datalagring. MapReduce är Hadoop-programmeringsmodellen som används för att dela upp och bearbeta information i mindre delmängder i serverklustret.

2. AWS

AWS produktsortiment för sin datasjölösning är omfattande. Amazon S3 är mitt i lagringsfunktionslösningen. Dessa dataintagningsverktyg som tillåter oss att överföra enorma mängder data till S3 är Kinesis Stream, Kinesis Firehose, Snowball och Direct Connect.

Förutom Amazon S3, erbjuder NoSQL-databasen, Dynamo DB och Elastic Search en förenklad frågeprocess. AWS erbjuder ett stort urval av produkter med en brant inlärningskurva. Lösningens omfattande funktioner används emellertid i stor utsträckning i kommersiell intelligensapplikationer.

3. Azure

Micro-soft erbjöd datasjön. Azure-datasjön har ett analys- och lagringslager som kallas Azure Store (ADLS) och de två komponenterna som det analytiska lagret har Azure Analytics och HDInsight. ADLS-standarden är inbyggd i HDFS och kan lagras med obegränsad funktion. Det kan spara biljoner filer större än en petabyte i storlek med en enda fil. Azure Store gör det möjligt att lagra och säkra data och kunna skalas i vilket format som helst.

fördelar

Några viktiga punkter visas nedan

Ger obegränsat datatypsvärde
Anpassas snabbt till förändringar
Långsiktiga ägarkostnader reduceras
Det är den största fördelen att centralisera olika innehållskällor
Användare från olika avdelningar runt om i världen kan ha flexibel datatillgång
Ger ekonomisk skalbarhet och flexibilitet

Risk

Det kan tappa relevans och fart efter en tid.
Det finns en större risk vid design
Det ökar också kostnaden för lagring och produkter
Säkerhet och åtkomstkontroll är den största risken. Ibland kan data placeras i en sjö utan övervakning, eftersom vissa av uppgifterna kan behöva skyddas och regleras.

Rekommenderade artiklar

Detta har varit en guide till What is a Data Lake ?. Här diskuterade vi konceptet, varför behöver vi Data Lake tillsammans med deras fördelar och risker. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer-

Modern dataintegration
Vad är Data Analytics
Vad är dataöverträdelse?
Data Scientist vs Big Data
Data Lake vs Data Warehouse | skillnader

Vad är en Data Lake? - Behov av data tillsammans med deras fördelar och risker

Innehållsförteckning:

Översikt över Data Lake

Varför behöver vi en datasjön?

Data sjöarkitektur på Hadoop, AWS och Azure

1. Hadoop

2. AWS

3. Azure

fördelar

Risk

Rekommenderade artiklar

Photoshop-effekter - Fyll ett foto med fler foton

Spöke en bild med Photoshop

Hur man blandar texturer med foton i Photoshop CC CS6

Ger ett foto avrundade hörn i Photoshop

Infraröd fotoeffekt - Photoshop Tutorial

MySQL Aggregate-funktion - Topp 10 aggregerade funktioner

MySQL vs Oracle - Topp 7 mest värdefulla skillnader att lära sig

MySQL vs SQLite - Topp 14 skillnader du bör lära dig

Naive Bayes algoritm - Hur det fungerar - Grundläggande modeller - fördelar

Namnytor i C # - Guide till namnområden i C # med exempel

Hur man skapar en gammal fotoeffekt i Photoshop

Hur du beskär bilder i Photoshop CC - komplett guide

Hur man lägger till kontakt- och copyrightinformation till bilder med Photoshop

Använda Perspective Crop Tool i Photoshop

Hur du ändrar storlek på bilder i Photoshop - komplett guide