Vad är Data Analytics?
Data Analytics är en process för att upptäcka nyckelinsikter och värdefulla slutsatser från en enorm mängd data som samlas in eller samlas in från olika källor för att stödja beslutsfattandet. Ökad beräkningskraft, hög bearbetningshastighet. Tillkomsten av interaktiva slutanvändargränssnitt och beprövad effektivitet av distribuerat dataparadigm för att hantera stora bitar av data gjorde dataanalys för att gå vidare inom alla domäner, framträdande inom detaljhandel, bank, hälsovård, logistik, försvar, offentlig förvaltning etc.
Typer av dataanalys
Dataanalysprocessen kategoriseras subjektivt i tre typer baserat på syftet med att analysera data som
- Beskrivande analys
- Predictive Analytics
- Prescriptive Analytics
Funktionerna i ovanstående typer av Analytics beskrivs nedan:
1. Beskrivande analys
Descriptive Analytics fokuserar på att sammanfatta tidigare data för att härleda slutsatser. De vanligaste åtgärderna för att karakterisera historisk datadistribution kvantitativt inkluderar
- Mätningar av central tendens - medelvärde, median, kvartiler, läge.
- Mätningar av variation eller spridning - Område, Inter-kvartilområde, Percentiler.
På senare tid övervinns svårigheterna och begränsningarna för att samla in, lagra och förstå stora datahögar med statistiska inferensprocesser. Allmänna slutsatser om statistik över populationsdatasatser härleds med hjälp av samplingsmetoder tillsammans med tillämpning av central begränsningsteori.
En ledande nyhetssändare samlar in röstdetaljer för slumpmässigt valda väljare vid utgången av en valstation på valdagen för att härleda statistiska slutsatser om preferens för hela befolkningen.
Upprepad provtagning av populationsdatasats resulterar i bitar av prover med tillräckligt stor provstorlek. Clustered sampling föredras generellt för att generera väl stratifierade, opartiska representanter för populationsdatasatsen. Det statistiska måttet på intresse beräknas på de samplade databunken för att erhålla en fördelning av provstatistikvärden som kallas samplingfördelning. Egenskaperna för provtagningsfördelning är relaterade till det för populationsdatasats med hjälp av central begränsande teori.
2. Predictive Analytics
Predictive Analytics utnyttjar mönster i historiska eller tidigare data för att uppskatta framtida resultat, identifiera trender, avslöja potentiella risker och möjligheter eller förutse processbeteende. Eftersom prediktionsanvändningsfall är rimliga till sin natur använder dessa metoder metoder med sannolikhet för att mäta sannolikheten för alla möjliga resultat.
ChatBot i kundtjänstportalen hos det finansiella företaget lär sig proaktivt kundens avsikt eller behov av att baseras på hans / hennes tidigare aktiviteter på dess webbdomän. Med det förutsagda sammanhanget samtalar chatBot interaktivt med kunden för att snabbt leverera apt tjänster och uppnå bättre kundnöjdhet.
Förutom extrapolationsscenarierna för att förutsäga vad som händer i framtiden baserat på tillgängliga tidigare data, finns det få applikationer som gissar missade datainmatningar med hjälp av tillgängliga dataprover. Denna tillnärmning av missade värden inom området för givna datapröv benämns tekniskt Interpolation.
Ett kraftfullt bildredigeringsprogram stöder rekonstruktion av missade delar av textur på grund av superpålagd text genom att interpolera funktionsfunktionen vid det missade blocket. Funktionsfunktionen kan tolkas som en matematisk notation av mönster i strukturen på en förvrängd bild.
De viktiga faktorerna som påverkar valet av prediktiva modeller / strategier är:
- Prognosnoggrannhet: Det förmedlar graden av närhet mellan ett förutsagt värde och verkligt värde. En lägre varians av skillnaden mellan förutsagt värde och verkligt värde innebär en högre prediktiv modells noggrannhet.
- Förutsägelseshastighet: Det prioriteras högt i realtidsspårningsapplikationer
- Model Learning Rate: Det beror på modellens komplexitet och beräkningar som är involverade i beräkningen av modellparametrar.
3. Prescriptive Analytics
Prescriptive Analytics använder kunskap som upptäckts som en del av både beskrivande och prediktiv analys för att rekommendera en kontextmedveten åtgärd. Avancerade statistiska tekniker och beräkningsintensiva optimeringsmetoder implementeras för att förstå fördelningen av uppskattade förutsägelser.
På exakta villkor utvärderas effekterna och fördelarna med varje resultat, som uppskattas under prediktiv analys, för att fatta heuristiska och tidskänsliga beslut för en viss uppsättning villkor.
Ett konsultföretag på aktiemarknaden utför SWOT-analys (styrka, svaghet, möjligheter och hot) om förutspådda priser för aktier i investerares portfölj och rekommenderar de bästa köp-sälj-alternativen till sina kunder.
Processflöde i Data Analytics
Processen för dataanalys har olika stadier av databehandling som förklaras nedan:
1. Datauttag
Intag av data från flera datakällor av olika slag, inklusive webbsidor, databaser, äldre applikationer, resulterar i inputdatasätt av olika format. Dataformaten som matas in i dataanalysflödet kan i stort sett klassificeras som
- Strukturerade data har en tydlig definition av datatyper tillsammans med tillhörande fältlängd eller fältavgränsare. Denna typ av data kan enkelt frågas som innehåll som är lagrat i Relational Database (RDBMS)
- Semistrukturerade data saknar exakt layoutdefinition men dataelement kan identifieras, separeras och grupperas baserat på ett standardschema eller andra metadataregler. En XML-fil använder taggning för att hålla data medan Javascript-objekt Notation-fil (JSON) innehåller data i namn-värdepar. NoSQL (inte bara SQL) databaser som MongoDB, men soffbasen används också för att lagra semistrukturerade data.
- Ostrukturerad data inkluderar konversationer på sociala medier, bilder, ljudklipp etc. Traditionella datapartringsmetoder misslyckas med att förstå dessa data. Ostrukturerad data lagras i datasjöar.
Implementering av datapersiering för strukturerade och semistrukturerade data är integrerade i olika ETL-verktyg som Ab Initio, Informatica, Datastage och open source-alternativ som Talend.
2. Datarengöring och transformation
Rengöring av analyserad data görs för att säkerställa datakonsistens och tillgänglighet av relevant data för de senare stadierna i ett processflöde. De viktigaste rengöringsåtgärderna i dataanalys är:
- Upptäckt och eliminering av utdelare i datamängderna
- Ta bort dubbletter i datasatsen
- Hantera saknade poster i dataposter med förståelse för funktionalitet eller användningsfall
- Valideringar för tillåtna fältvärden i dataposter som ”31 februari” kan inte vara ett giltigt värde i något av datumfält.
Rensade data omvandlas till ett lämpligt format för att analysera data. Datatransformationer inkluderar
- Ett filter med oönskade dataposter.
- Gå med i data hämtade från olika källor.
- Aggregering eller gruppering av data
- Datas typkasting
3. KPI / Insight-derivat
Data Mining, Deep learning-metoder används för att utvärdera Key Performance Indicators (KPI) eller härleda värdefull insikt från den rengjorda och transformerade informationen. Baserat på syftet med analysen utförs dataanalys med olika mönsterigenkänningstekniker som k-medelklustering, SVM-klassificering, Bayesianska klassificeringsmaskiner etc. och maskininlärningsmodeller som Markov-modeller, Gaussian Mixture Models (GMM) etc.
Probabilistiska modeller i träningsfasen lär sig optimala modellparametrar och i valideringsfasen testas modellen med k-faldig korsvalideringstest för att undvika överanpassnings- och underpassningsfel.
Det vanligaste programmeringsspråket för dataanalys är R och Python. Båda har en rik uppsättning bibliotek (SciPy, NumPy, Pandas) som är öppna för att utföra komplex dataanalys.
4. Datavisualisering
Datavisualisering är processen för tydlig och effektiv presentation av upptäckta mönster, härledda slutsatser från uppgifterna med hjälp av grafer, diagram, instrumentpaneler och grafik.
- Datarapporteringsverktyg som QlikView, Tableau etc. visar KPI och andra härledda mätvärden på olika nivåer av granularitet.
- Rapporteringsverktyg gör det möjligt för slutanvändare att skapa anpassade rapporter med pivot-, drill-down-alternativ med användarvänliga dra och släpp-gränssnitt
- Interaktiva datavisualiseringsbibliotek som D3.js (Datadrivna dokument), HTML5-Anycharts osv. Används för att öka förmågan att utforska analyserade data
Rekommenderade artiklar
Detta har varit en guide till Vad är Data Analytics. Här diskuterade vi olika typer av dataanalys med processflödet. Du kan också gå igenom andra föreslagna artiklar för att lära dig mer -
- Dataanalytikerintervju och svar
- Vad är datavisualisering?
- Vad är Big data analytics?
- Vad är Minitab?