Introduktion till dataanalys

I den här artikeln ser vi en översikt över typer av dataanalys. I en tid av 21-talet är kanske den mest anmärkningsvärda förändringen hur data blev en del av vårt beslutssystem inom alla områden i vårt liv. Det råder ingen tvekan om att "Data är den nya oljan" i varje sektor. Nu med ökningen av nästan oändlig bandbredd kommer nya uppsättningar av utmaningar för hur vi använder denna enorma skala av data effektivt och härleder viktiga insikter från uppgifterna. Tillsammans med den stora datamängden ökar också brus gradvis, dataanalys är en samling olika metoder och tankesätt för att få ut det bästa av tillgängliga data och konvertera rådata till viss affärs- eller socialt värde.

Typer av dataanalys

Baserat på de metoder som används kan dataanalys delas upp i följande fyra delar:

  • Beskrivande analys
  • Utforskande dataanalys
  • Prediktiv analys
  • Inferensiell analys

1. Beskrivande analys

Beskrivande analys är det numeriska sättet att få insikter om data. I den beskrivande analysen får vi ett sammanfattat värde på de numeriska variablerna. Anta att du analyserar försäljningsdata från en biltillverkare. I den beskrivande analysens litteratur kommer du att söka frågor som vad som är medelvärdet, läget för försäljningspriset för en biltyp, vilka intäkter som uppkommit genom att sälja en viss typ av bil, etc. Vi kan få den centrala tendensen och spridning av de numeriska variablerna för data med hjälp av denna typ av analys. I de flesta fall av praktiska datavetenskapsanvändningar hjälper beskrivande analyser att få information på hög nivå om data och vänja sig vid datauppsättningen. Viktiga terminologier i den beskrivande analysen är:

  • Genomsnitt (genomsnitt av alla siffror i en lista med siffror)
  • Läge (vanligaste numret i en lista med nummer)
  • Median (medelvärde för en lista med siffror)
  • Standardavvikelse (mängd variation av en uppsättning värden från medelvärdet)
  • Varians (kvadrat för standardavvikelse)
  • Interkvartilintervall (värden mellan 25 och 75 procent av en lista med siffror)

I python tillhandahåller panda-bibliotek en metod som kallas 'beskriva', som ger beskrivande information om dataramen. Vi använder också andra bibliotek som statistikmodell eller kan utveckla vår kod enligt användningsfall.

2. Förklarande dataanalys

Till skillnad från beskrivande dataanalys där vi analyserar data numeriskt är undersökande dataanalys det visuella sättet att analysera data. När vi har en grundläggande förståelse av de tillgängliga uppgifterna genom beskrivande analys, kommer vi att gå till undersökande dataanalys. Vi kan också dela upp den undersökande dataanalysen i två delar:

  • Uni variate-analys (utforska kännetecken för en enda variabel)
  • Multivariat analys (jämförande analys av flera variabler, om vi jämför korrelation mellan två variabler kallas det bivariat analys)

På det visuella sättet för dataanalys använder vi olika typer av diagram och diagram för att analysera data. För att analysera en enda variabel (univariat analys) kan vi använda ett stapeldiagram, histogram, ruta plot med whisker, violin plot, etc. För multivariate analys, använder vi spridning plot, kontur diagram, multidimensionella tomter, etc.

Men varför behöver vi förklarande dataanalys?

  • Undersökande dataanalys ger ett visuellt sätt att beskriva data, vilket hjälper till att identifiera egenskaperna hos uppgifterna tydligare.
  • Det hjälper oss att identifiera vilka funktioner som är viktigare. Detta är särskilt användbart när vi hanterar högdimensionell data. (dvs. metoder som PCA och t-SNE hjälper till att minska dimensionen).
  • Det är ett effektivt sätt att förklara det uppkomna resultatet till chefer och icke-tekniska stackinnehavare.

I python finns det många bibliotek att utföra undersökande dataanalys. Matplotlib, Seaborn, Plotly, Bokeh, etc. är de mest populära bland dessa.

3. Prediktiv analys

Vad händer om vi vet de misstag vi kommer att göra i framtiden i förväg? Vi kommer att försöka undvika de rätt? Prediktiv analys är inget annat än det mest vetenskapliga sättet att förutsäga framtida resultat genom att analysera historiska händelser. Datavetenskapens hjärta baseras på prediktiv analys. Prediktiv analys hjälper oss att svara på följande frågor: "Kan vi förutsäga om en köpare kommer att köpa en specifik produkt eller inte?" Eller "Kan vi uppskatta den totala kostnaden ett försäkringsbolag måste betala för fordringarna? "Eller" Kan vi uppskatta mängden nederbörd i kommande monsun? "

Prediktiv analys hjälper oss att ge det ungefärliga eller sannolikt resultatet av de viktiga frågorna som sedan resulterar i massiva skalade affärer och socioekonomiska förändringar. Maskininlärningsmodeller utvecklas baserat på historiska data för att förutsäga resultatet av liknande osynliga framtida händelser.

4. Inferensiell analys

Inferensiell analys är litteraturen inom datavetenskap, medan vi förutspår referensutfallet för flera sektorer. Till exempel härleda konsumentprisindex eller inkomst per capita. Det är inte möjligt att nå varje konsument en efter en och beräkna. Istället för detta tar vi vetenskapligt prover från befolkningen och med hjälp av statistisk analys härleder vi indexet.

Slutsats

I den här artikeln har vi diskuterat de olika metoderna för dataanalys. Behöver vi använda alla dessa metoder eller kan vi använda någon av dem? Tja, nu är det baserat på användningsfallet och domänen för applikationen. Men i de flesta fall kommer vi att börja med beskrivande och undersökande dataanalys och utveckla prediktiva modeller för att förutsäga framtida resultat.

Rekommenderade artiklar

Detta är en guide till typer av dataanalys. Här diskuterar vi en kort översikt av dataanalys och de olika metoderna baserade på applikationens användningsfall och domän. Du kan också gå igenom våra föreslagna artiklar för att lära dig mer -

  1. Topp 8 gratis dataanalysverktyg
  2. Introduktion till typer av dataanalysstekniker
  3. Data Analytics vs Data Analys - Toppskillnader
  4. Lär dig begreppet dataintegration

Kategori: