Vad är regressionsanalys? - Typer och fördelar med regressionsanalys

Innehållsförteckning:

Anonim

Introduktion till regressionsanalys

Regressionsanalys är en prediktiv modelleringsalgoritm för att förutsäga resultatet av en variabel och identifiera variablerna (oberoende variabler) som bidrar till eller beror på utfallsvariabeln (mål eller beroende variabel). Enkelt uttryckt är det en teknik att hitta förhållandet mellan de oberoende och beroende variablerna för att ge resultatet. Det är enkelt att använda och tolka resultatet. Det finns många typer av regressionstekniker som används allmänt inom olika sektorer. Några av exemplen på regression är att förutsäga en anställds lön eller ett företags intäkter på ett år.

Hur fungerade regressionsanalysen?

Det finns många typer av regressionstekniker som används med tanke på olika faktorer och resultat.

  • Linjär regression
  • Logistisk återgång
  • Lasso / Ridge Regression
  • Polynomregression

Några av de viktiga statistiska regressionstesterna som används i olika sektorer ges nedan:

1. Linjär regression

Detta används när utfallsvariabeln är linjärt beroende av de oberoende variablerna. Det används normalt när vi inte har en enorm datauppsättning. Det är också känsligt för outliers, så om datauppsättningen innehåller outliers än det är bättre att behandla dem innan du använder linjär regression. Det finns enkel- och flervariabel regressionsteknik. Enkel linjär regression är analysen när utfallsvariabeln är linjärt beroende av en enda oberoende variabel. Enkel linjär regression följer ekvationen för en rak linje som ges nedan:

Y=mx+c

Var,

Y = Mål-, beroende- eller kriterievariabel

x = Oberoende eller prediktorvariabel

m = Lutning eller regressionskoefficient

c = konstant

Multivariabel Linjär regression definierar förhållandet mellan utfallsvariabeln och mer än en oberoende variabel. Den följer ekvationen nedan för en rak linje där beroende variabler är den linjära kombinationen av alla oberoende variabler:

Y= m1x1+m2x2+m3x3+…mnan+c

Var,

Y = Mål-, beroende- eller kriterievariabel

x1, x2, x3 … xn = Oberoende eller prediktorvariabler

m1, m2, m3 … mn = Lutning eller regressionskoefficienter för respektive variabler

c = konstant

Linear Regression följer principen om Least Square-metoden. Denna metod säger att en linje med bästa passning väljs genom att minimera summan av kvadratfel. Linjen för bästa passning väljs där summan av kvadratfel mellan observerade data och linjen är minimal.

Det finns några antaganden som bör tas om hand innan du använder linjär regression på datasättet.

  • Det bör finnas ett linjärt samband mellan oberoende och beroende variabler.
  • Det bör inte finnas någon eller lite multikollinearitet mellan de oberoende variablerna. Multikollinearitet definieras som ett fenomen där det finns en hög korrelation mellan de oberoende variablerna. Vi kan behandla multikollinearitet genom att släppa en variabel som är korrelerad eller behandlar två variabler som en variabel.
  • Homoscedasticitet: Det definieras som ett tillstånd där feltermer ska slumpmässigt fördelas över linjen i regressionsanalysen. Det bör inte finnas något mönster över linjen om det finns något identifierat mönster än uppgifterna sägs vara heteroscedastiska.
  • Alla variabler ska normalt fördelas, vilket vi ser genom att plotta ett QQ-diagram. Om informationen normalt inte distribueras, kan vi använda alla olinjära transformationsmetoder för att behandla dem.

Så det är alltid tillrådligt att testa antagandena medan du använder linjär regression för att få god noggrannhet och korrekt resultat.

2. Logistisk regression

Denna regressionsteknik används när mål- eller resultatvariabeln är kategorisk eller binär. Den största skillnaden mellan linjär och logistisk regression ligger i målvariabeln, i linjär regression bör den vara kontinuerlig medan den i logistik bör vara kategorisk. Utfallsvariabeln bör bara ha två klasser, inte mer än så. Några av exemplen är skräppostfilter i e-postmeddelanden (skräppost eller inte), bedrägeri (bedrägeri / inte bedrägeri), etc. Det fungerar enligt principen om sannolikhet. Det kan klassificeras i två kategorier genom att ställa in tröskelvärdet.

Till exempel: Om det finns två kategorier A, B och vi ställer in tröskelvärdet som 0, 5 kommer sannolikheten över 0, 5 att betraktas som en kategori och under 0, 5 kommer att vara en annan kategori. Logistisk regression följer en S-formad kurva. Innan vi bygger upp den logistiska regressionsmodellen måste vi dela upp datauppsättningen i träning och testning. Eftersom målvariabeln är kategorisk eller binär måste vi se till att det finns en korrekt klassbalans i träningsuppsättningen. Om det finns klassobalans kan detta behandlas med hjälp av olika metoder som nämns nedan:

  • Uppprovning: I den här tekniken samplas den klass som har färre rader för att matcha antalet rader i majoritetsklassen.
  • Nedprovning: I den här tekniken samlas klassen som har fler rader ned för att matcha antalet rader i minoritetsklassen.

Det finns några viktiga punkter som är viktiga att förstå innan du använder den logistiska regressionsmodellen på datamängden:

  • Målvariabeln bör ha binär karaktär. Om det finns mer än 2 klasser i målvariabeln än det kallas Multinomial Logistic Regression .
  • Det bör inte finnas någon eller liten multikollinearitet mellan de oberoende variablerna.
  • Det kräver en enorm provstorlek för att fungera.
  • Det bör finnas ett linjärt förhållande mellan de oberoende variablerna och oddsloggen.

Fördelarna med regression

Det finns många fördelar med regressionsanalys. Istället för att överväga vår magkänsla och förutsäga resultatet, kan vi använda regressionsanalys och visa giltiga poäng för möjliga resultat.

Några av dessa listas nedan:

  • Att förutsäga försäljningen och intäkterna i någon sektor under kortare eller längre perioder.
  • För att förutsäga kundens svårighetsgrad för alla branscher och ta reda på lämpliga åtgärder för att minska dem.
  • Förstå och förutsäga lagerets lagernivåer.
  • Att hitta om en ny produkt på marknaden kommer att vara framgångsrik eller inte.
  • För att förutsäga om någon kund kommer att ha ett standardlån eller inte.
  • För att förutsäga om någon kund kommer att köpa en produkt eller inte.
  • Bedrägeri eller skräppostdetektion

Slutsats

Det finns olika utvärderingsmätvärden som beaktas efter tillämpning av modellen. Även om det finns antaganden som måste testas innan modellen tillämpas kan vi alltid ändra variablerna med hjälp av olika matematiska metoder och öka modellprestanda.

Rekommenderade artiklar

Detta är en guide till regressionsanalys. Här diskuterar vi introduktionen till regressionsanalys, hur fungerade regressionsanalysen och fördelarna med regression. Du kan också gå igenom våra andra artiklar som föreslås för att lära dig mer–

  1. Linjär regressionsanalys
  2. Dataanalysverktyg
  3. Verktyg för regressionstest
  4. Big Data Analytics
  5. Regression vs klassificering | De viktigaste skillnaderna