Linjär regression i R - Hur man tolkar Linjär regression med exempel

Innehållsförteckning:

Anonim

Vad är linjär regression i R?

Linjär regression är den mest populära och mest använda algoritmen inom statistikområdet och maskininlärning. Linjär regression är en modelleringsteknik för att förstå förhållandet mellan input- och outputvariabler. Här måste variabler vara numeriska. Linjär regression kommer från det faktum att utgångsvariabeln är en linjär kombination av inmatningsvariabler. Utgången representeras vanligtvis av "y", medan ingången representeras av "x".

Linjär regression i R kan kategoriseras på två sätt

  1. Si mple Linjär regression

Detta är regressionen där utgångsvariabeln är en funktion av en enda ingångsvariabel. Representation av enkel linjär regression:

y = c0 + c1 * x1

  1. Multipel linjär regression

Detta är regressionen där utgångsvariabeln är en funktion av en variabel med flera ingångar.

y = c0 + c1 * x1 + c2 * x2

I båda ovanstående fall är c0, c1, c2 koefficienten som representerar regressionsvikter.

Linjär regression i R

R är ett mycket kraftfullt statistiskt verktyg. Så låt oss se hur linjär regression kan utföras i R och hur dess utgångsvärden kan tolkas.

Låt oss förbereda ett datasæt för att utföra och förstå linjär regression på djupet nu.

Nu har vi ett datasæt, där "tillfredsställelse_score" och "year_of_Exp" är den oberoende variabeln. "Lön_in_lakhs" är outputvariabeln.

Med hänvisning till ovanstående datasats är problemet vi vill ta itu med här genom linjär regression:

Uppskattning av en anställds lön, baserat på hans års erfarenhet och tillfredsställelse poäng i sitt företag.

R-kod för linjär regression:

model <- lm(salary_in_Lakhs ~ satisfaction_score + year_of_Exp, data = employee.data)
summary(model)

Utgången från ovanstående kod kommer att vara:

Formeln för regression blir

Y = 12, 29-1, 19 * tillfredsställelse-poäng + 2, 08 × 2 * år_of_Exp

I fallet har man flera ingångar till modellen.

Då kan R-koden vara:

modell <- lm (lön_in_Lakhs ~., data = anställd.data)

Men om någon vill välja variabel av flera inmatningsvariabler, finns det flera tekniker som "Backward Elimination", "Forward Selection" etc. finns tillgängliga för att göra det också.

Tolkning av linjär regression i R

Nedan följer några tolkningar av linjär regression i r som är följande:

1.Residuals

Detta hänvisar till skillnaden mellan det faktiska svaret och modellens förutsagda svar. Så för varje punkt kommer det ett faktiskt svar och ett förutsagt svar. Därför blir rester så många som observationerna är. I vårt fall har vi fyra observationer, därav fyra rester.

2.Coefficients

När vi går längre hittar vi koefficientavsnittet, som visar fånget och lutningen. Om man vill förutsäga en anställds lön baserat på sin erfarenhet och tillfredsställelse poäng, måste man utveckla en modellformel baserad på lutning och fånga. Denna formel hjälper dig att förutsäga lön. Avlyssningen och lutningen hjälper en analytiker att ta fram den bästa modellen som passar datapunkter på lämpligt sätt.

Lutning: Visar linjens branthet.
Avlyssning: Platsen där linjen skär axeln.
Låt oss förstå hur formelbildning bildas baserat på lutning och avlyssning.
Säg att avlyssning är 3 och sluttningen är 5.
Så formeln är y = 3 + 5x . Detta betyder att om x ökas med en enhet, blir y ökad med 5.

a.Koefficient - Uppskattning

I detta betecknar avlyssningen medelvärdet för utmatningsvariabeln, när all ingång blir noll. Så i vårt fall kommer lönen i lakhs att vara 12, 29Lakhs som genomsnitt med tanke på tillfredsställelse poäng och erfarenhet kommer noll. Här representerar lutningen förändringen i utgångsvariabeln med en enhetsförändring i ingångsvariabeln.

b.Koefficient - Standardfel

Standardfelet är uppskattningen av fel som vi kan få när vi beräknar skillnaden mellan det verkliga och förutsagda värdet på vår svarsvariabel. I sin tur berättar detta om förtroendet för relaterade ingångs- och utgångsvariabler.

c.Koefficient - t-värde

Detta värde ger förtroende för att avvisa nollhypotesen. Ju större värde bort från noll, desto större förtroende för att avvisa nollhypotesen och etablera förhållandet mellan utgång och ingångsvariabel. I vårt fall är värdet också borta från noll.

d.Koefficient - Pr (> t)

Denna förkortning visar i princip p-värdet. Ju närmare det är noll, desto lättare kan vi avvisa nollhypotesen. Den linje som vi ser i vårt fall är detta värde nära noll, vi kan säga att det finns ett samband mellan lönepaket, tillfredsställelse poäng och år av erfarenheter.

Restfel

Detta visar felet i förutsägelsen av svarsvariabeln. Ju lägre den är, desto högre är modellens noggrannhet.

Multipel R-kvadrat, Justerad R-kvadrat

R-kvadrat är ett mycket viktigt statistiskt mått för att förstå hur nära uppgifterna har passat in i modellen. Därför i vårt fall hur väl vår modell som är linjär regression representerar datasättet.

R-kvadratvärdet ligger alltid mellan 0 och 1. Formeln är:

Ju närmare värdet 1 är, desto bättre beskriver modellen datasätten och dess varians.

Men när mer än en ingångsvariabel kommer in i bilden föredras det justerade R-kvadratvärdet.

F-Statistic

Det är en stark åtgärd för att bestämma förhållandet mellan input och responsvariabel. Ju större värde än 1, desto högre är förtroendet för förhållandet mellan ingångs- och utgångsvariabeln.

I vårt fall är det “937, 5”, vilket är relativt större med tanke på datorns storlek. Därför blir avvisningen av nollhypotesen enklare.

Om någon vill se konfidensintervallet för modellens koefficienter är här sättet att göra det: -

Visualisering av regression

R-kod:

tomt (lön_in_Lakhs ~ tillfredsställelse_score + år_of_Exp, data = anställd.data)
abline (modell)

Det är alltid bättre att samla fler och fler poäng innan du anpassar sig till en modell.

Slutsats - Linjär regression i R

Linjär regression är enkel, enkel att anpassa, lätt att förstå men ändå mycket kraftfull modell. Vi såg hur linjär regression kan utföras på R. Vi försökte också tolka resultaten, vilket kan hjälpa dig i optimeringen av modellen. När man väl är bekväm med enkel linjär regression bör man försöka multipel linjär regression. Tillsammans med detta, eftersom linjär regression är känslig för utläsare, måste man undersöka den innan man hoppar in i passningen till linjär regression direkt.

Rekommenderade artiklar

Detta är en guide till linjär regression i R. Här har vi diskuterat vad som är linjär regression i R? kategorisering, visualisering och tolkning av R. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

  1. Förutsägbar modellering
  2. Logistisk regression i R
  3. Beslutsträd i R
  4. R intervjufrågor
  5. Top Differences of Regression vs Classification
  6. Guide to Decision Tree in Machine Learning
  7. Linjär regression vs logistisk regression | Topp skillnader