Envägsanalys av variation

Variansanalys som skrivits kort som ANOVA är det förfarande som vi kan jämföra medel mellan tre eller flera populationer. Statistiskt ramar vi in ​​två hypoteser, nollhypotesen: ”Alla populationsmedel är lika” och den alternativa hypotesen: ”Inte alla populationsmedel är lika”. Det gör det möjligt för oss att testa jämställdheten mellan flera medel i ett test snarare än att jämföra två medel i taget som är omöjligt att göra när det finns flera grupper. I det här ämnet kommer vi att lära oss om One Way ANOVA i R.

Envägsanalys av variation hjälper oss att analysera endast en faktor eller variabel. Exempelvis finns det fem regioner och vi vill kontrollera om dagliga genomsnittliga nederbörd för alla fem regionerna är lika eller om de är olika. I detta fall finns det bara en faktor som är region, eftersom vi måste kontrollera om regionala faktorer påverkar regnmottagningen och mönstret.

Antaganden om analys av variation

Följande är de antaganden som måste uppfyllas för att tillämpa envägs ANOVA:

  • Populationerna från vilka proverna tas ut distribueras normalt.
  • Populationerna från vilka proverna har tagits har samma varians eller standardavvikelse.
  • Proverna som tas från olika populationer är slumpmässiga och oberoende.

Hur fungerar ANOVA i R?

För vår demonstration använder vi data som innehåller två variabler, nämligen. Varumärke och försäljning. Det finns fyra märken - ATB, JKV, MKL och PRQ. Månadsförsäljning för dessa märken anges. Vi måste kontrollera om medelförsäljningen mellan de fyra varumärkena är lika eller om de skiljer sig från varandra. För att verifiera detta kommer vi att använda enkelriktad ANOVA. Steg-för-steg-förfarandet för att implementera ANOVA är som följer:

  1. Importera först data till R. Data finns i ett CSV-format. Så för att importera den använder vi funktionen read.csv ().

  1. Visa de första posterna med data. Detta är viktigt för att kontrollera om uppgifterna har importerats korrekt till R. På liknande sätt kommer vi att tillämpa en sammanfattning () -funktion över uppgifterna för att få grundläggande insikter i uppgifterna.

  1. Varje gång vi använder variablerna i datasatsen måste vi uttryckligen ange namnet på datasatsen som brand_sales_data $ Brand eller brand_sales_data $ Sales. För att övervinna detta kommer vi att använda anslutningsfunktionen. Funktionen måste tillämpas enligt nedan.

  1. Låt oss samla försäljning efter märke med hjälp av medelvärde eller standardavvikelse. Aggregering hjälper oss att få en grundläggande uppfattning om data.

Ovanstående resultat visar medel för de fyra olika grupperna som inte är lika. JKV har den högsta medelförsäljningen.

Som kan ses ovan visar standardavvikelserna mellan de fyra grupperna ingen signifikant skillnad och det är högst för varumärket MKL.

  1. Nu kommer vi att tillämpa ANOVA för att validera om medel mellan de tre befolkningarna är lika eller om det finns någon skillnad.

Från resultaten ovan kan vi se att ANOVA-testet för Brand är signifikant på grund av p <0, 0001. Vi kan tolka att alla märken inte har samma preferensnivåer på marknaden som påverkar försäljningen av dessa märken på marknaden. Detta kan bero på många faktorer och gilla människor för ett visst märke.

  1. Ovanstående resultat kan visualiseras och det gör tolkningen lätt. För det kommer vi att använda plotmeans () -funktion i gplots () -biblioteket. Det fungerar som nedan:

Som vi kan se ovan möjliggör funktionen plotmeans () i gplots-paketet oss att jämföra medel från olika grupper visuellt. Vi kan se att medel inte är desamma för de fyra varumärkena. Medlet för varumärkena MKL och PRQ ligger dock inom nära räckvidd.

  1. Ovanstående analys hjälper oss att kontrollera om varumärken har lika medel eller inte, men det är svårt att göra den parvisa jämförelsen. Vi kan göra parvisa jämförelser för olika märken med TukeyHSD () -funktion som underlättar kontrollen av om ett märke skiljer sig väsentligt från något av de återstående.

De parvisa jämförelserna som ovan. Skillnaden mellan två grupper är signifikant om p <0, 001. Som vi kan se ovan är p-värdet för PRQ-MKL-paret mycket högre vilket indikerar att de två varumärkena inte skiljer sig väsentligt från varandra.

För att visualisera parvisa jämförelser planerar vi ovanstående resultat enligt nedan:

Den första parfunktionen roterar axeletiketterna så att de blir horisontella, och den andra paranalysen justerar marginalerna så att etiketterna passar korrekt, annars går de ut ur skärmen.

Ovanstående graf ger god insikt, men vi kan plotta resultaten i form av boxplot för att få bättre insikter för tydligare tolkning, vilket visas nedan.

Funktionen glht () som används ovan kommer med en omfattande uppsättning metoder för att jämföra flera medel. Observera att nivåalternativet i cld () -funktionen avser signifikansnivån, t.ex. 0, 05 eller 95 procent konfidens)

Med hjälp av ovanstående plot blir det lätt att jämföra medel mellan grupperna och det underlättar systematisk tolkning. Det finns bokstäver, över toppen av tomten, för varje märke. Om två varumärken har samma bokstav har de inte betydligt olika medel som märken MKL och PRQ i detta fall som har samma bokstav b.

  1. Hittills implementerade vi ANOVA och använde tomter för att visualisera resultaten. Det är dock lika viktigt att testa antagandena. Först validerar vi antagandet om normalitet.

Bilpaketet i R ger funktionen qqPlot (). Ovanstående plot visar att data faller inom 95% konfidenshölje. Detta indikerar att antagandet om normalitet nästan har uppfyllts.

Därefter validerar vi om varianterna mellan varumärkena är lika. För detta kommer vi att använda Bartlett's test

P-värdet visar att avvikelser i gruppen inte skiljer sig väsentligt

Sist men inte minst ska vi kontrollera om det finns några utskott som påverkar ANOVA-resultaten.

Från ovanstående resultat kan vi se att det inte finns någon indikation på outliers i data (NA uppstår när p> 1)

Med beaktande av resultaten från QQ Plot, Bartlett's test och Outlier-test, kan vi säga att data uppfyller alla antaganden om ANOVA och de erhållna resultaten är giltiga.

Slutsats - Envägs ANOVA i R

ANOVA är en mycket praktisk statistisk teknik som kan användas för att jämföra medel mellan flera populationer. R erbjuder ett omfattande paket för att implementera ANOVA, hämta resultat och validera antagandena. I R kan statistiska resultat tolkas i visuella former som ger djupare insikter.

Rekommenderade artiklar

Detta är en guide till Envägs ANOVA i R. Här diskuterar vi hur Envägs ANOVA fungerar och antagandena om analys av variation. Du kan också titta på följande artiklar för att lära dig mer -

  1. R Programmeringsspråk
  2. Regression vs ANOVA
  3. Hur man tolkar resultat med ANOVA-test
  4. GLM i R

Kategori: