Grafer i R - Typer av grafer i R & exempel med implementering

Innehållsförteckning:

Anonim

Introduktion till grafer i R

En graf är ett verktyg som gör en väsentlig skillnad för analysen. Grafer i sällsynta viktiga eftersom de hjälper till att presentera resultat på det mest interaktiva sättet. R, som ett statistiskt programmeringspaket, erbjuder omfattande alternativ för att generera en mängd grafer.

Vissa av graferna i R är tillgängliga i basinstallationen, men andra kan användas genom att installera nödvändiga paket. Det unika med graf i R är att de förklarar intrikata statistiska fynd genom visualiseringar. Så i huvudsak är det som att flytta ett steg över det traditionella sättet att visualisera data. R erbjuder således en out-of-the-box metod för att driva analys.

Typer av grafer i R

En mängd grafer finns i R, och användningen styrs endast av sammanhanget. Undersökande analys kräver dock användning av vissa grafer i R, som måste användas för att analysera data. Vi ska nu undersöka några av sådana viktiga grafer i R.

För demonstrationen av olika diagram kommer vi att använda "träd" -datasättet som finns tillgängligt i basinstallationen. Mer information om dataset kan upptäckas med? träd kommanderar i R.

1. Histogram

Ett histogram är ett grafiskt verktyg som fungerar på en enda variabel. Många variabla värden grupperas i fack och ett antal värden benämns som frekvens beräknas. Denna beräkning används sedan för att plotta frekvensfält i respektive bönor. En barns höjd representeras av frekvens.

I R kan vi använda hist () -funktionen som visas nedan för att generera histogrammet. Nedan visas ett enkelt histogram över trädhöjder.

Koda:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Produktion:

För att förstå trenden med frekvens kan vi lägga till en täthetsplott över histogrammet ovan. Detta ger mer inblick i datadistribution, skevhet, kurtos osv. Följande kod gör detta och utdata visas efter koden.

Koda:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Produktion:

2. Scatterplot

Denna plot är en enkel karttyp, men mycket avgörande med enorm betydelse. Diagrammet ger idén om en korrelation mellan variabler och är ett praktiskt verktyg i en undersökande analys.

Följande kod genererar ett enkelt Scatterplot-diagram. Vi har lagt till en trendlinje, för att förstå trenden representerar uppgifterna.

Koda:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Produktion:

Diagrammet skapat med följande kod visar att det finns en god korrelation mellan trädomgången och trädvolymen.

Koda:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Produktion:

Scatterplot-matriser

R tillåter oss att jämföra flera variabler åt gången på grund av att de använder spridplotmatriser. Implementeringen av visualiseringen är ganska enkel och kan uppnås med par () -funktion som visas nedan.

Koda:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Produktion:

scatterplot3d

De möjliggör visualisering i tre dimensioner som kan hjälpa till att förstå förhållandet mellan flera variabler. Så för att göra scatterplots tillgängliga i 3d måste för det första scatterplot3d-paketet installeras. Så, följande kod genererar en 3d-graf som visas nedanför koden.

Koda:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Produktion:

Vi kan lägga till dropplinjer och färger med koden nedan. Nu kan vi bekvämt skilja mellan olika variabler.

Koda:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Produktion:

3. Boxplot

Boxplot är ett sätt att visualisera data genom rutor och whiskers. Först sorteras variabla värden i stigande ordning och sedan delas uppgifterna i kvartal.

Rutan i tomten är de mittersta 50% av uppgifterna, känd som IQR. Den svarta linjen i rutan representerar medianen.

Koda:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Produktion:

En variant av lådan med skåror är som visas nedan.

Koda:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Produktion:

4. Raddiagram

Linjediagram är användbara vid jämförelse av flera variabler. De hjälper oss förhållandet mellan flera variabler i en enda plot. I följande illustration kommer vi att försöka förstå trenden med tre trädfunktioner. Så, som visas i nedanstående kod, inledningsvis och linjediagrammet för girta är ritat med hjälp av funktionen plot (). Sedan plottas linjediagram för höjd och volym på samma plot med funktionen linjer ().

"Ylim" -parametern i plot () -funktionen har varit, för att rymma alla tre linjediagram korrekt. Att ha legenden är viktigt här, eftersom det hjälper till att förstå vilken linje som representerar vilken variabel. I legenden betyder "lty = 1: 1" -parameter att vi har samma radtyp för alla variabler, och "cex" representerar storleken på punkterna.

Koda:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Produktion:

5. Dot plot

Detta visualiseringsverktyg är användbart om vi vill jämföra flera kategorier mot en viss åtgärd. För illustrationen nedan har mtcars-datasatsen använts. Funktionen dotchart () visar förskjutning för olika bilmodeller enligt nedan.

Koda:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Produktion:

Så nu kommer vi att sortera datasatsen på förskjutningsvärden och sedan plotta dem med olika växlar med hjälp av dotchart () -funktionen.

Koda:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Produktion:

Slutsats

Analytics i verklig mening utnyttjas endast genom visualiseringar. R, som ett statistiskt verktyg, erbjuder starka visualiseringsfunktioner. Så de många alternativen som är associerade med diagram är det som gör dem speciella. Varje diagram har sin egen applikation och diagrammet bör studeras innan det tillämpas på ett problem.

Rekommenderade artiklar

Detta är en guide till grafer i R. Här diskuterar vi introduktionen och typerna av grafer i R, såsom histogram, spridplott, boxdiagram och mycket mer tillsammans med exempel och implementering. Du kan också titta på följande artiklar för att lära dig mer -

  1. R Datatyper
  2. R-paket
  3. Introduktion till Matlab
  4. Grafer vs diagram