Introduktion till Scatterplot i R

  • R är ett öppet källkodsprogram som används för datastatistik och dataanalys. Med den ökande populariteten inom datavetenskap har R också vunnit popularitet. Det används huvudsakligen av datastatistiker och gruvbrytare för utvinning av värdefull information från data. R är ett tolkat språk och har ett kommandoradsgränssnitt men det finns många grafiska användargränssnitt tillgängliga för att underlätta utvecklarens jobb. R erbjuder ett stort utbud av bibliotek för implementering av statistik och grafiska tekniker. R erbjuder statisk grafik; det låter användaren bygga en skiktad graf. Således producerar det grafer för publiceringskvalitet och ger en bättre representation av information.
  • R erbjuder en enorm uppsättning bibliotek för grafisk implementering, men mest populärt är "ggplot2". GGPlot2 en implementering av "Grammar of graphics" som gör skapandet av komplexa diagram enkelt. Det tillhandahåller ett programmatiskt gränssnitt för att specificera variabler, deras position, grafens färg, diagramtyper och andra visualiseringsegenskaper. Det låter dig bygga diagram steg för steg, så att du kan skapa lager för omfattande flexibilitet och publiceringskvalitet.
  • En sådan typ av diagram är Scatterplot i R. Scatterplot i R, även kallad ett scatter-diagram, som är en typ av diagram som visar korrelationen mellan två variabler. Den visar datapunkterna i form av prickar. Det kan dras mellan en kontinuerlig oberoende variabel och en annan variabel som beror på den föregående variabeln eller två kontinuerliga oberoende variabler. Korrelation kan vara positiv, negativ eller noll. Om grafens lutning är från nedre vänster till övre högra är korrelationen positiv. Om lutningen är från övre vänster till nedre höger är korrelationen negativ eller med andra ord ökning i värdet på en variabel kommer att minska i värdet på en annan variabel.

Syntax: Det finns många paket i R för diagram, därför finns det många funktioner för att skapa en Scatterplot i R. Den mest grundläggande och enkla funktionen är

tomt (x, y)

var

x betecknar den horisontella axeln eller den oberoende kontinuerliga variabeln.

y betecknar den vertikala axeln eller den beroende variabeln.

Det finns många andra parametrar att plotta funktionen för att göra grafen lätt att förstå.

Nedan följer några med en definition:

  • main: lägger till en titel i diagrammet
  • xlab: lägg till en etikett till x-axeln
  • ylab: lägger till en etikett till y-axeln
  • xlim: anger x-axelns räckvidd
  • ylim: anger intervallet för y-axeln
  • pch: anger formen på punkter i scatter-plot
  • cex: anger storleken på poäng
  • col: definierar färg på punkter

En Scatterplot i R kan också skapas med ggplot2-paketet. För detta måste vi först installera och ladda ggplot2-paketet. Efter att paketet har lagt till den aktuella sessionen nedan kan kommandot användas för att skapa en Scatterplot i R.

ggplot (dataset, aes (x, y, färg, form)) + geom_poin () + labb (x, y, titel)

var

  • datasättet är det datasæt för vilket scatterplot måste skapas.
  • aes () är estetisk kartläggning i en graf. Den beskriver hur variabler mappas på diagrammet.
  • x är den horisontella axeln eller den oberoende kontinuerliga variabeln.
  • y är den vertikala axeln eller den beroende variabeln.
  • färg är att lägga till färg till poäng baserat på gruppvariabel.
  • formen används för att ställa in form baserad på gruppvariabel.
  • + -tecknet indikerar att kommandot fortsätter.
  • geom_point () är funktion för scatter-plot.
  • labb (x, y, titel): lägg till x-etikett, y-etikett och titel i diagrammet.

Skapa Scatterplot i R

För att skapa en Scatterplot i R, måste vi först ladda dataset. Här använder vi dataset (mtcars) som tillhandahålls av R. Ladda först datasatsen i den aktuella sessionen med kommandot nedan

data (iris)

När datasatsen laddats kan du se data för att få en grundläggande förståelse för typen av data och kolumner i den med hjälp av kommandot nedan.

iris

Efter att ha fått en grundläggande förståelse av data, låter vi skapa en enkel spridningsdiagram med hjälp av plotfunktion

plot (iris $ Sepal. Längd, iris $ Sepal. Bredd, xlim = c (4, 0, 9, 0), ylim = c (2, 0, 5, 0))

Lägga till etiketter för att göra grafen läsbar

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = “Sepal Length”, ylab = “Sepal Width”, main = “Width vs längd ”)

Lägga till lite mer parameter för att göra grafen mer attraktiv

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = “Sepal Length”, ylab = “Sepal Width”, main = “Width vs längd ”, pch = 8, cex = 1, 5, col = 6)

Bortsett från dessa 2-D-tomter kan matrisplott och 3D-tomter också skapas i R.

Scatterplot-matriser

När vi har mer än två variabler i ett datasæt och vi vill hitta en korrelation mellan varje variabel med alla andra variabler, används spridplotmatrisen. Det mest grundläggande och enkla kommandot för scatterplot-matris är:

par (~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = iris, main = ”Scatterplot Matrix”)

Ovanstående graf visar sambandet mellan vikt, mpg, dsp och cyl.

Scatterplot 3D

Ibland ger en tredimensionell graf en bättre förståelse av data. För denna R tillhandahåller flera paket, ett av dem är "scatterplot3d". Nedan finns kommandona för att installera “scatterplot3d” i R-arbetsytan och ladda det i den aktuella sessionen

install.packages ( ”scatterplot3d”)

bibliotek (scatterplot3d)

Efter laddning av biblioteket kommer exekveringen av kommandona nedan att skapa en 3D-spridningsdiagram.

bifoga (iris)

scatterplot3d (Sepal.Length, Sepal.Width, Petal.Length, main = “3D Scatterplot”)

Bortsett från detta finns det många andra sätt att skapa en 3-dimensionell. Användare kan också lägga till detaljer som färg, titlar för att göra grafen bättre. Användaren kan också skapa interaktiv 3D-spridplot genom att använda funktionen “plot3D (x, y, z)” som tillhandahålls av “rgl” -paketet. Denna funktion skapar en snurrande 3D-spridningsdiagram som kan roteras med en mus. Således ger en fullständig bild av sambandet mellan variablerna.

Slutsats

R är ett av de mest kända språken för implementering av grafiska tekniker som används av datavetare. Det ger ett brett utbud av paket och bibliotek för grafik och en bättre förståelse av data. "Gglpot2", "ggvis", "rgl", "plot3d", "gitter", "animation", "gganimate", "cairo" är några av paketen som tillhandahålls av R.

En spridningsdiagram är det enklaste sättet att få en bättre förståelse av data. Med denna visualisering kan användaren lära känna hur variabler är relaterade till varandra, hur ändra värde på en variabel kommer att förändra värdet på andra variabler etc. Lutningen i diagrammet berättar om det positiva och negativa förhållandet mellan variablerna.

Rekommenderade artiklar

Detta är en guide till Scatterplot i R. Här diskuterar vi en introduktion, scatterplot-matriser, scatterplot 3D, hur man skapar scatterplot? tillsammans med lämpliga exempel. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

  1. Vad är GraphQL
  2. Scrum Framework
  3. R intervjufrågor
  4. Introduktion till Binomial distribution i R

Kategori: