Introduktion till dataramar i R
En dataram är en 2D (tvådimensionell) matrisliknande struktur där olika datatyper som tecken, numeriska, etc accepteras. Dataramen är en delmängd av en lista som har varje komponent av samma längd. I princip är dataramen en tabell där varje kolumn innehåller värden på en variabel och varje rad innehåller en uppsättning värden från varje kolumn.
Det finns några egenskaper hos dataramen.
- Kolumnnamnet krävs
- Radnamn bör vara unika
- Antalet objekt i varje kolumn ska vara detsamma
Steg för att skapa dataramar i R
Låt oss börja med att skapa en dataram som förklaras nedan,
Steg 1: Skapa en dataram av en klass i en skola.
Koda:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
När vi kör denna kod kommer vi att få en dataram som den här.
Produktion:
Här i vårt exempel är dataramen mycket liten, men i verkligheten har vi massor av data när vi hanterar problemet. Så för att förstå strukturen för data överför vi funktionen Str ().
Steg 2: Vi lägger till raden nedan i vår kod.
Koda:
Str(tenthclass)
När vi kör hela koden får vi utdata.
Produktion:
Ovanstående utgång betyder att vi har 5 observationer av 3 variabler. Sedan förklarar den datatypen för varje variabel. Som i vårt exempel är rullnumret ett heltal, namnet är tecken och märken är numrerade.
När vi har förstått datorns struktur kommer vi att skicka nedanstående kod för att förstå data mer statistiskt.
Steg 3: Nu använder vi en sammanfattning () -funktion
Koda:
summary(tenthclass)
Produktion:
Sammanfattningen ger en bättre förståelse av våra uppgifter. Det kommer att säga oss att betyda, median, kvartil, Max och Min. Dessa saker hjälper oss att fatta ett bättre beslut.
Hur extraherar jag data från dataramar i R?
Här kommer vi att fortsätta ovanstående fall. Låt oss anta att vi vill veta namnet på eleven i klass tionde, bara namn. Så hur kommer vi att extrahera?
Vår dataram ser ut så här.
roll_nummer Namnmärken
1 1 John 77
2 2 Sam 87
3 3 Casey 45
4 4 Ronald 68
5 5 Mathew 95
För att bara få namnet som en utgång kommer vi att skicka följande kod.
Koda:
onlyname = tenthclass$Name
print(onlyname)
Produktion:
Om vi bryter koden lägger vi bara dollartecknet mellan namnet på vår dataram och namnet på den variabel som vi vill ha som utgång.
Tänk nu på en situation, läraren vill veta allt om rull nummer 2 som vad han heter och hur mycket han fick.
Här behöver vi allt om rulle nummer 2 så vi kommer att vidarebefordra den nedan nämnda koden.
Koda:
result_rollnumber2 = tenthclass(c(2), c(1:3)) print(result_rollnumber2)
Produktion:
Expandera i dataramar
Dataramen kan ökas och minska i storlek genom att lägga till eller ta bort kolumner och rader.
1. Lägg till rad
Vi har två dataramar. En dataram tillhör klass tionde avsnitt A och annan dataram tillhör klass tionde avsnitt B. Nu sammanfogas dessa olika sektioner till en enda klass.
Exempel 1: Klass 10 A
Koda:
tenthclass_sectionA = data.frame(roll_number = c(1:5),
Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass_sectionA)
Produktion:
Exempel 2: Klass 10 B
Koda:
tenthclass_sectionB = data.frame(roll_number = c(6:10), Name = c("Ria", "Justin", "Bon", "Tim", "joe"),
Marks = c(68, 98, 54, 68, 42), stringsAsFactors = FALSE)
print(tenthclass_sectionB)
Produktion:
Exempel 3: funktionen rbind ()
Nu måste vi slå samman båda klasserna till en enda klass. Vi kommer att använda rbind () -funktionen här. Den enda begränsningen för att lägga till en ny rad är att vi måste ta in de nya raderna i samma struktur som den befintliga dataramen.
Koda:
new_tenthclass = rbind(tenthclass_sectionA, tenthclass_sectionB)
print(new_tenthclass)
Produktion:
2. Lägg till kolumn
Överväg nu ett fall där vi måste lägga till blodgruppsinformation för varje elev i klass 10. Vi kommer att lägga till en ny kolumn för den och namnge den som "Blood_group".
Vår dataram ser ut så här.
Koda:
tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)
Produktion:
Koda:
tenthclass$Blood_group = c("O", "AB", "B+", "A+", "AB")
print(tenthclass)
Produktion:
Radera rad och kolumn från dataram
För att radera rad och kolumn från dataramen använder vi följande kodimplementering.
1. Radera kolumn
Koda:
print(tenthclass)
Produktion:
Om vi måste ta bort blodgruppsvariabeln (kolumnen längst till höger) i denna dataram passerar vi nedanstående kod.
Koda:
tenthclass$Blood_group = NULL
print(tenthclass)
Produktion:
Genom att kringgå NULL-kommandot kan vi direkt ta bort variabeln från vår dataram.
2. Radera rad
Koda:
print(tenthclass)
Produktion:
Tänk nu på en situation där vi inte behöver märken av John, så vi måste ta bort den översta raden.
Koda:
tenthclass = tenthclass(-1, ) print(tenthclass)
Produktion:
Uppdatera data i dataram
Koda:
print(tenthclass)
Produktion:
Låt oss anta att Sam fick 98 poäng men enligt våra datarammärken är 87. Så vi kan skicka nedanstående kod för att rätta till det.
Koda:
tenthclass$Marks(2) = 98
print(tenthclass)
Produktion:
Slutsats
Dataramar är en mycket vanlig form av problemmeddelandet. Det är en lista över variabeln med samma antal rader med unika rad-ID. Den här artikeln hjälper oss att veta hur vi kan lägga till en rad, lägga till en kolumn, ta bort en rad, ta bort en kolumn i dataramen och också den berättar hur vi kan uppdatera data i dataramen.
Rekommenderade artiklar
Detta är en guide till dataramar i R. Här diskuterar vi de olika stegen för att skapa dataramar och hur man extraherar data från dataramar i R. Du kan också titta på följande artiklar för att lära dig mer-
- Topp 5 datatyper i R
- Lista över användbara R-paket
- R CSV-filer
- R-programfunktioner - Viktighet
- Faktor i R med fördelar