Introduktion till KNN-algoritm i R

I KNN-algoritmen i R står KNN för K närmaste grannalgoritm och R är ett programmeringsspråk. Det sägs vara den enklaste av maskininlärningsalgoritmen. KNN är en övervakad algoritm som klassificerar datapunkter i en målklass genom att jämföra funktioner med sin närmaste granne.

Exempel: Låt oss anta att du vill klassificera en pekskärm och en knappsatsstelefon. Det finns olika faktorer som innebär att differentiera båda telefonerna. Men faktorn som skiljer båda telefonerna är knappsatsen. Så när vi får en datapunkt (dvs. telefon). Vi jämför det med liknande funktioner i granndatapunkterna för att klassificera det som en knappsats eller en touchtelefon.

Funktioner i KNN Algoritm

Här kommer vi att studera funktionerna i KNN-algoritmen:

  • KNN-algoritmen använder inmatningsdata för att förutsäga utgångsuppsättning datapunkter.
  • Algoritmen kan tillämpas på olika uppsättningar problem.
  • Fokuserar på funktionens likhet för att klassificera data.
  • KNN-algoritmen hanterar realistiska data och gör inga antaganden om datapunkterna.
  • KNN memorerar träningsdatauppsättningen snarare än att vara intuitiv. Kan också sägas att det har en lat inställning.
  • Det kan lösa klassificerings- och regressionsproblem.

Att ta itu med problem i KNN-algoritmen i R

Följande adressproblem:

1. Klassificeringsproblem

I klassificeringsproblemet är värdena diskreta precis som om du gillar att äta pizza med pålägg eller utan. Det finns gemensam grund. KNN Algoritm hjälper till att lösa ett sådant problem.

2. Regressionsproblem

Regressionsproblemet kommer in i bilden när vi har en beroende variabel och en oberoende variabel. Ex: BMI-index. Vanligtvis innehåller varje rad en observation eller datapunkt och ett exempel.

KNN-algoritmen i R

Låt oss titta på stegen i algoritmen som ska följas:

Steg 1: Ladda inmatningsdata.

Steg 2: Initiera K med antalet närmaste grannar.

Steg 3: Beräkna data (dvs. avståndet mellan nuvarande och närmaste granne)

Steg 4: Lägga till avståndet till den nuvarande beställda datamängden.

Steg 5: Plocka upp K-poster och märka dem.

Steg 6: Returnera medelvärdet för regressionsproblemet.

Steg 7: Återgå lägesvärdet för klassificeringsproblem.

Pekar att komma ihåg när du implementerar KNN-algoritmen

  • Vi bör se till att K-värdet är större än ett, det hindrar i förutsägelse att vara korrekt.
  • Ju mer K-värdet är, desto mer exakt kan förutsägelsen bero på majoriteten.
  • Det är att föredra att ha K som ett udda nummer. Annars kan det leda till en slipsbrytare.

KNN Pseudocode

I formeln nedan, representerar variabler och representerar datapunkter där (i = 1, 2, 3 ….)

Set(, )

Använd fall

Följande är användningsfallen i KNN-algoritmen i R:

1. Jämför produkter och hjälpa till i shoppingrekommendationer

När vi köper en bärbar dator eller dator från en e-handelswebbplats online ser vi också shoppingrekommendationer som att köpa antivirusprogram eller högtalare. Allt detta beror på att när en tidigare kund köper en bärbar dator köps den mest tillsammans med antivirus eller högtalare. Maskininlärning hjälper till i rekommendationerna om e-handel.

2. Matrekommendationer

Maskininlärning hjälper också till i rekommendationer baserade på tidigare beställd mat och föreslår också restauranger i enlighet därmed.

Exempel på KNN-algoritmen

Följande är exempel på KNN-algoritmen:

1. Importera data

Låt oss ta dummidata om oss som förutsäger t-shirtstorleken på en kille med hjälp av höjd och vikt.

Höjd (cms) Vikt (kg) Storlek
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Hitta likheterna genom att beräkna avstånd

Vi kan använda både Manhattan och Euclidean avstånd eftersom uppgifterna är kontinuerliga. Vi beräknar avståndet mellan det nya provet och träningsdatauppsättningen och hittar sedan K-närmaste.

Exempel: Låt oss säga "Raj" har en höjd av 165 cm och väger 63 kg. Vi beräknar euklidiskt avstånd genom att använda den första observationen med det nya provet: SQRT ((165-140) 2 + (63-58) 2)

3. Hitta K-närmaste grannar

Låt oss anta att K = 4, det finns fyra kunder där 3 av dem hade medelstorlek och 1 var storstorlek. Den bästa förutsägelsen är medelstora passar Raj.

Skillnaden mellan KNN och K-mean

Följande är skillnaden:

  • KNN är en övervakad algoritm (beroende variabel) medan K-medel är en oövervakad algoritm (ingen beroende variabel).
  • K-medel använder en klusteringsteknik för att dela datapunkter som bildar K-kluster. KNN använder K-närmaste grannar för att klassificera datapunkter och kombinera dem.

Fördelar och nackdelar med KNN

Följande är fördelarna:

  • KNN-algoritmen är mångsidig, kan användas för klassificerings- och regressionsproblem.
  • Inget behov av en tidigare modell för att bygga KNN-algoritmen.
  • Enkelt och enkelt att implementera.

Följande är nackdelarna:

  • Algoritmen när antalet prover ökar (dvs. inget av variabler)

Rekommenderade artiklar

Detta är en guide till KNN-algoritm i R. Här diskuterar vi funktioner, exempel, pseudokod, steg som ska följas i KNN-algoritmen. Du kan också gå igenom våra andra relaterade artiklar för att lära dig mer-

  1. Data Science Algoritms
  2. Vad är genetisk algoritm?
  3. Routingalgoritmer
  4. Neurala nätverksalgoritmer
  5. C ++ algoritm | Exempel på C ++ -algoritm

Kategori: