Introduktion till K- betyder klusteralgoritm?

K- betyder klustering tillhör den oövervakade inlärningsalgoritmen. Det används när data inte definieras i grupper eller kategorier, dvs omärkta data. Syftet med denna klusteralgoritm är att söka och hitta grupperna i data, där variabel K representerar antalet grupper.

Förstå K-betyder klusteralgoritm

Denna algoritm är en iterativ algoritm som delar upp datasatsen enligt deras funktioner i K-antal fördefinierade, icke överlappande distinkta kluster eller undergrupper. Det gör datapunkterna för mellankluster så lika som möjligt och försöker också hålla klusterna så långt som möjligt. Den fördelar datapunkterna till ett kluster om summan av det kvadratiska avståndet mellan klusterets centroid och datapunkterna är på ett minimum där klusterens centroid är det aritmetiska medelvärdet för datapunkterna som finns i klustret. En mindre variation i klustret resulterar i liknande eller homogena datapunkter i klustret.

Hur fungerar K-Clustering-algoritmen?

K- betyder Clustering Algoritm behöver följande insignaler:

  • K = antal undergrupper eller kluster
  • Prov- eller träningsuppsättning = (x 1, x 2, x 3, ……… x n )

Låt oss nu anta att vi har en datauppsättning som inte är märkt och vi måste dela upp den i kluster.

Nu måste vi hitta antalet kluster. Detta kan göras på två sätt:

  • Armbåge metod.
  • Syfte Metod.

Låt oss diskutera dem i korthet:

Armbåge metod

I denna metod dras en kurva mellan "inom summan av kvadrater" (WSS) och antalet kluster. Plottad kurva liknar en mänsklig arm. Det kallas armbågens metod eftersom punkten med armbågen i kurvan ger oss det optimala antalet kluster. I diagrammet eller kurvan, efter armbågens punkt, ändras värdet på WSS mycket långsamt så att armbåtspunkten måste beaktas för att ge det slutliga värdet på antalet kluster.

Syfte Baserad

I den här metoden delas uppgifterna utifrån olika mätvärden och därefter bedöms hur bra de fungerade för det fallet. Till exempel arrangeras skjortorna i herrekläderavdelningen i ett köpcentrum enligt kriterierna för storlekarna. Det kan göras på grundval av pris och märken också. Det bästa passande skulle väljas för att ge det optimala antalet kluster, dvs. värdet på K

Låt oss nu gå tillbaka till vår givna datauppsättning ovan. Vi kan beräkna antalet kluster, dvs. värdet på K genom att använda någon av ovanstående metoder.

Hur använder man ovanstående metoder?

Låt oss nu se exekveringsprocessen:

Steg 1: Initiering

Först bör du initialisera alla slumpmässiga punkter som kallas som klosterets centroider. När du initialiserar måste du se till att centroiderna i klustret måste vara mindre än antalet träningsdatapunkter. Denna algoritm är en iterativ algoritm, varför de nästa två stegen utförs iterativt.

Steg 2: Cluster Assignment

Efter initieringen passeras alla datapunkter och avståndet mellan alla centroider och datapunkterna beräknas. Nu skulle klusterna bildas beroende på minsta avstånd från centroiderna. I det här exemplet delas uppgifterna i två kluster.

Steg 3: Flytta Centroid

Eftersom klustren som bildas i ovanstående steg inte är optimerade så måste vi bilda optimerade kluster. För detta måste vi flytta centroiderna iterativt till en ny plats. Ta datapunkter för ett kluster, beräkna deras genomsnitt och flytta sedan centroiden för det klustret till den här nya platsen. Upprepa samma steg för alla andra kluster.

Steg 4: Optimering

Ovanstående två steg utförs iterativt tills centroiderna slutar röra sig, dvs de ändrar inte sina positioner längre och har blivit statiska. När detta är gjort benämns k-medel-algoritmen att konvergeras.

Steg 5: Konvergens

Nu har denna algoritm konvergerat och distinkta kluster bildas och tydligt synliga. Denna algoritm kan ge olika resultat beroende på hur klusteren initialiserades i det första steget.

Tillämpningar av K-Means Clustering Algoritm

  • Marknadssegmentering
  • Dokumentklustering
  • Bildsegmentering
  • Bildkomprimering
  • Vector kvantisering
  • Klusteranalys
  • Funktion lärande eller ordbok lärande
  • Identifiera kriminalitetsbenägna områden
  • Upptäckt av försäkringsbedrägerier
  • Analys av kollektivtrafik
  • Kluster av IT-tillgångar
  • Kundsegmentering
  • Identifiera canceruppgifter
  • Används i sökmotorer
  • Drogaktivitetsprognos

Fördelar med K-Means Clustering Algoritm

  • Det är snabbt
  • Robust
  • Lätt att förstå
  • Relativt effektiv
  • Om datauppsättningen är distinkt ger de bästa resultaten
  • Tillverk stramare kluster
  • När centroids beräknas förändras klustret.
  • Flexibel
  • Lätt att tolka
  • Bättre beräkningskostnader
  • Förbättrar noggrannheten
  • Fungerar bättre med sfäriska kluster

Nackdelar med K- betyder klusteralgoritm

  • Behöver föregående specifikation för antalet klustercentra
  • Om det finns två mycket överlappande data kan det inte skiljas och kan inte säga att det finns två kluster
  • Med olika representation av uppgifterna är de uppnådda resultaten också olika
  • Euklidiskt avstånd kan ojämnt väga faktorerna
  • Det ger den lokala optima för funktionen kvadratfel
  • Ibland kan valet av centroids slumpmässigt inte ge fruktbara resultat
  • Kan endast användas om betydelsen är definierad
  • Det går inte att hantera outliers och bullriga data
  • Arbeta inte för den icke-linjära datauppsättningen
  • Saknar konsistens
  • Känslig för skala
  • Om det uppstår mycket stora datauppsättningar kan datorn krascha.
  • Prognosfrågor

Rekommenderade artiklar

Detta har varit en guide till K-Means klusteralgoritm. Här diskuterade vi arbetet, applikationer, fördelar och nackdelar med K-Means klusteralgoritm. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

  1. Vad är nervnätverk?
  2. Vad är dataanläggning? | Data Mining
  3. Data Mining Interview Interview
  4. Machine Learning vs Neural Network
  5. Clustering in Machine Learning

Kategori: