K- betyder klusteralgoritm - Hur det fungerar - Analys och implementering

Introduktion till K- betyder klusteralgoritm?

K- betyder klustering tillhör den oövervakade inlärningsalgoritmen. Det används när data inte definieras i grupper eller kategorier, dvs omärkta data. Syftet med denna klusteralgoritm är att söka och hitta grupperna i data, där variabel K representerar antalet grupper.

Förstå K-betyder klusteralgoritm

Denna algoritm är en iterativ algoritm som delar upp datasatsen enligt deras funktioner i K-antal fördefinierade, icke överlappande distinkta kluster eller undergrupper. Det gör datapunkterna för mellankluster så lika som möjligt och försöker också hålla klusterna så långt som möjligt. Den fördelar datapunkterna till ett kluster om summan av det kvadratiska avståndet mellan klusterets centroid och datapunkterna är på ett minimum där klusterens centroid är det aritmetiska medelvärdet för datapunkterna som finns i klustret. En mindre variation i klustret resulterar i liknande eller homogena datapunkter i klustret.

Hur fungerar K-Clustering-algoritmen?

K- betyder Clustering Algoritm behöver följande insignaler:

K = antal undergrupper eller kluster
Prov- eller träningsuppsättning = (x ₁, x ₂, x ₃, ……… x _n )

Låt oss nu anta att vi har en datauppsättning som inte är märkt och vi måste dela upp den i kluster.

Nu måste vi hitta antalet kluster. Detta kan göras på två sätt:

Armbåge metod.
Syfte Metod.

Låt oss diskutera dem i korthet:

Armbåge metod

I denna metod dras en kurva mellan "inom summan av kvadrater" (WSS) och antalet kluster. Plottad kurva liknar en mänsklig arm. Det kallas armbågens metod eftersom punkten med armbågen i kurvan ger oss det optimala antalet kluster. I diagrammet eller kurvan, efter armbågens punkt, ändras värdet på WSS mycket långsamt så att armbåtspunkten måste beaktas för att ge det slutliga värdet på antalet kluster.

Syfte Baserad

I den här metoden delas uppgifterna utifrån olika mätvärden och därefter bedöms hur bra de fungerade för det fallet. Till exempel arrangeras skjortorna i herrekläderavdelningen i ett köpcentrum enligt kriterierna för storlekarna. Det kan göras på grundval av pris och märken också. Det bästa passande skulle väljas för att ge det optimala antalet kluster, dvs. värdet på K

Låt oss nu gå tillbaka till vår givna datauppsättning ovan. Vi kan beräkna antalet kluster, dvs. värdet på K genom att använda någon av ovanstående metoder.

Hur använder man ovanstående metoder?

Låt oss nu se exekveringsprocessen:

Steg 1: Initiering

Först bör du initialisera alla slumpmässiga punkter som kallas som klosterets centroider. När du initialiserar måste du se till att centroiderna i klustret måste vara mindre än antalet träningsdatapunkter. Denna algoritm är en iterativ algoritm, varför de nästa två stegen utförs iterativt.

Steg 2: Cluster Assignment

Efter initieringen passeras alla datapunkter och avståndet mellan alla centroider och datapunkterna beräknas. Nu skulle klusterna bildas beroende på minsta avstånd från centroiderna. I det här exemplet delas uppgifterna i två kluster.

Steg 3: Flytta Centroid

Eftersom klustren som bildas i ovanstående steg inte är optimerade så måste vi bilda optimerade kluster. För detta måste vi flytta centroiderna iterativt till en ny plats. Ta datapunkter för ett kluster, beräkna deras genomsnitt och flytta sedan centroiden för det klustret till den här nya platsen. Upprepa samma steg för alla andra kluster.

Steg 4: Optimering

Ovanstående två steg utförs iterativt tills centroiderna slutar röra sig, dvs de ändrar inte sina positioner längre och har blivit statiska. När detta är gjort benämns k-medel-algoritmen att konvergeras.

Steg 5: Konvergens

Nu har denna algoritm konvergerat och distinkta kluster bildas och tydligt synliga. Denna algoritm kan ge olika resultat beroende på hur klusteren initialiserades i det första steget.

Tillämpningar av K-Means Clustering Algoritm

Marknadssegmentering
Dokumentklustering
Bildsegmentering
Bildkomprimering
Vector kvantisering
Klusteranalys
Funktion lärande eller ordbok lärande
Identifiera kriminalitetsbenägna områden
Upptäckt av försäkringsbedrägerier
Analys av kollektivtrafik
Kluster av IT-tillgångar
Kundsegmentering
Identifiera canceruppgifter
Används i sökmotorer
Drogaktivitetsprognos

Fördelar med K-Means Clustering Algoritm

Det är snabbt
Robust
Lätt att förstå
Relativt effektiv
Om datauppsättningen är distinkt ger de bästa resultaten
Tillverk stramare kluster
När centroids beräknas förändras klustret.
Flexibel
Lätt att tolka
Bättre beräkningskostnader
Förbättrar noggrannheten
Fungerar bättre med sfäriska kluster

Nackdelar med K- betyder klusteralgoritm

Behöver föregående specifikation för antalet klustercentra
Om det finns två mycket överlappande data kan det inte skiljas och kan inte säga att det finns två kluster
Med olika representation av uppgifterna är de uppnådda resultaten också olika
Euklidiskt avstånd kan ojämnt väga faktorerna
Det ger den lokala optima för funktionen kvadratfel
Ibland kan valet av centroids slumpmässigt inte ge fruktbara resultat
Kan endast användas om betydelsen är definierad
Det går inte att hantera outliers och bullriga data
Arbeta inte för den icke-linjära datauppsättningen
Saknar konsistens
Känslig för skala
Om det uppstår mycket stora datauppsättningar kan datorn krascha.
Prognosfrågor

Rekommenderade artiklar

Detta har varit en guide till K-Means klusteralgoritm. Här diskuterade vi arbetet, applikationer, fördelar och nackdelar med K-Means klusteralgoritm. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -

Vad är nervnätverk?
Vad är dataanläggning? | Data Mining
Data Mining Interview Interview
Machine Learning vs Neural Network
Clustering in Machine Learning

K- betyder klusteralgoritm - Hur det fungerar - Analys och implementering

Innehållsförteckning:

Introduktion till K- betyder klusteralgoritm?

Förstå K-betyder klusteralgoritm

Hur fungerar K-Clustering-algoritmen?

Armbåge metod

Syfte Baserad

Hur använder man ovanstående metoder?

Steg 1: Initiering

Steg 2: Cluster Assignment

Steg 3: Flytta Centroid

Steg 4: Optimering

Steg 5: Konvergens

Tillämpningar av K-Means Clustering Algoritm

Fördelar med K-Means Clustering Algoritm

Nackdelar med K- betyder klusteralgoritm

Rekommenderade artiklar

Google Cloud vs AWS - Topp 15 skillnader ypu ska lära sig

Google Data Studio vs Tableau - Lär dig de 4 mest värdefulla skillnaderna

10 användbara steg för att använda Google Plus-sida för företag - eduCBA

GO-operatörer - Olika typer av operatörer som används i GO

Gå vs Java - känner till de 8 viktigaste skillnaderna

Marketing Manager - Karriär för att bli en framgångsrik marknadschef

10 steg för att få bra resultat från marknadsföring av Cloud Training - edu CBA

Marketing Mix - Typer eller kategorier tillsammans med 4P: s marknadsföringsmix

6 Viktig strategi för marknadsföringskommunikation - eduCBA

7 effektiva marknadsföringskoncept du måste känna till Nyckel

PHP-filter - Hur validerar man användarinmatning med olika filter? - exempel

PHP-formulär - Hur skapar jag form i PHP med syntax och exempel?

PHP Matematiska funktioner - Olika intervall för PHP-matematikfunktion med exempel

PHP OOP intervjufrågor - 10 användbara frågor du borde veta

PHP-heltal - Typer och förhandsexempel på PHP heltal