Introduktion till klustermetoder
Den här artikeln presenterar en översikt över olika klusteringsmetoder som används i datakommunikationstekniker med olika principer. Clustering är en uppsättning dataobjekt organiserade i en annan logisk gruppering. Gruppera liknande dataobjekt och tilldela liknande dataobjekt i enskilda kluster. Klustering utförs i stora datauppsättningar för undervisning utan tillsyn. Under detta utför vi partitioner på uppsättningen av data i grupper. Strukturen för klustering representeras enligt följande med delmängder. C = c1, c2 … c n . Eftersom klustergrupper har liknande objekt måste vissa åtgärder vidtas i klusteringsmetoder för att bestämma avstånd och likhetsmått. Klusteringsmetoder är baserade på probabilistiska modeller. Data mining kräver gruppering för skalbarhet för att hantera höga databaser, hantera flerdimensionellt utrymme, för att hantera felaktiga data och brus.
Förklara klustermetoder?
Denna klusteringsmetod hjälper till att gruppera värdefull data i kluster och därifrån väljer lämpliga resultat baserat på olika tekniker. Exempel, vid informationshämtning grupperas resultaten av frågan i små kluster, och varje kluster har irrelevanta resultat. Genom klusteringstekniker grupperas de i liknande kategorier och varje kategori är indelad i underkategorier för att hjälpa till med utforskningen av frågeställningar. Det finns olika typer av klusteringsmetoder, de är
- Hierarkiska metoder
- Partitionsmetoder
- Densitet-baserade
- Modellbaserad klustering
- Rasterbaserad modell
Följande är en översikt över tekniker som används vid datahantering och artificiell intelligens.
1. Hierarkisk metod
Denna metod skapar ett kluster genom att partitionera antingen uppifrån och ner och ner och upp. Båda dessa tillvägagångssätt producerar dendrogram de skapar anslutning mellan dem. Dendrogrammet är ett trädliknande format som håller sekvensen för sammanslagna kluster. Hierarkiska metoder produceras flera partitioner med avseende på likhetsnivåer. De är indelade i Agglomerativ hierarkisk gruppering och delande hierarkisk gruppering. Här skapas ett klusterträd med hjälp av sammanslagningstekniker. För uppdelningsprocess används delande, sammanslagning använder agglomerativ. Agglomerativ kluster involverar:
- Ursprungligen tar alla datapunkter och betraktar dem som enskilda kluster från början uppifrån och ner. Dessa kluster slås samman tills vi erhållit de önskade resultaten.
- De nästa två liknande klusteren grupperas tillsammans för att bilda ett enormt enda kluster.
- Återigen beräknar närhet i det enorma klustret och slå samman de liknande klustren.
- Det sista steget involverar sammanslagning av alla utbytade kluster vid varje steg för att bilda ett slutligt enda kluster.
2. Partitionsmetod:
Det huvudsakliga målet med partitionen är omlokalisering. De flyttar partitioner genom att växla från ett kluster till ett annat vilket gör en initial partitionering. Den delar upp 'n' dataobjekt i 'k' antal kluster. Denna delningsmetod föredras mer än en hierarkisk modell för mönsterigenkänning. Följande kriterier är inställda för att uppfylla teknikerna:
- Varje kluster bör ha ett objekt.
- Varje dataobjekt tillhör ett enda kluster.
De mest använda partitionsteknikerna är K-medelalgoritmen. De delar upp i "K" -kluster representerade av centroids. Varje klustercentrum beräknas som ett medelvärde för det klustret och R-funktionen visualiserar resultatet. Denna algoritm har följande steg:
- Att välja K-objekt slumpmässigt från datauppsättningen och bildar de initiala centren (centroids)
- Nästa tilldelning av euklidiskt avstånd mellan föremålen och medelcentret.
- Tilldela ett medelvärde för varje enskilt kluster.
- Centroid-uppdateringssteg för varje k-kluster.
3. Densitetsmodell:
I denna modell definieras kluster genom att lokalisera områden med högre densitet i ett kluster. Huvudprincipen bakom dem är att koncentrera sig på två parametrar: maxradie för grannskapet och min antal poäng. Den täthetsbaserade modellen identifierar kluster av olika former och brus. Det fungerar genom att upptäcka mönster genom att uppskatta den rumsliga platsen och avståndet till grannens metod som används här är DBSCAN (Density-based spatial clustering) som ger händer för stora rumsliga databaser. Använda tre datapunkter för kluster, nämligen kärnpunkter, gränspunkter och outliers. Det primära målet är att identifiera klustren och deras distributionsparametrar. Klusterprocessen stoppas med behovet av densitetsparametrar. För att hitta klustren är det viktigt att ha en parameter Minsta funktioner per kluster vid beräkning av kärnavstånd. De tre olika verktygen som tillhandahålls av denna modell är DBSCAN, HDBSCAN, Multi-skala.
4. Modellbaserad kluster
Denna modell kombinerar två eller tre kluster tillsammans från datadistributionen. Den grundläggande idén bakom denna modell är att det är nödvändigt att dela upp data i två grupper baserat på sannolikhetsmodellen (Multivariate normal distribution). Här tilldelas varje grupp som begrepp eller klass. Varje komponent definieras av en densitetsfunktion. För att hitta parametern i den här modellen används uppskattning av maximalt likviditet för montering av blandningsfördelningen. Varje kluster "K" modelleras av Gauss-distribution med tvåparameter-ick-medelvektor och £ k- samvariationvektor.
5. Rasterbaserad modell
I detta tillvägagångssätt anses objekten vara ett rymdrivet genom att dela utrymmet i ett begränsat antal celler för att bilda ett rutnät. Med hjälp av rutnätet används klusteringstekniken för snabbare bearbetning, som vanligtvis är beroende av celler som inte är föremål. Steg som är inblandade är:
- Skapande av nätstruktur
- Celldensitet beräknas för varje cell
- Tillämpa en sorteringsmekanism på deras tätheter.
- Söker klustercentra och går igenom grannceller för att upprepa processen.
Betydelsen av klustermetoder
- Att ha klustermetoder hjälper till att starta om den lokala sökproceduren och ta bort ineffektiviteten. Clustering hjälper till att bestämma datorns interna struktur.
- Denna klusteranalys har använts för modellanalys, vektorregistration för attraktion.
- Clustering hjälper dig att förstå den naturliga grupperingen i en datasats. Deras syfte är att vara vettigt att dela upp informationen i någon grupp logiska grupper.
- Klusterkvalitet beror på metoderna och för att identifiera dolda mönster.
- De spelar en bred roll i applikationer som marknadsföringsekonomisk forskning, bloggar för att identifiera mönster i likhetsåtgärder, bildbearbetning, rumslig forskning.
- De används i tidigare upptäckter för att upptäcka bedrägerier med kreditkort.
Slutsats
Kluster anses vara en allmän uppgift att lösa problemet som formulerar optimeringsproblem. Det spelar nyckelvikt inom området för datakommunikation och dataanalys. Vi har sett olika klustermetoder som delar upp datauppsättningen beror på kraven. Merparten av forskningen bygger på traditionella tekniker som K-medel och hierarkiska modeller. Klusterområden tillämpas i högdimensionella tillstånd som utgör en framtida räckvidd för forskare.
Rekommenderad artikel
Detta har varit en guide till Clustering Methods. Här diskuterade vi begreppet, vikten och teknikerna för Clustering Methods. Du kan också gå igenom våra andra föreslagna artiklar för att lära dig mer -
- Vad är ETL?
- Vad är datavetenskap
- Vad är Teradata?
- Topp 6 AWS-alternativ
- Clustering in Machine Learning
- Multivariat regression
- Hierarkisk klustering Agglomerativ & delande kluster