Vad är klusteranalys
Klusteranalys grupperar data baserat på de egenskaper de har. Klusteranalys grupperar objekt baserade på faktorer som gör dem liknande. Klusteranalys kallas annars Segmenteringsanalys eller taxonomi-analys. Klusteranalysen skiljer inte beroende och oberoende variabler. Klusteranalys används inom en mängd olika områden som psykologi, biologi, statistik, data mining, mönsterigenkänning och annan samhällsvetenskap.
Målet med klusteranalys
Det huvudsakliga klusteranalysmålet är att ta itu med heterogeniteten i varje uppsättning data. De andra målen för klusteranalys är
- Beskrivning av taxonomi - Identifiera grupper inom data
- Förenkling av data - Förmågan att analysera grupper av liknande observationer istället för all individuell observation
- Hypotesgenerering eller -testning - Utveckla hypotes utifrån datatypen eller testa den tidigare angivna hypotesen
- Relationsidentifiering - Den förenklade strukturen från klusteranalys som beskriver relationerna
Det finns två huvudsakliga syften med klusteranalys - Förståelse och användbarhet.
Under förståelsens omständigheter grupperar gruppanalys objekt som delar några gemensamma egenskaper
I syftet med Utility tillhandahåller klusteranalys egenskaperna för varje dataobjekt till de kluster som de tillhör.
Klusteranalys går hand i hand med faktoranalys och diskriminerande analys.
Du bör ställa dig själv några frågor om klusteranalys innan du börjar med den
- Vilka variabler är relevanta?
- Räcker provstorleken?
- Kan det upptäckas utskott och ska det tas bort?
- Hur ska objektens likhet mätas?
- Bör data standardiseras?
Typer av kluster
Det finns tre huvudtyper av kluster
- Hierarkisk klustering - som innehåller Agglomerativ och delande metod
- Partitionell klustering - Innehåller K-medel, fuzzy K-medel, Isodata under den
- Densitetsbaserad klustering - Har Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed under den
Antaganden i klusteranalys
Det finns alltid två antaganden i klusteranalys
- Det antas att urvalet är en representant för befolkningen
- Det antas att variablerna inte är korrelerade. Även om variabler är korrelerade, ta bort korrelerade variabler eller använd distansmått som kompenserar för korrelationen.
Steg i klusteranalys
-
- Steg 1: Definiera problemet
- Steg 2: Bestäm lämplig likhetsåtgärd
- Steg 3: Bestäm hur du grupperar objekten
- Steg 4: Bestäm antalet kluster
- Steg 5: Tolk, beskriv och validera klustret
Klusteranalys i SPSS
I SPSS kan du hitta alternativet klusteranalys i alternativet Analysera / klassificera. I SPSS finns det tre metoder för klusteranalys - K-Means Cluster, Hierarchical Cluster och Two Step Cluster.
K-Means klustermetod klassificerar en given uppsättning data genom ett fast antal kluster. Denna metod är lätt att förstå och ger bästa resultat när data är väl separerade från varandra.
Tvåstegs klusteranalys är ett verktyg som är utformat för att hantera stora datamängder. Det skapar kluster på både kategoriska och kontinuerliga variabler.
Hierarkiskt kluster är den mest använda metoden för klusteranalys. Den kombinerar fall i homogena kluster genom att föra dem samman genom en serie sekventiella steg.
Hierarkisk klusteranalys innehåller tre steg
- Beräkna avståndet
- Länka klustren
- Att välja en lösning genom att välja rätt antal kluster
Nedan anges stegen för att utföra hierarkisk klusteranalys i SPSS.
- Det första steget är att välja variabler som ska grupperas. Nedanstående dialogruta förklarar det för dig
- Genom att klicka på statistikalternativet i dialogrutan ovan får du dialogrutan där du vill ange utdata
- Lägg till Dendrogram i dialogrutans plott. Dendrogram är den grafiska representationen av den hierarkiska klusteranalysmetoden. Den visar hur klustren kombineras i varje steg tills det bildar ett enda kluster.
- Dialogrutans metod är avgörande. Du kan nämna avståndet och klustermetoden här. I SPSS finns det tre mått för intervall, räkningar och binär data.
- Den kvadrerade euklidiska avståndet är summan av de kvadratiska skillnaderna utan att ta kvadratroten.
- I räkningarna kan du välja mellan Chi Square och Phi Square mått
- I avsnittet Binär har du många alternativ att välja. Kvadratisk euklidiskt avstånd är det bästa alternativet att använda.
- Nästa steg är att välja klustermetod. Det rekommenderas alltid att använda Single Linkage eller närmaste granne eftersom det lätt hjälper till att identifiera outliers. När outliers har identifierats kan du använda Ward's Method.
- Det sista steget är standardisering
Kritik av klusteranalys
De vanligaste kritikerna listas nedan
- Det är beskrivande, teoretiskt och icke inferensiellt.
- Det kommer att producera kluster oavsett den faktiska existensen av någon struktur
- Det kan inte användas i stor utsträckning eftersom det helt beror på de variabler som används som grund för likhetsmåttet
Vad är faktoranalys?
Faktoranalys är en utforskande analys som hjälper till att gruppera liknande variabler i dimensioner. Det kan användas för att förenkla uppgifterna genom att minska dimensionerna på observationerna. Faktoranalys har flera olika rotationsmetoder.
Faktoranalys används mest för datareduktionsändamål.
Det finns två typer av faktoranalys - Förklarande och bekräftande
- Förklarande metod används när du inte har en fördefinierad idé om strukturer eller dimensioner i en uppsättning variabler.
- Bekräftande metod används när du vill testa specifik hypotes om strukturer eller dimensioner i en uppsättning variabler.
Mål med faktoranalys
Det finns två huvudmål för faktoranalys som nämns nedan
- Identifiering av de underliggande faktorerna - Detta inkluderar klustervariabler i homogena uppsättningar, skapar nya variabler och hjälper till att få kunskap om kategorierna
- Screening av variabler - Det hjälper till med regression och identifierar grupperingar så att du kan välja en variabel som representerar många.
Antaganden om faktoranalys
Det finns fyra huvudantaganden om faktoranalys som nämns nedan
- Modeller baseras vanligtvis på linjära förhållanden
- Det antar att de insamlade uppgifterna skalas
- Multikollinearitet i uppgifterna är önskvärt eftersom målet är att ta reda på den interrelaterade uppsättningen variabler
- Uppgifterna ska vara öppna och lyhörda för faktoranalys. Det bör inte vara på ett sådant sätt att en variabel endast korreleras med sig själv och det finns ingen korrelation med någon annan variabel. Faktoranalys kan inte göras på sådana data.
Typer av factoring
- Huvudkomponentfaktorering - Den vanligaste metoden där faktorvikter beräknas för att extrahera maximal möjlig varians och fortsätter tills det inte finns någon meningsfull varians kvar.
- Kanonisk faktoranalys - Hitta faktorer som har den högsta kanoniska korrelationen med de observerade variablerna
- Gemensam faktoranalys - Söker det minsta antalet faktorer som kan redovisa den gemensamma variationen i en uppsättning variabler
- Bildfaktoring - Baserat på korrelationsmatrisen där varje variabel förutsägas från de andra med multipel regression
- Alpha Factoring - maximerar tillförlitligheten hos faktorer
- Faktorregressionsmodell - Kombination av faktormodell och regressionsmodell vars faktorer är delvis kända
Kriterier för faktoranalys
-
Eigenvalue kriterier
- Representerar mängden varians i de ursprungliga variablerna som är kopplade till en faktor
- Summan av kvadratet av faktorbelastningarna för varje variabel på en faktor representerar egenvärdet
- Faktorer med egenvärden som är större än 1, 0 hålls
-
Kriterier för skritten
- Ett diagram över egenvärdena mot antalet faktorer i extraktionsordning.
- Plottens form bestämmer antalet faktorer
-
Procentandel av variationskriterier
- Antalet extraherade faktorer upptäcks så att den ökande procentuella variationen som extraheras av faktorerna når nöjdhetsnivån.
-
Kriterier för betydelsestest
- Statistisk betydelse av de separata egenvärdena konstateras och endast de faktorer som är statistiskt signifikanta bibehålls
Faktoranalys används inom olika områden som psykologi, sociologi, statsvetenskap, utbildning och mental hälsa.
Faktoranalys i SPSS
I SPSS finns alternativet för faktoranalys i Analysera à Dimensionsreduktion à Faktor
- Börja med att lägga till variabler i listan med variabler
- Klicka på fliken Beskrivning och lägg till få statistik under vilka antagandena om faktoranalys verifieras.
- Klicka på extraktionsalternativet som låter dig välja utvinningsmetod och avskärningsvärde för extraktion
- Principal Components (PCA) är standard extraktionsmetoden som extraherar även okorrelerade linjära kombinationer av variablerna. PCA kan användas när en korrelationsmatris är singular. Det liknar mycket Canonical Correlation Analys där den första faktorn har maximal varians och följande faktorer förklarar mindre del av variansen.
- Den näst mest generella analysen är huvudaxelfakturering. Den identifierar de latenta konstruktionerna bakom observationerna.
- Nästa steg är att välja en rotationsmetod. Den mest använda metoden är Varimax. Denna metod förenklar tolkningen av faktorerna.
- Den andra metoden är Quartimax. Denna metod roterar faktorerna för att minimera antalet faktorer. Det förenklar tolkningen av den observerade variabeln.
- Nästa metod är Equamax, som är en kombination av ovanstående två metoder.
- I dialogrutan genom att klicka på “alternativen” kan du hantera de saknade värdena
- Innan du sparar resultaten i datauppsättningen, kör först faktoranalysen och kontrollera antaganden och bekräfta att resultaten är meningsfulla och användbara.
Klusteranalys vs faktoranalys
Både klusteranalys och faktoranalys är inlärningsmetod utan övervakning som används för segmentering av data. Många forskare som är nya inom detta område känner att klusteranalysen och faktoranalysen liknar. Det kan verka lika men de skiljer sig på många sätt. Skillnaderna mellan klusteranalys och faktoranalys listas nedan
-
Mål
Målet med kluster och faktoranalys är olika. Målet med klusteranalysen är att dela upp observationerna i homogena och distinkta grupper. Faktoranalysen å andra sidan förklarar homogeniteten hos variablerna till följd av likheten mellan värden.
-
Komplexitet
Komplexitet är en annan faktor som kluster och faktoranalys skiljer sig åt. Datastorleken påverkar analysen annorlunda. Om datastorleken är för stor, blir den beräkningsmässigt oöverträffad i klusteranalys.
-
Lösning
Lösningen på ett problem är mer eller mindre lika både i faktor- och klusteranalysen. Men faktoranalys ger en bättre lösning för forskaren i en bättre aspekt. Klusteranalys ger inte bästa resultat eftersom alla algoritmer i klusteranalysen är beräkningseffektiva.
-
tillämpningar
Faktoranalys och klusteranalys tillämpas olika på verkliga data. Faktoranalys är lämplig för att förenkla komplexa modeller. Det minskar den stora uppsättningen variabler till en mycket mindre mängd faktorer. Forskaren kan utveckla en uppsättning hypotes och köra faktoranalys för att bekräfta eller förneka dessa hypoteser.
Klusteranalys är lämplig för klassificering av objekt baserat på vissa kriterier. Forskaren kan mäta vissa aspekter av en grupp och dela upp dem i specifika kategorier med hjälp av klusteranalys.
Det finns också många andra skillnader som nämns nedan
- Klusteranalys försöker gruppera fall medan faktoranalys försöker gruppera funktioner.
- Klusteranalys används för att hitta mindre grupper av fall som är representativa för en data som helhet. Faktoranalys används för att hitta en mindre grupp funktioner som är representativa för datauppsättningens ursprungliga funktioner.
- Den viktigaste delen av klusteranalysen är att hitta antalet kluster. I princip delas klusteringsmetoder i två - Agglomerativ metod och Partitionsmetod. Agglomerativ metod börjar med varje enskilt fall i sitt eget kluster och slutar när ett kriterium uppnås. Partitionsmetod börjar med alla fall i ett kluster.
- Faktoranalys används för att ta reda på en underliggande struktur i en uppsättning data.
Slutsats
Hoppas att den här artikeln skulle ha hjälpt dig att förstå grunderna i klusteranalys och faktoranalys och skillnaderna mellan de två.
Relaterade kurser: -
- Kurs i klusteranalys