
İçindekiler
Kümeleme analizi, veri madenciliği ve istatistiksel analiz alanlarında sıklıkla kullanılan bir yöntemdir. Bu analiz yöntemi, bir veri setindeki benzerliklere dayanarak verileri belirli gruplara veya kümeler halinde sınıflandırmayı sağlar. Kümeleme analizi, birçok farklı alanda uygulanabilir ve farklı sonuçlar elde etmek için çeşitli yöntemler kullanılabilir. Bu blog yazısında, kümeleme analizi yönteminin ne olduğu, hangi varsayımların geçerli olduğu, SPSS kullanarak nasıl yapılacağı ve sonuçların nasıl yorumlanması gerektiği hakkında detaylı bilgiler sunacağız. İyi okumalar!
Kümeleme Analizi Nedir?
Kümeleme Analizi (Cluster Analysis), istatistiksel bir tekniktir ve verileri gruplara ayırmak ve benzer özelliklere sahip olan veri noktalarını bir araya getirmek için kullanılır. Bu analiz yöntemi, büyük miktardaki verileri daha anlaşılır ve yönetilebilir bir şekilde sunmamızı sağlar.
Kümeleme analizinin amacı, veri noktalarını kendi içinde homojen gruplara bölmektir. Bunun için öncelikle her bir veri noktası arasındaki benzerlik veya farklılık değerlendirilir. Ardından, bu benzerlik veya farklılıklara dayanarak veriler belirli bir sayıda kümelere ayrılır. Bu sayede, benzer özelliklere sahip veri noktaları bir arada bulunur ve gruplar daha iyi anlaşılabilir hale gelir.
Kümeleme analizi, çeşitli alanlarda kullanılan önemli bir istatistiksel araçtır. Örneğin, müşteri segmentasyonu, pazarlama stratejileri oluşturma, sağlık analizleri, suç analizi gibi pek çok alanda kümeleme analizinin kullanımı yaygındır.
K-Means Kümeleme Analizi Nedir?
K-Means Kümeleme Analizi, veri setimizdeki kişilerin kaç farklı gruba ayrılması gerektiğini bizim belirlediğimiz durumda SPSS ile uygulanan kümeleme analizi yöntemidir.
Mesela bir restoran sahibiyiz ve 3 farklı müşteri segmentimiz olduğunu baştan biliyoruz (daha önce yapmış olduğumuz farklı araştırmalarla ve/veya tecrübemize dayanarak). O zaman SPSS ile K-Means Kümeleme Analizi yapıyoruz ve analizi, verimizdeki kişiler 3 kümeye ayrılacak şekilde ayarlıyoruz.
Ya da mesela bir Hiyerarşik Kümeleme Analizi yaptık ve verimizin 4 farklı kümeye ayrılmasının uygun olduğunu bulduk. Hiyerarşik kümeleme analizinden sonra bir tane K-Means Kümeleme Analizi yapıp veriyi 4 kümeye ayırmasını söyleyip hangi katılımcının hangi kümeye ait olduğunu bulabiliriz. K-Means Kümeleme Analizi, bize hangi katılımcının hangi kümeye ait olduğunu Hiyerarşik Kümeleme Analizi’ne göre daha isabetli bir şekilde verir.
Önce Hiyerarşik Kümeleme Analizi yapıp ideal küme sayısını belirleyip sonra K-Means Kümeleme Analizi yapıp hangi katılımcının hangi kümeye ait olduğunu belirlemek en doğru kümeleme analizi uygulamasıdır.
SPSS ile K-Means Kümeleme Analizi Nasıl Yapılır?
SPSS ile yapılabilecek kümeleme analizlerinden biri K-Means kümeleme analizidir. Aşağıda bu analizin SPSS ile nasıl yapıldığını resimlerle göstereceğim.
Öncesinde neyi analiz ediyoruz bakalım: Bu örnekte, 152 kişiden oluşan bir katılımcı grubuna bir kişilik testi uyguladık. Bu kişilik testinin, insanları 3 farklı gruba ayırdığı şeklinde bir ön bilgi var, bu bilgiyi testi hazırlayan kişiler önceden bulup açıklamış. Biz de bu kişilik testini uyguladığımız 152 katılımcının hangilerinin bu 3 farklı grubun hangisine daha yakın olacağını merak ediyoruz ve bunu görmek için K-Means Kümeleme Analizi yapacağız.
Bu örnekte kişilik testini 4 farklı ölçek kullanarak yaptık: Sorumluluk, Dışadönüklük, Dayanıklılık, Uyumluluk. Bu 4 testin sonucuna göre, katılımcıları 3 farklı gruba ayırmayı bekliyoruz. Sorumluluk ve Uyumluluk 1-10 arası bir ölçekle ölçülmüş olmasına rağmen, Dışadönüklük ve Dayanıklılık 1-7 arasında bir ölçekle ölçülmüş. Bunları olduğu gibi kümeleme analizine sokarsak, hatalı sonuç bulmuş oluruz. Eğer buradaki gibi farklı ölçüleri olan ölçekler kullanıyorsak, kümeleme analizi öncesinde bütün ölçekleri standardize etmeliyiz. Bunu da SPSS’te her ölçeğin Z-Skorlarını oluşturarak yapıyoruz.
Analyze -> Descriptive Statistics -> Descriptives
Kümeleme analizine sokacağımız bütün ölçekleri Variables kutusuna atıp “Save Standardized Values As Variables” seçeneğini işaretliyoruz. Sonra OK’a basıyoruz.
SPSS veri setimize dönüp baktığımızda verimizin en sağ tarafında her ölçek için yeni sütunlar açıldığını göreceğiz. Bunlar, Z-Skoru’dur. Z-Skoruna dönüştürülmüş bir ölçekteki değerlerin ortalaması 0, standart sapması 1’dir.
Şimdi bu 4 ölçeğimiz de standardize edilmiş oldu. Kümeleme analizine, ölçeklerin orijinal hallerini değil, Z-skoru bulma yoluyla standardize edilmiş versiyonlarını sokmamız gerekiyor. Bu şekilde her ölçeğin birbiriyle uyumlu ölçüde alt ve üst değerleri olması, SPSS’in kümeleme analizi işlemlerini daha isabetli şekilde gerçekleştirmesini sağlayacak.
Eğer kümeleme analizine sokacağınız bütün ölçekleriniz eşit ölçüde ölçüm yapıyorsa (hepsi 1-5 arası gibi) o zaman bu standardizasyon işlemini yapmanıza gerek yoktur, doğrudan kümeleme analizi yapmaya başlayabilirsiniz.
Artık farklı ölçülerde ölçüm yapan ölçekleri standardize ettiğimize göre, K-Means kümeleme analizimize başlayabiliriz.
Analyze -> Classify -> K-Means Cluster
Demin ölçeklerin Z-Skorlarını oluşturmuştuk. Her ölçeğin z-skorunu Variables kutusuna atıyoruz. Demin dediğim gibi, en baştan biliyorduk ki bu ölçekleri uyguladığımız katılımcıların ölçeğe verdikleri cevaplara göre 3 farklı gruba ayrılması bekleniyor. Bu yüzden Number Of Clusters bölümündeki sayıyı 3 olarak ayarladık. Siz kaç gruba ayrılarak kümeleme analizi yapmak istiyorsanız o sayıyı yazarsınız.
“Iterate” butonuna basıyoruz. SPSS kümeleme analizi işlemlerini yaparken birbiri ardına deneme kümeleri oluşturur, her denemede hata miktarını sırayla azaltır ve en sonunda en ideal olduğunu düşündüğü modele ulaşır. 10 deneme bazen bunun için yetersiz kalabilir. Bu yüzden bunu çok yüksek bir sayı, mesela 99 yaparsak en güvenlisini yapmış oluruz. Zaten hata miktarı azalmayı bırakınca (yani ideal modele ulaşınca) SPSS deneme yapmayı bırakır, maksimum deneme sayısına ulaşmaz.
“Save” butonuna basarak Cluster Membership ve Distance From Cluster Center ikisini de işaretliyoruz. Bu iki seçenek kümeleme analizinde veri setinde iki farklı sütun oluşmasını sağlar. Biri hangi katılımcının hangi kümeye ait olduğunu gösterirken diğeri de her katılımcının kendi ait olduğu kümenin merkezine ne kadar uzak/yakın olduğunu gösterir.
“Options” butonuna basarak, açılan pencerede “ANOVA” seçeneğini işaretliyoruz. Bu, ölçeklerin hangilerinin katılımcıları kümeleme konusunda bir işe yarayacak kadar farklı sonuçlara sahip olduğunu gösterecek.
OK’a basarsak SPSS analizi yapmaya başlayacaktır.
K-Means Kümeleme Analizi SPSS Tablo Yorumlama
SPSS bize bir sürü K-Means Kümeleme Analizi tablosu ve grafiği gösterecek. Bunlardan önemli olanların hepsinden aşağıda bahsediyorum.
“Iteration History” tablosunda, SPSS’in, kaç tane kümeleme denemesinden sonra ideal kümeleme modeline ulaştığı hakkında bilgi edinebiliriz. Bu örnekte 8 deneme yaptıktan sonra artık kümelerin merkezleri neredeyse hiç değişmemeye başlamış ve SPSS 8. denemeden sonra deneme yapmayı durdurmuş.
“Number Of Cases In Each Cluster” tablosunda, her kümede kaç kişinin olduğunu görebiliriz. Verimizde 152 kişi vardı. SPSS kümeleme analizi sonucu cevapları birbirine benzemekte olan 41 kişinin 1. kümeyi oluşturduğunu, 47 kişinin 2. kümeyi oluşturduğunu, 64 kişinin de 3. kümeyi oluşturduğunu söylüyor bize.
ANOVA tablosundaki Sig. p değerleri, katılımcıların kümelenme işleminin 4 ölçeğimizin her birine göre yapılmasının istatistiksel olarak anlamlı olup olmadığını gösteriyor. Bu örnekte hepsi 0.05’in altında yani anlamlı. Bu demek oluyor ki 4 ölçeğin 4’ü de katılımcıları kümelere ayırmada işe yarayan (etkisi olan) gruplandırma açısından faydalı ölçeklermiş.
Eğer 0.05’in üstünde bir p değerine sahip bir ölçek olsaydı, o ölçek katılımcıları kümelemede işe yaramayan etkisiz bir ölçek diye bir sonuca varacaktık.
UYARI! ANOVA tablosundaki Sig. p değerleri, SPSS’in farklı gruplara atadığı katılımcıların gruplar arasındaki ortalama skor farklılıklarını ölçen ANOVA analizinin p değeri değildir. Bu ikisi karıştırılmamalıdır. Eğer farklı gruplara ait katılımcıların ortalama skorları karşılaştırılmak istenirse, bunun için ayrı ANOVA yapılmalıdır ve ayrı yapılacak bir ANOVA’nın p değerleri yukarıdaki tablodan farklılık gösterebilir.
“Final Cluster Centers” tablosunda, her ölçeğin Z skorlarının her küme için ortalama değerlerini görebiliyoruz. Mesela, Dışadönüklük ölçeği için SPSS’in 1. kümeye atadığı katılımcıların Dışadönüklük z-skoru ortalaması 0.76’ymış.
“Final Cluster Centers” tablosuna çift tıklayarak yeni bir pencere açalım. Tablodaki bütün kutucukları mouse ile seçelim, sonra sağ tıklayalım ve açılacak menüden Create Graph -> Bar seçelim.
SPSS, bize bu tablonun çubuk grafiğine dökülmüş halini gösterecek. Bu şekilde, katılımcıların kümeleme analizi sonucunda gruplara ne şekilde ayrıldığını daha iyi anlamamız mümkün.
Mesela Dayanıklılık bakımından 1. gruptakiler orta seviye bir Dayanıklılık skoruna sahip iken, 2. gruptakiler yüksek Dayanıklılık skoruna sahip, 3. gruptakiler de düşük Dayanıklılık skoruna sahipmiş.
Gruplar arası farklar her zaman bu kadar bariz olmayabilir. Mesela Dışadönüklük bakımından 1. gruptakiler yüksek skora sahipken, 2. ve 3. gruptakiler birbirine yakın düşük skorlara sahiplermiş. Acaba bu iki grup arasındaki Dışadönüklük skoru farkı anlamlı mı? Bunu, ayrıca bir t-testi ya da post hoc analizi uygulanan bir ANOVA testi yaparak öğrenebiliriz.
SPSS veri setimizin Data View bölümüne dönüp bakacak olursak, en sağda iki tane yeni sütun açıldığını görebiliriz.
QCL_1 sütununda, her katılımcının, K-Means kümeleme analizi sonucunda SPSS tarafından hangi kümeye daha yakın görüldüğünü öğrenebiliriz. Mesela 5 numaralı katılımcı 1. kümeye ait olarak atanmış SPSS tarafından.
QCL_2 sütununda da, her katılımcının, ait olduğu kümenin merkezinden (ortalama değerinden) ne kadar uzakta olduğunu görebiliyoruz.
QCL_1 ve QCL_2 sütunlarının ikisini birden küçükten büyüğe sıralayalım.
Burada, alttaki ok işareti, 2. kümeye ait olan bir katılımcıyı gösteriyor. 2. grubun en düşük QCL_2 değerine sahip olan katılımcı bu. Bu katılımcı 2. grubun ortalama skoruna sadece 0.84 birim uzaklıkta. Bu katılımcı, 2. grubu en iyi şekilde tanımlayan, 2. grubun prototipi diyebileceğimiz bir karakter.
Üstteki ok işareti de, 1. kümeye ait olan bir katılımcıyı gösteriyor. 1. grubun en yüksek QCL_2 değerine sahip olan katılımcı bu. Bu katılımcı, 1. grubun ortalama skoruna 2.94 birim uzaklıkta. 1. gruptaki diğer herkese göre 1. grubun merkezine daha uzak, ama hâlâ 1. gruba, 2. veya 3. gruba olduğundan daha yakın. Bu katılımcı, 1. gruba ait olan katılımcılar arasında, 1. grubu en az miktarda tanımlayan katılımcı.
QCL_1 tablosuna göre katılımcıların hangilerinin 1., 2. ya da 3. kümeye atanmış olduğunu görebiliyoruz. Mesela “acaba 2. ve 3. kümelere ait olan katılımcılar arasında Uyumluluk skoru arasında bir fark var mı” diye merak ediyorsak, bu sütunu bağımsız değişken olarak kullanarak bir t-test veya ANOVA yapabiliriz.
Bonus: 3 Yerine 5 Kümeye Ayırarak K-Means Kümeleme Analizi
Deminki K-Means kümeleme analizinin aynısını yapalım, fakat bu sefer 3 yerine 5 gruba ayırmak istiyoruz diyelim. Demin yaptığımız her şey aynı, sadece Cluster Analysis penceresinde Number Of Clusters’taki 3’ü 5 olarak değiştirdik.
“Iteration History” tablosuna bakarak, SPSS’in 7 model deneyip her adımda düzelterek gittikten sonra 7. denemede en ideal modele ulaştığını ve denemeler yapmayı durdurduğunu görüyoruz. Demin yaptığımız örneğe benzer.
Aşağıda 1. kümeye 30, 2.’ye 35, 3.’ye 39, 4.’ye 21, 5.’ye 27 katılımcının SPSS tarafından atanmış olduğunu görüyoruz. Birbirlerine yakın değerler olması, katılımcıların bu şekilde 5 küme altında gruplanmasının da çok saçma ya da isabetsiz olmayacağını sinyal ediyor.
ANOVA tablosundaki Sig. p değerlerinin yine hepsi 0.05’ten küçük, yani ölçeklerimizin 4’ü de kümeleme analizinde katılımcıları kümelemek için faydalı birer ölçüt olmuşlar.
Eğer Sig. sütununa göre p değeri 0.05’ten büyük olan bir ölçek olsaydı, o ölçek, katılımcıları kümeleme analizi yoluyla 5 farklı gruba ayırmakta etkisi olmayan faydasız bir ölçek demek olmuş olacaktı.
“Final Cluster Centers” grafiğimizde, 5 kümenin katılımcılarının kümelere ortalama olarak ne şekilde dağılmış olduğunu görebilmekteyiz. Mesela burada Sorumluluk seviyesi olarak 4. ve 5. kümelerdeki katılımcılar neredeyse eşit skora sahiptir. Fakat bu kümelerdeki katılımcıların Dışadönüklük, Dayanıklılık ve Uyumluluk skorları da göz önüne alındığında, 4 no’lu küme ve 5 no’lu küme olmak üzere iki farklı kümeye ayrılmaya uygun olduğunu görebiliyoruz.
SPSS veri setimizin Data View bölümünde, iki yeni değişken daha otomatikman oluşturulmuş olacak. Burada her katılımcının hangi gruba daha yakın olduğunu ve ne kadar yakın olduğunu görebilmekteyiz. Eğer katılımcıların bu yeni kümeleme analizimizdeki gruplar arası belli bir veya daha fazla ölçekte skorlarının farkını test etmek istiyorsak, QCL_3 değerlerini bağımsız değişken olarak alarak ANOVA testi (post hoc dahil) yapabilir ve gruplar arası skor farklılıklarının anlamlı veya anlamsız oluşunu görebiliriz.
Sonsöz
SPSS ile K-Means Kümeleme Analizi bu kadardı. Farklı ölçülerde ölçülen 4 ölçeğimizin skorlarını önce z-skorlarını bulma yoluyla standardize ettik, ardından önce 3 kümeye ayırarak, sonra 5 kümeye ayırarak katılımcıların kümelere ne şekilde dağıldığını bulduk.
Analiz yaptığınız konuya, aynı veriyle önceden yaptığınız Hiyerarşik Kümeleme Analizi sonucunda kaç kümeye ayırmak gerektiğini bulmuş olmanıza, ölçeklerin sonucuna göre katılımcıların kaç gruba ayrılmasının beklendiğinin ölçeğin üzerinde yazıyor olmasına, ve kümeleme analizi yaptığınız konuya genel hakimiyetinize bağlı olarak, K-Means Kümeleme Analizi yaparken katılımcıları kaç kümeye ayırmanız gerektiği çok değişkenlik göstermektedir. Kaç kümeye ayırmanın ideal olduğunun belirlenmesi büyük ölçüde analizi yapan istatistikçiye / analiste kalmıştır. Analizi yapan kişinin istatistiğin yanı sıra analiz yaptığı konuya (biyoloji olabilir, pazar araştırması olabilir, psikoloji olabilir, vb.) çok iyi hakim olması, kümeleme analizi en isabetli şekilde yapmasını sağlayacak olan en temel unsur olacaktır. Bu da kümeleme analizi yapan uzman birisini amatör birisinden ayırt eden en belirgin farktır.
Bir yanıt bırakın