
İçindekiler
Hiyerarşik kümeleme analizi, veri setindeki benzer özelliklere sahip veri noktalarını gruplamak için kullanılan istatistiksel bir yöntemdir. SPSS ile yapılabilir. Hiyerarşik kümeleme analizi, veri setindeki her bir gözlemi başlangıçta tek bir küme olarak ele alır ve ardından benzerlik ölçüsüne dayanarak benzer veri noktalarını sırayla kümelere birleştirir. Bu yöntem, veri içinde gizli benzer pattern’leri ortaya çıkarmak için kullanılır ve genellikle önceden tanımlanmış bir sayıda küme oluşturmak yerine, veri setindeki doğal gruplamaların neler olabileceğini belirlemek için kullanılır. Bu makalede, SPSS kullanarak hiyerarşik kümeleme analizini nasıl gerçekleştireceğimizi ve sonuçlarını nasıl yorumlayacağımızı inceleyeceğiz.
Hiyerarşik Kümeleme Analizi Nedir?
Hiyerarşik kümeleme analizi, benzer özelliklere sahip olan veri noktalarını gruplamak için kullanılan bir kümeleme (cluster) analizi yöntemidir. Bu analiz yöntemi, veri setindeki gözlemleri birbirlerine olan benzerliklerine göre birleştirerek kümelere ayırmak amacıyla kullanılır. Hiyerarşik kümeleme analizi, veri setindeki her bir gözlemi başlangıçta tek bir küme olarak ele alır ve ardından benzerlik ölçüsüne dayanarak bu kümelere benzer veri noktalarını birleştirir veya farklı veri noktalarını ayrıştırır.
Hiyerarşik Kümeleme Analizi’nde, verilerimizin kaç adet gruba ayrılacağını önceden belirlemeyiz. SPSS’in yaptığı analiz sonucu kaç adet kümeye bölünebileceği ortaya çıkar. Eğer verimizi belli bir sayıda gruba ayırarak kümeleme analizi yapmak istiyorsak, Hiyerarşik yerine K-Means Kümeleme Analizi yöntemini kullanmalıyız.
Hiyerarşik kümeleme analizi, veri içindeki gizli yapıları ve ilişkileri ortaya çıkarmak için kullanılır. Örneğin, pazar araştırmalarında, müşterilerin alışveriş alışkanlıklarını anlamak için kullanılabilir. Benzer alışveriş alışkanlıklarına sahip müşteriler aynı kümeye atanabilir ve bu kümeler, hedef pazarlama stratejilerini belirlemek için kullanılabilir.
Hiyerarşik kümeleme analizi, iki temel yaklaşıma dayanır: aglomeratif (birleştirici) ve bölücü (ayrıştırıcı). Aglomeratif yaklaşımda, her gözlem bir küme olarak başlar ve benzer gözlemler bir araya getirilerek kümeleme işlemi adım adım gerçekleşir. Bölücü yaklaşımda ise, tüm gözlemler tek bir büyük kümeye başlar ve benzer olmayan gözlemler ayrıştırılarak kümeleme işlemi gerçekleşir.
Hiyerarşik kümeleme analizi sonucunda elde edilen kümeleme yapısı, dendrogram adı verilen bir ağaç diyagramı ile görselleştirilebilir. Bu dendrogram, veri setindeki gözlemlerin nasıl bir araya geldiğini ve hangi kümelerin birbirine benzer olduğunu gösterir.
Hiyerarşik Kümeleme Analizi, katılımcıların kaç tane farklı kümeye ayrılmasının uygun olduğunu önermede başarılıdır, fakat hangi katılımcının hangi gruba atanması gerektiğini isabetli olarak seçme konusunda mükemmel derecede başarılı değildir.
Bu yüzden, Kümeleme Analizi yoluyla katılımcıları gruplandırmanın en doğru yöntemi, önce Kümeleme Analizi ile katılımcıların kaç gruba ayrılmasının en uygun olduğunu bulup, sonra K-Means Kümeleme Analizi adlı başka bir kümeleme analizi türü yapmak ve onu yaparken ilk analizimizde bulduğumuz sayıda grup sayısına bölerek kümeleme gerçekleştirmektir.
SPSS ile Hiyerarşik Kümeleme Analizi Nasıl Yapılır?
Bu sayfada göstereceğim SPSS analiz örneğinde, katılımcıların YouTube videolarının çeşitli özelliklerine ne kadar önem verdiği hakkında 15 sorudan oluşan bir ölçeğimiz var. Katılımcılar acaba bu ölçeğe verdikleri cevaplar bakımından birbirine benzer bazı gruplara ayrılabilir mi diye incelemek için kümeleme analizi yapacağız. Yani belki bazı kişiler videonun ses kalitesine önem vermeyip aynı anda izlenme sayısına ve yapımcıya önem veriyorken, bazı kişiler de video fotoğrafına önem verip videoda reklam olup olmadığına önem vermiyordur. Acaba video hakkındaki farklı sorulara bu tarz birbirine benzer cevaplar veren kişileri gruplandırabilir miyiz, eğer gruplandırabilirsek kaçar gruba ayırabiliriz bunlara kümeleme analizi ile bakacağız. Kaç gruba ayrılacağını önceden bilmediğimiz için Hiyerarşik Kümeleme Analizi yöntemiyle bakacağız. Şimdi başlayalım.
SPSS ile aşağıdaki adımları takip ederek bir hiyerarşik kümeleme analizi yapabiliriz.
Analyze -> Classify -> Hierarchical Cluster
Açılan pencerede, verilen cevapları kümeleme analizi yapacağımız bütün soruları / ölçekleri Variables kutusuna atıyoruz.
“Plots”a basıp açılan yeni pencerede Dendrogram’ı seçiyoruz.
Method
“Method”a basıp açılan pencerede, kümeleme metodu olarak birkaç seçeneğimiz var. En popüler olanlardan bahsedeyim.
Between-groups Linkage: Küresel olmayan kümelerle uğraşırken ve verideki amaç aykırı değerleri veya anormallikleri belirlemek olduğunda faydalıdır.
Furthest Neighbor: Amaç iyi ayrılmış, farklı kümeleri tanımlamak olduğunda faydalıdır.
Centroid Clustering: Kümelerin kabaca eşit çaplara sahip olduğu ve küresel şekilli olduğu veriler için uygundur. Dengeli dendrogramlar oluşturma eğilimindedir.
Ward’s Method: Kompakt, nispeten eşit boyutlu kümeleri tanımlamak istediğinizde Ward Yöntemi’ni kullanın.
Bu veri seti için, analiz sonucu bir kümenin çok fazla katılımcıya sahip olup diğer kümenin çok az katılımcıya sahip olması benim için pratik olmayacak. Bu yüzden birbirine yaklaşık olarak yakın katılımcı sayısına sahip kümeler vermesi açısından Ward’s Method seçiyorum. Siz kendi analiz amacınıza ve verinize göre farklı bir metot seçebilirsiniz.
Standardize
Eğer verimizdeki soruların / ölçeklerin hepsi aynı ölçüdeyse (mesela bütün sorular 1’den 5’e kadar ölçüyor) o zaman standardize etmemiz gerekmez.
Fakat bazı sorular 1-5 arası, bazı sorular 1-9 arası vb. farklı ölçülerde ölçüyorsa, kümeleme analizinin kötü etkilenmemesi için değerleri standardize etmeliyiz. SPSS’te en sık kullanılan standardizasyon yöntemi z-skorları oluşturmaktır. Bu pencerede Standardize menüsünden Z-Score seçerseniz verileri analiz öncesi standardize ederek analize sokmuş olacaksınız.
“Save” butonuna basıp açılan pencerede, “Cluster Membership” kısmı nasıl çalışıyor kısaca bahsedeyim.
Eğer planınızda önce Hiyerarşik Kümeleme Analizi yapıp sonra K-Means Kümeleme Analizi yapmak varsa, burayı “None” işaretleyip geçebilirsiniz. Çünkü hangi katılımcının hangi kümeye ait olduğunu K-Means Kümeleme Analizi genelde daha isabetli vermektedir.
Eğer belli bir sayıda küme oluşmasını bekliyorsanız (mesela 3 küme), o zaman Single Solution’ı 3 olarak işaretleyebilirsiniz. Bu, SPSS veri setinizde en sağda bir sütun açar. Bu sütunda her katılımcının SPSS hiyerarşik kümeleme analizi tarafından belirlenen en son 3 kümenin hangisine atanmış olduğunu 1, 2, ya da 3 yazmasına göre görebileceksiniz.
Range Of Solutions işaretlerseniz de, mesela SPSS’in hiyerarşik kümeleme analizi sonucunda 2 ile 7 arasında küme oluşturan modeller üretmesini bekliyorsunuz. O zaman SPSS veri setinizde en sağda birkaç sütun açılır. Her sütun için, o sayıda kümeden oluşan model özelinde o katılımcının SPSS tarafından hangi kümeye atanmış olduğu gösterilir.
SPSS’teki en isabetli “katılımcıyı kümeye atama” yöntemi, önce Hiyerarşik Kümeleme Analizi yapıp kaç kümenin veriyi en iyi temsil ettiğini belirleyip sonra K-Means Kümeleme Analizi yaparak SPSS’in katılımcıları o sayıda kümeye ayırmasını söylemektir. Bu yüzden burayı “None” işaretleyip geçebiliriz, ben genelde öyle yapıyorum.
Continue ve OK’a basarsak SPSS hiyerarşik kümeleme analizini başlatacaktır.
Hiyerarşik Kümeleme Analizi SPSS Tablo Yorumlama
SPSS, hiyerarşik kümeleme analizini yaptıktan sonra ortaya katılımcı sayımız kadar uzun tablolar çıkıyor. Bu tablolardan sadece Dendrogram başlıklı tabloya bakmalıyız.
Bu tablo da katılımcı sayısı kadar uzun, ekrana dikey olarak sığmayan bir tablo. Bunu küçültmeliyiz önce.
Tabloya çift tıklıyoruz. Açılan yeni tablo penceresine de çift tıklıyoruz. Açılan en yeni Properties penceresinde Chart Size bölümüne gelip “Maintain aspect ratio”nun seçimini kaldırıp Height’ı da 16-20 cm gibi bir büyüklüğe ayarlıyoruz. “Apply” butonuna basarsak Dendrogram grafiği artık bilgisayar ekranımıza sığacak.
Ekrana sığan Dendrogram grafiği böyle görünüyor.
Şimdi bu dendrogramı okuyalım. Evrim grafiklerine benziyor bu grafik. Soldan sağa gidiyor. Solda farklı katılımcılar var. Bunlar en solda birbirlerine yakın özellikler göstermelerine göre gruplanıyor. Sonra bu gruplar birbirlerine benzer özellik göstermelerine göre en soldakinin bir sağında gruplanıyor. Sonra yeni gruplar da birbirine benzerliğine göre bir sağda daha geniş bir gruba gruplanıyor. Bu şekilde en sağda tek 1 grup olacak şekilde gruplar birleşe birleşe gidiyor.
Mesela aşağıdaki dendrograma göre katılımcıların bazıları kırmızı yuvarlak içine alınmış olan küçük grubu oluşturuyor. Bu katılımcılar kendisine benzer özellikler gösteren birkaç katılımcıyla daha birleşiyor ve yeşil grubu oluşturuyor. Bunlar da birkaç benzer katılımcıyla birleşerek mavi grubu oluşturuyor. Bu şekilde birleşe birleşe daha kapsayıcı olan pembe grubu oluşturuyorlar. Pembe grupla diğer gruplar da birleşerek zaten veri setimizdeki katılımcıların tamamını oluşturuyor.
Bu tabloda birbirine daha yakın özellik gösteren katılımcılar daha yakın olarak gruplanmıştır. Yani mesela bu tabloya göre, mavi gruptaki katılımcıların kahverengi gruptakilere benzerliği, mavi grubun sarı gruba benzerliğinden daha yüksektir.
Dendrograma göre katılımcılar farklı farklı seviyelerde gruplandırılabiliyor. Peki hangi seviyedeki gruplandırma en mantıklısı? 15 farklı gruba ayrılması mı daha mantıklı, yoksa 2 gruba mı yoksa 3 gruba mı ayırmak en isabetli gruplandırma şekli olacak?
Bunu, dendrograma dikey bir çizgi çizerek bulabiliriz. Dikey bir çizgi çizince, katılımcıların, analiz ettiğimiz sorulara verdikleri cevaplara göre solda 2 temel gruba ayrıldığını görüyoruz. Yuvarlak içine aldım. Bu gruplar kendi içinde de alt gruplara ayrılıyor ama buna göre temel gruplar 2 tane.
Çizgiyi ilk başta çektiğimiz yere göre biraz sağa veya biraz sola da çeksek hâlâ 2 kümeye ayrıldığını görebiliyoruz. Dikey bir çizgi çektiğimizde verimizin 2 kümeye ayrıldığını gösteren aralık çok geniş. Yani geniş bir aralıkta nereye dikey bir çizgi çekersek çekelim verideki katılımcılar 2 kümeye ayrılıyor. Bu da demek oluyor ki: “Verimizdeki katılımcılar, sorulara verdikleri cevaplara göre büyük ihtimalle 2 temel kümeye ayrılmaktadır.”
Yine de diğer olası küme sayılarını inceleyelim. Çizgiyi demin çektiğimiz yerine biraz soluna kaydırıp oradan çekersek, bu sefer katılımcılar resimde göründüğü gibi 3 temel alt gruba ayrılıyor.
Çizgiyi biraz daha da soldan çekersek, bu sefer katılımcılar 4 ana gruba ayrılıyor.
Fakat katılımcıların 3 veya 4 (veya sola gittikçe daha fazla) alt gruba ayrılmasına sebep olan çizgi çekme aralıkları, katılımcıların 2 gruba ayrılmasına sebep olan çizginin çekilebileceği yatay aralıktan çok daha dar. Yeni geniş bir aralıkta, çizgiyi nereye çekersek çekelim katılımcılar 2 temel gruba ayrılıyor. Ancak çok sola gidip dikey çizgimizi oradan çekersek katılımcılar daha fazla sayıda gruba ayrılıyor. Bunları göz önüne alarak, yapmış olduğumuz Hiyerarşik Kümeleme Analizi hakkında şöyle bir sonuca varabiliriz:
“Verimizdeki katılımcılar, 15 soruluk ölçeğe verdikleri benzer cevaplara göre 2 temel gruba ayrılmaktadırlar.”
SPSS ile Hiyerarşik Kümeleme Analizi adımları ve yorumlaması temel olarak bu kadardı.
Hangi katılımcının spesifik olarak hangi gruba ait olmaya meyilli olduğunu SPSS’teki başka bir kümeleme analizi olan K-Means Kümeleme Analizi yaparak bulabiliriz bundan sonra. Yapacağımız bu K-Means Kümeleme Analizi, katılımcıları 2 gruba ayırmak üzerine olmalıdır.
SON NOT: Hiyerarşik kümeleme analizi sonucunda, her zaman 2 temel grup çıkmaz. Mesela aşağıda başka bir veri setine hiyerarşik kümeleme analizi yaptım ve kırmızı çizgi çekilirse 2 gruba, mavi çizgi çekilirse de 3 gruba ayrılıyor katılımcılar. İki şekilde gruplandırma yapılmasını sağlayan aralık da yeterince geniş.
Katılımcıların hiyerarşik kümeleme analizleri sonucunda 3, 4, 5… adet kapsamlı gruplara ayrılması da mümkündür.
Burada, veriyi analiz eden kişinin, analiz ettiği veri hangi konudaysa o konuya hakim oluşu önem kazanıyor. Verilerin en ideal şekilde kaç gruba ayrılmasının en uygun olduğunun kararını sorulara bakarak, katılımcıları göz önüne alarak vb. yargı gücüne dayanarak vermesi gerekiyor. Aynı veri, farklı analistler tarafından farklı yorumlanabilmektedir ve istatistiğin bu kısımlarında bu çok doğaldır.
Bir yanıt bırakın