SPSS ile Diskriminant Analizi (Resimli)

SPSS ile Diskriminant Analizi

Diskriminant analizi, birçok farklı ölçekten edinilen verilerin sonucunda bir kişinin kategorik bir ölçek üzerinde hangi gruba ait olmasının en yüksek ihtimal olduğunu tahmin etmeye yarayan bir istatistiksel analiz yöntemidir. Özellikle sınıflandırma ve tahmin problemlerinde yaygın olarak kullanılan bir tekniktir. Temel amaç, değişkenler arasındaki ilişkiyi anlamak ve bu ilişkileri kullanarak yeni gözlemleri gruplara atamaktır. Bu yazıda, Diskriminant Analizi’nin ne olduğunu, benzer bir analiz türü olan lojistik regresyon ile olan farklarını ve SPSS ile nasıl yapıldığını göstereceğim.

spss analizi ücretli danışmanlık tanışma indirimi veri tablo rapor iletişim

spss tez analizi istatistik ödev yaptırma ücretli spss veri analizi danışmanlık

Diskriminant Analizi Nedir?

Diskriminant analizi, aynı lojistik regresyon analizi gibi, birden çok bağımlı değişkenin değerlerine göre, bir katılımcının hangi gruba ait olması gerektiğini öngörmeye yarayan bir istatistiksel analiz türüdür.

Diskriminant analizinde bağımlı değişken kategorik veridir, bağımsız değişkenler ise sürekli veri olmalıdır. Diskriminant analizi, bağımsız değişkenlerin değerlerine dayanarak bir kişinin grup üyeliğini tahmin edebilen bir diskriminant fonksiyonu veya fonksiyonları yaratıp grup üyeliğini bulmaya yarar.

Doğrusal diskriminant analizi (LDA) ve kuadratik diskriminant analizi (QDA) dahil olmak üzere farklı diskriminant analizi teknikleri vardır. LDA, tahmin edici değişkenlerin normal dağıldığını ve kovaryans matrisinin tüm gruplar için aynı olduğunu varsayarken, QDA eşit kovaryans matrisleri varsayımını gevşeterek modellemede daha fazla esneklik sağlar.

Diskriminant analizinin çeşitli uygulamaları vardır. Psikolojide, psikolojik değerlendirmelere verilen yanıtlara dayalı olarak bireyleri farklı kişilik tiplerine sınıflandırmak için kullanılabilir. Biyolojide, genetik özelliklere dayalı olarak türler arasında ayrım yapılmasına yardımcı olabilir. Pazarlama araştırmalarında, müşteri segmentleri arasında ayrım yapan demografik veya davranışsal özellikleri belirleyebilir.

Diskriminant Analizi’nde 2 veya fazla sayıda sürekli veri tipinde bağımsız değişken ve 1 tane kategorik bağımlı değişken bulunmaktadır. Bu bağımlı değişken 2 veya daha fazla kategoriye sahip olabilir, fark etmez.

Diskriminant Analizi vs. Lojistik Regresyon Farkı

Hem Diskriminant Analizi hem de Lojistik Regresyon bir dizi bağımsız değişkene dayalı olarak bir kişinin hangi gruba ait olması gerektiğini öngörmektedir. Peki o zaman neden iki tane farklı analiz türü var? Bunun sebepleri olan diskriminant analizi ve lojistik regresyon analizi farklarını aşağıda madde madde sıraladım.

  • Diskriminant Analizi, Lojistik Regresyon’un yaptığına ek olarak, bir kişinin hangi kategoriye ait olduğunu bulma konusunda hangi bağımsız değişkenlerin diğerlerinden daha çok öneme sahip olduğunu da gösterir.
  • Lojistik Regresyon’da bağımsız değişkenler her türlü veri tipinde olabilmekteyken, Diskriminant Analizi’nde bağımsız değişkenler sadece sürekli veri tipinde olabilir.
  • Lojistik Regresyon varsayıma ihtiyaç duymaz, fakat Diskriminant Analizi için verilerin normal dağılması, veride uç değerler bulunmaması ve bağımsız değişkenlerin kovaryans matrislerinin homojenliği önemlidir.
  • Lojistik Regresyon, küçük örneklemlerin analizinde Diskriminant Analizi’nden daha başarılıdır.

Yani eğer bağımsız değişkenler sürekli veri tipindeyse, veri seti yeterince büyükse ve varsayımlar sağlanıyorsa, Diskriminant Analizi yapmak, bize Lojistik Regresyon’dan daha çok bilgi sunar. Eğer bunlar geçerli değilse o zaman Diskriminant Analizi yerine Lojistik Regresyon analizi yapmak gerekir.

spss tez analizi istatistik ödev yaptırma ücretli spss veri analizi danışmanlık

Diskriminant Analizi Varsayımları

Diskriminant analizinin varsayımlarının doğrulanması önemlidir çünkü bu varsayımlar, modelin doğruluğu ve güvenilirliği üzerinde doğrudan etkili olabilir. Bu varsayımların doğrulanması, modelin yanlış sınıflandırma oranlarını azaltarak daha doğru sonuçlar elde etme olasılığını artırır. Bu da sonuçların yorumlanmasını ve modelin güvenilirliğini artırır.

Diskriminant analizinin varsayımları şunlardır:

  1. Bütün bağımsız değişkenlerin normal dağılıma sahip olması
  2. Veride uç değer bulunmaması
  3. Her kategorinin kendi içinde, bütün bağımsız değişken çiftleri arasında doğrusal bir ilişki olmalıdır
  4. Bağımsız değişkenler arasında çoklu doğrusallık (multicollinearity) olmamalıdır

SPSS ile Diskriminant Analizi Varsayımlarını Test Etme

Bu sayfada yapacağım Diskriminant Analizi örneğinde, 4 ölçeğin (ölçek adları SDO, EDO, MY, EID) sonuçlarının hangilerinin bir kişinin hangi Cinsiyet’te olduğunu ne ölçüde belirlediğini ve hangi ölçeklerin daha belirleyici olduğunu inceleyeceğiz. Cinsiyet 3 kategoriye ayrılıyor: Erkek, Kadın, Diğer. Varsayımları SPSS’te aşağıdaki gibi test ediyoruz.

1) Normal Dağılım Varsayımı

Bağımsız değişkenlerin hepsini Analyze -> Explore menüsünden normallik testine sokup sonuçları analiz etmek gerekmektedir. Bu sayfanın gereksiz uzamaması adına, normallik testinin nasıl yapıldığını anlattığım yazımın linkini buraya koyuyorum.

2) Uç Değer Olmaması Varsayımı

Diskriminant Analizi, lineer (doğrusal) fonksiyonlar üzerine kurulu olduğu için, verinin içinde uç değerler olmasına karşı hassastır. Güvenilir bir diskriminant analizi sonucu elde etmek için, analize başlamadan önce verideki uç değerleri bulup çıkartmak gerekmektedir. Yine bu sayfayı gereksiz uzatmamak adına uç değer tespiti ve ayıklama işleminin nasıl yapıldığını anlatan yazımın linkini buraya koyuyorum.

3) Doğrusal İlişki Varsayımı

Her gruptaki kişiler için, her bağımsız değişken çiftinin skorları arasında doğrusal bir ilişki olmalıdır. Bunu test etmek için SPSS’te şu işlemleri yapıyoruz:

Data -> Split File

diskriminant analizi 1

 

Açılan pencerede “Organize output by groups” seçip bağımlı değişkenimiz olan Cinsiyet’i kutuya koyup OK’a basıyoruz.

diskriminant analizi 2

Şimdi verimiz cinsiyetlere göre bölündü.

Graphs -> Scatter/Dot’a basıyoruz.

diskriminant analizi 3

 

Matrix Scatter’ı seçiyoruz.

diskriminant analizi 4

 

Bağımsız değişkenlerimizin hepsini Matrix Variables kutusuna atıp OK’a basıyoruz.

diskriminant analizi 5

 

SPSS, her cinsiyet için bir nokta grafiği çizecek yani bu örnek için toplamda 3 tane. Bu grafiklerde, her cinsiyetin kendi içinde olmak üzere, bağımsız değişkenlerinin birbirleriyle olan ikili korelasyonlarının nokta grafiklerini görmekteyiz.

Bu grafiklerdeki noktaların dağılımı, kırmızı ile çizdiğim gibi, sol alttan sağ üste doğru yayılan (ya da sol üstten sağ alta) noktalar şeklinde olmalıdır. Mükemmel spesifik bir dağılım olması gerekmez ama bir miktar bu şekilde yayıldığını görürsek iyi olur. Bu örnekte de ufak da olsa bir ilişki görebiliyoruz.

diskriminant analizi 6 diskriminant analizi 7 diskriminant analizi 8

 

UNUTMAYIN! Doğrusal ilişki incelememiz bittikten sonra, tekrardan Data -> Split File bölümüne gelip açılan pencerede “Reset” butonuna basmalıyız. Bunu yapmazsak bundan sonraki bütün analizlerimiz her cinsiyet için ayrı ayrı 1’er kere yapılır (yani her analiz toplam 3 kere) ve bu yanlış olur.

“Reset” butonuna basıp sonra “OK” butonuna basarak analizlerimize kaldığımız yerden devam edebiliriz.

diskriminant analizi 9

 

4) Çoklu Doğrusallık Varsayımı

Bu varsayımı da aşağıdaki gibi kolayca test edebiliyoruz.

Analyze -> Correlate -> Bivariate

diskriminant analizi 10

 

Bütün bağımsız değişkenlerimizi Variables kutusuna atıyoruz. Correlation Coefficients’ta Pearson seçili olacak şekilde “OK”a basıyoruz.

diskriminant analizi 11

 

Correlations tablosunda, Pearson Correlation satırlarında, kırmızı işaretlediğim yerlerdeki korelasyon katsayılarının hiçbirinin 0.8 veya daha büyük olmaması gerekiyor. Eğer bu olursa çoklu doğrusallık yani multicollinearity olmuş olur ve bu durum diskriminant analizi sonuçlarının doğruluğunu azaltır. Bu tabloya göre çoklu doğrusallık görülürse birbiriyle çok yüksek korelasyona sahip değişkenlerden birini veriden çıkartıp diskriminant analizini o değişkensiz yapmak gerekir.

diskriminant analizi 12

 

SPSS ile Diskriminant Analizi varsayımlarının kontrol edilmesi kısmı bu kadardı. Bütün varsayımları başarıyla doğruladığımıza göre, artık asıl Diskriminant Analizi kısmına geçebiliriz.

spss tez analizi istatistik ödev yaptırma ücretli spss veri analizi danışmanlık

SPSS ile Diskriminant Analizi Nasıl Yapılır?

SPSS ile Diskriminant Analizi aşağıdaki adımlar takip edilerek yapılabilir.

Bu sayfada yapacağım Diskriminant Analizi örneğinde, 4 ölçeğin (ölçek adları SDO, EDO, MY, EID) sonuçlarının hangilerinin bir kişinin hangi Cinsiyet’te olduğunu ne ölçüde belirlediğini ve hangi ölçeklerin daha belirleyici olduğunu inceleyeceğiz. Cinsiyet 3 kategoriye ayrılıyor: Erkek, Kadın, Diğer.

Analyze -> Classify -> Discriminant

diskriminant analizi 13

 

Bağımlı değişkenimizi Grouping Variable kutusuna, bağımsız değişkenlerimizi Independents kutusuna koyuyoruz.

diskriminant analizi 14

 

Grouping Variable’a tıklayıp altındaki “Define Range” butonuna tıklıyoruz. Burada, bağımlı değişkenimizin kategori değerleri kaçtan kaça kadar değişiyor bunu belirtmemiz gerekiyor. Bu veri setinde, cinsiyetler Kadın = 5 ve Erkek = 6 ve Diğer = 7 olarak kodlandı. Bu yüzden Minimum 5 ve Maximum 7 yazıyorum. Sizin veri setinizde farklı rakam olacaktır.

diskriminant analizi 15

 

“Statistics” butonuna basıp aşağıdaki kutuları işaretliyoruz.

diskriminant analizi 16

 

“Classify” butonuna basıp aşağıdaki seçenekleri işaretliyoruz.

diskriminant analizi 17

 

“Save” butonuna basıp üç seçeneği de işaretliyoruz.

diskriminant analizi 18

 

Artık bütün ayarlamaları yaptık. OK butonuna basarsak SPSS analizi bizim için başlatacaktır.

Diskriminant Analizi SPSS Tablo Yorumlama

Diskriminant Analizi sonucunda SPSS bize bir sürü tablo sunacaktır. Bu tabloların hangileri önemli ve nerelere bakmak gerekiyor? Aşağıda hepsini anlatıyorum.

Tests of Equality of Group Means tablosu, MANOVA analizi sonucu baktığımız farklı ANOVA’ların tablosunun aynısıdır. Burada, Sig. p anlamlılık değeri 0.05’ten düşük çıkan bağımsız değişkenler, bir kişinin hangi Cinsiyet kategorisine ait olduğunu tahmin edebilme konusunda faydalı olmuş demektir. Sig. p değeri 0.05’ten büyük olan değişkenler ise modele faydası dokunmayan bağımsız değişkenler olmuştur.

Bu örnekte, SDO ve EDO değişkenleri Cinsiyet’i belirlemeye yardımcı olmuşken, MY ve EID isimli değişkenlerin diskriminant analizine anlamlı bir katkısı olmamıştır.

Aslında anlamlı katkısı olmayan değişkenleri modelden çıkartıp tekrar diskriminant analizi yapmak daha faydalıdır çünkü daha isabetli bir tahmin seti oluşturacaktır. Fakat bu örnekte göstermek adına şimdiki gibi devam edeceğim.

diskriminant analizi 19

 

Log Determinants tablosundaki Log Determinant değerleri, her değişken için birbirine yakın olmalıdır. Bu örnekte çok yakın değil, bu ideal bir durum değil. Ama Test Results tablosundaki Box’s M Sig. değeri 0.268 çıkmış, bu değer Box’s M Testi eşik p değeri olan 0.001’den büyük olduğu için bir sorun olmadığı sonucuna varabiliriz.

diskriminant analizi 20 diskriminant analizi 21

 

Eigenvalues tablosunda, kaç tane bağımsız değişkenimiz olduğuna ve bağımlı değişkenimizin kaç tane grubu olduğuna göre bir veya birden fazla sayıda diskriminant fonksiyonu oluşturulacaktır. Bu örnekte 2 tane diskriminant fonksiyonu oluşturulmuş. Bu fonksiyonlardan, Eigenvalue’su en yüksek olanı dikkate alacağız bundan sonra. Buradan sonra yapacağımız analiz yorumlamalarında 1. fonksiyon dışındakileri göz önüne almayabiliriz.

(Bağımsız değişken sayımız – 1) ya da (bağımlı değişkenimizin kategori sayısı – 1) bu değerlerden hangisi daha küçük ise o kadar sayıda diskriminant fonksiyonu oluşturulur. Bilmeniz gerekmiyor ama merak ettiyseniz diye yazdım.

Ayrıca bu tabloda seçtiğimiz fonksiyonun (bu örnekte Fonksiyon 1) Canonical Correlation değerinin karesini alırsak diskriminant analizimizin etki büyüklüğünü bulmuş oluyoruz.

Sadece 1 adet diskriminant fonksiyonu oluşturulduğunda analizi okuyup yorumlamak daha kolaydır, bu örnekte 2 fonksiyonlu daha karışık bir örnek gösteriyorum ki analizin tabloları karışık olduğunda da nasıl okumak gerektiğini biliyor olun.

diskriminant analizi 22

 

Artık Fonksiyon 1’i göz önüne alacağımıza göre Wilks’ Lambda tablosundaki “1 through 2” satırındaki Sig. değerini okumalıyız. Bu satırdaki Sig. p değeri 0.05’ten küçük çıkmış yani diskriminant analizi ile baktığımız bağımsız değişkenlerin en az 1 tanesi bağımlı değişkendeki doğru kategoriyi tahmin etme konusunda işe yarıyor.

diskriminant analizi 23

(Sadece Fonksiyon 1’in sütununa bakmanız gerektiğini hatırlatalım.)

Aşağıdaki iki tabloda, aynı değişkenin iki tablodaki değerleri de birbirine yakın olursa idealdir. Structure Matrix başlıklı tablodaki değerlerin +0.3’ten büyük olması gerekiyor normalde. Bu örnekte niye iki değişken +0.3’ten küçük? Çünkü bu iki değişken yukarıdaki tablolardan hatırlayacağımız üzere analize anlamlı bir şekilde katkısı bulunmayan değişkenlerdir.

diskriminant analizi 24

 

Aşağıdaki tabloda, aynı regresyon analizinde olduğu gibi, bir y = mx denklemi yazmamız için gereken bilgiler bulunuyor. Bu analiz için şöyle bir denklem yazabiliriz:

Cinsiyet Kategorisi Numarası = (-2.277) + (0.422)*SDO Skoru + (0.339)*EDO Skoru + (0.079)*MY Skoru + (-0.071)*EID Skoru

(Burada Cinsiyet Kategorisi Numarası dediğimiz şey 5 = Kadın; 6 = Erkek; 7 = Diğer olan cinsiyet kategorileri numaralandırmalarıdır. Bu numaralandırmayı SPSS’te veri setini açıp değişkenin değerlerini kontrol ederek bulabilirsiniz.)

Burada MY ve EID’in aslında denkleme sokulmaması da gerekiyor olabilir. Çünkü bu değişkenlerin modelin tahmin gücüne anlamlı bir katkı sağlamadığını deminki tablolardan öğrenmiştik. Zaten bu değişkenlerin aşağıdaki tablodaki katsayılarına bakarsak 0.079 ve -0.071 olan çok küçük değerlere sahip olduklarını görebiliriz. Normalde diskriminant analizini bu iki değişkeni veriden çıkartıp kalan anlamlı değişkenlerle yapmamız gerekiyordu, o zaman formüldeki bütün değerler önemli olmuş olacaktır.

diskriminant analizi 25

(Yine sadece Fonksiyon 1 sütununa bakmanız gerektiğini unutmayın.)

Functions at Group Centroids tablosunda, bağımlı değişkenin her grubu için olan değerlerin birbirinden yeterince farklı olması gerekmektedir. Neyse ki bu örnekteki tabloda yeterince farklı. Demek ki diskriminant analizinde oluşturmuş olduğumuz fonksiyon veri setimizdeki katılımcıların hangi gruba ait olduğunu bulma konusunda çok kötü bir iş yapmamış.

diskriminant analizi 26

 

“Classification Results” tablosunda, Original bölümünde gerçekte gözlenen değerleri, Predicted Group Membership bölümünde ise diskriminant analizi sonucunda SPSS’in tahmin etmiş olduğu değerleri görmekteyiz.

Mesela örnek üzerinden gidecek olursak, SPSS, yapılan diskriminant analizi sonucunda, gerçekte Erkek cinsiyetinde olan kişilerin 14 tanesini Kadın olarak tahmin etmiş, 38 tanesini Erkek olarak tahmin etmiş, 18 tanesini ise Diğer cinsiyette olarak tahmin etmiş. Yani 70 tahminin 38 tanesi doğruymuş. Diğer cinsiyet kategorileri için de tabloyu bu şekilde okuyabilirsiniz.

Cross-validated tablosunu çoğu durumda okumak gerekmemektedir.

diskriminant analizi 27

Yukarıdaki tablonun en altında yazan “a. 50% of original grouped cases correctly classified” yazması, şu anlama geliyor: “Demek ki SPSS, diskriminant analizi sonucunda katılımcıların %50’sinin hangi cinsiyette olduğunu doğru tahmin etmiş”. Bu örnekte 3 cinsiyet kategorisi olduğu için rastgele tahmin yapılsaydı %33 doğru tahmin oranı olacağını kolayca hesaplayabiliriz. Ama SPSS diskriminant analizi sonucunda %33 değil, %50 başarılı tahmin oranı yakalamış. %50 çok iyi bir oran olmasa da, %33 rastgele tahmin isabet oranından da daha yüksek bir oran yine de.

 

Son olarak, SPSS veri setimizin Data View bölümünde açılmış olan yeni sütunları inceleyelim.

Cinsiyet sütunu zaten vardı, bu sütun, her katılımcının hangi cinsiyette olduğunu gösteriyor. Bu sütunun sağındakiler yeni açılmış olan sütunlardır.

Dis_1 sütunu, SPSS’in, bir katılımcının hangi cinsiyette olduğunu tahmin ettiğini gösteriyor.

Dis1_1, Fonksiyon 1’in bulduğu katsayı. Dis2_1, Fonksiyon 2’nin bulduğu katsayı. Biz, bu örnekte sadece Fonksiyon 1’e bakmamız gerektiğini bulduğumuz için Dis2_1 sütununu silebiliriz.

Dis1_2, Dis2_2 ve Dis3_2, SPSS’e göre bir katılımcının hangi cinsiyette olması gerektiğinin olasılığını gösteriyor. Her satırdaki katılımcı için, bu üç sütundaki değerlerin toplamı tam 1.00 etmektedir. Bu örnekte Kadın = 5 ve Erkek = 6 ve Diğer = 7 olarak kodlanmış olduğu için, burada Dis1_2 Kadın’ı, Dis2_2 Erkek’i ve Dis3_2 Diğer cinsiyeti temsil etmektedir.

Mesela 1 numaralı katılımcı gerçekte Kadın’dır. SPSS, bu kişinin Kadın olma olasılığını %29, Erkek olma olasılığını %60, Diğer cinsiyette olma olasılığını ise %10 olarak tahmin etmiş. Buna göre bu kişinin Erkek olması ihtimalinin daha yüksek olduğunu düşünüp bu kişiyi Erkek olarak sınıflandırmış. Yanlış bir sınıflandırma yapmış.

10 numaralı katılımcıya bakalım. SPSS, bu kişinin Kadın olma olasılığını %45, Erkek olma olasılığını %33, Diğer cinsiyette olma olasılığını ise %21 olarak tahmin etmiş. Buna göre bu kişinin Kadın olması ihtimalinin daha yüksek olduğunu düşünüp bu kişiyi Kadın olarak sınıflandırmış. Doğru bir sınıflandırma yapmış.

diskriminant analizi 28

 

SPSS ile Diskriminant Analizi’nin bütün adımları bu kadardı. Okuduğunuz için teşekkürler. Artık siz de kendi diskriminant analizinizi yapıp sonuçlarını yorumlayabilirsiniz.

 

spss tez analizi istatistik ödev yaptırma ücretli spss veri analizi danışmanlık

Deniz Şavkay hakkında 151 makale
Lisans eğitimimi Boğaziçi Üniversitesi Moleküler Biyoloji ve Genetik bölümünde, Yüksek Lisans eğitimimi Polonya'daki SWPS Üniversitesi Psikoloji bölümünde tamamladım. Davranış bilimlerine ilgi duyuyorum ve eğitim hayatımı bunun üzerine şekillendirdim. SPSS ile istatistik analizi yapmayı çok seviyorum. SPSS analizleriyle insan davranışındaki kalıpları keşfetmek ve insan davranışı hakkında iç görü sahibi olmak beni heyecanlandırıyor.

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*