İçindekiler
Multinominal lojistik regresyon, istatistiksel bir yöntemdir ve çeşitli kategorilere ait verilerin analizinde kullanılır. Bu blog yazısında, SPSS programı kullanarak multinominal lojistik regresyonun nasıl yapıldığını adım adım öğreteceğiz. İlk olarak, multinominal lojistik regresyonun ne olduğunu ve nasıl çalıştığını anlatacağız. Daha sonra, SPSS programını kullanarak bu analizi gerçekleştirmek için gerekli adımları göstereceğiz. Siz de bu yazıyı okuyarak, kendi multinominal lojistik regresyon analizlerinizi yapabileceksiniz. Hazırsanız, başlayalım!
Multinominal Lojistik Regresyon Nedir?
Multinominal lojistik regresyon, iki kategoriden fazla kategoriye sahip olan bir bağımlı değişkenin hangi kategorilerinin daha sık gerçekleşeceğini tahmin etmek için kullanılan bir istatistik yöntemidir. Bu, iki kategorili sonuçlarla uğraşan binary lojistik regresyonun daha geniş bir versiyonudur.
Multinominal lojistik regresyonda bağımlı değişken üç veya daha fazla sırasız kategoriye sahip kategorik veri olmalıdır. Bağımsız değişkenler kategorik veya sürekli olabilir. Amaç, bağımlı değişkenin her kategorisinin olasılığını bir referans kategorisine göre modellemektir.
Eğer üç veya daha fazla sıralı kategoriye sahip bir bağımlı değişken varsa o zaman multinominal yerine ordinal lojistik regresyon yapılmalıdır.
Multinominal lojistik regresyon modeli, her bir diğer kategoriyi, başta belirlenen referans kategorisi ile karşılaştırıp hangi ihtimalin gerçekleşeceğini tahmin eder. Her kategorinin gerçekleşme olasılığı, tahmin edilen olasılıkların tüm kategoriler boyunca 1’e toplandığı bir softmax fonksiyonu adı verilen lojistik fonksiyon kullanılarak tahmin edilir.
Multinominal lojistik regresyon müşterilerin alışveriş tercihlerini tahmin etme veya seçmenlerin hangi adaya oy vereceği gibi çeşitli alanlarda yaygın olarak kullanılır.
Multinominal Lojistik Regresyon Varsayımları Nelerdir?
Multinominal lojistik regresyon, oldukça güçlü bir regresyon analizi türüdür. Öyle ki multinominal lojistik regresyon yapabilmek için çok fazla varsayımın doğrulanması gerekmez. Örneğin bağımsız değişkenlerin kategorik, ordinal veya sürekli veri tipinde olması fark etmez hepsi geçerlidir.
Yalnızca, bağımlı değişkenin 3 veya daha fazla kategoriye sahip bir kategorik değişken olması şarttır. Ayrıca, kategoriler sırasız olmalıdır. Yani bağımlı değişkenin alabileceği değerlerin Kötü – Orta – İyi şeklinde bir sıralaması olmamalıdır. Mesela Ayran – Kola – Meyve Suyu şeklinde farklı değerler alabilir, bu içeceklerin bir sırası olmadığı için multinominal lojistik regresyon analizine uygundur.
Bunun dışında, birden fazla sürekli veri tipinde bağımsız değişken varsa, bunların birbirleriyle çok yüksek korelasyon göstermemesi iyi olur, fakat bu olsa bile çok önemli bir sorun yaratmaz.
Multinominal lojistik regresyon yapabilmemiz için bağımlı değişkenin en az 3 sırasız kategoriye sahip bir kategorik veri olması şarttır. 3 veya daha fazla sıralı kategoriye sahip bir kategorik verimiz varsa, multinominal yerine ordinal lojistik regresyon yapmalıyız.
SPSS ile Multinominal Lojistik Regresyon Nasıl Yapılır?
SPSS ile multinominal lojistik regresyon yapma adımlarını aşağıda anlatacağım.
Öncesinde, bu örnekte nasıl bir veriyi analiz edeceğimizden bahsedeyim. Bu, analizde neler yaptığımızı anlamanıza yardımcı olacak.
Bu örnekte, ekonomik durumun, sorumluluk duygusunun ve reşit olup olmamanın bir insanın restoranda ısmarladığı yemek türünü nasıl etkilediğini araştıracağız.
Değişkenler şu şekilde kodlandı:
- Ekonomik durum -> Kategorik veri (1 = Fakir; 2 = Orta; 3 = Zengin)
- Sorumluluk duygusu -> Sorumluluk -> Sürekli veri (1’den 7’ye kadar)
- Reşit olup olmama -> Kategorik veri (0 = Reşit değil; 1 = Reşit)
- Yemek seçimi -> Kategorik veri (5 = Hamburger, 6 = Salata, 7 = Yoğurt, 8 = Pizza)
Şimdi, SPSS multinominal lojistik regresyon analizimize başlayalım.
Analyze -> Regression -> Multinominal Logistic
Bağımlı değişkenimizi Dependent kutusuna atıyoruz.
Bağımsız değişkenlerimizden, sürekli veri tipinde ve sadece 2 kategoriden oluşan kategorik veri olanlarını, en alttaki Covariate(s) kutusuna atıyoruz. Sadece 2 kategoriden oluşan kategorik verilerinizi analiz öncesi 0 – 1 şeklinde kodlamış olursanız daha iyi olur.
Bağımsız değişkenlerimizden, 3 veya daha fazla kategoriden oluşan veya ordinal olan değişkenlerimizi, ortadaki Facto(s) kutusuna atıyoruz.
Bağımlı değişkenimizi düzgün analiz edebilmek için referans kategorisi belirlemeliyiz. “Reference Category” butonuna basıyoruz.
Açılan yeni pencerede herhangi birini işaretleyebilirsiniz ama hangisini işaretlediğiniz aklınızda olsun.
Biz burada Reference Category olarak First Category işaretliyoruz. Hatırlarsanız bağımlı değişkenimiz olan Yemek’i kodlarken 5’ten 8’e kadar değerler kullanmıştık. First Category işaretlediğimizde, referans kategorisi en küçük değer olan kategori oluyor, yani 5 = Hamburger.
“Statistics” butonuna basıyoruz. Aşağıdaki resimde görünen seçenekleri işaretliyoruz.
“Save” butonuna basıyoruz. Aşağıdaki resimdeki Saved Variables kısmındaki dört seçeneği de işaretliyoruz.
“Continue” ve “OK” butonlarına basarsak SPSS multinominal lojistik regresyon analizimizi başlatacak. Analiz sonuçlarının nasıl yorumlanması gerektiğini aşağıdaki başlığın altında bulabilirsiniz.
Multinominal Lojistik Regresyon SPSS Tablo Yorumlama
Multinominal lojistik regresyon analizini başlattıktan sonra, SPSS bize birtakım tablolar verecek.
“Model Fitting Information” tablosundaki Sig. değerine bakarak, multinominal lojistik regresyon modelimizin p anlamlılık değerini görebiliyoruz. Eğer bu değer 0.05’ten küçükse, bu demek oluyor ki regresyon modelimizdeki değişkenlerden en az 1 tanesi, bağımlı değişken olan Yemek Tercihi üzerinde anlamlı bir etkiye sahip yani hangi yemeğin daha çok veya daha az tercih edileceğini belirten en az 1 adet bağımsız değişken var.
“Goodness Of Fit” tablosu, SPSS ile kurduğumuz multinominal lojistik regresyon modelimizin bizim verimize ne kadar uyumlu olduğunu gösteriyor. Buradaki Pearson ve Deviance değerlerinin 0.05’ten büyük olmasını istiyoruz. Eğer 0.05’ten büyük bir değer varsa, bu, bizim regresyon modelimizin veri setimize uyumu iyi demektir.
Bizim örneğimizde Pearson 0.05’in altında çıkmış, Deviance 0.05’in üstünde çıkmış. Bu p değerlerinin biri 0.05’in üstünde biri altında çıktığında genelde 0.05’in üstünde çıkana odaklanıp “modelin veriye uyumu yeterince iyidir” deniyor.
“Pseudo R-Square” tablosunda üç farklı lojistik regresyon R-Kare değeri gösterilmektedir. Bu değerler, doğrusal regresyon modellerindeki R-Kare değerlerinin analojileridir. Benzer amaçla kullanılırlar ama hesaplanma yöntemleri farklıdır.
Cox and Snell ve Nagelkerke R-Square değerleri, modelin bağımlı değişkendeki varyasyonu ne kadar açıklayabildiğini anlamak için kullanılmamalıdır. Bu Pseudo R-Square değerlerinden multinominal lojistik regresyonda McFadden kullanılabilir.
Bu örnekteki McFadden Pseudo R-Square değerimiz 0.70, yani “Bağımsız değişkenlerden oluşturduğumuz multinominal lojistik regresyon modeli, Yemek Tercihi bağımlı değişkenimizdeki varyasyonun %7’sini açıklamaktadır.” şeklinde bir yorumlama yapabiliriz.
“Likelihood Ratio Tests” tablosundaki Sig. değeri, her bağımsız değişkenimizin ayrı ayrı olarak bağımlı değişkendeki değişimi istatistiksel olarak anlamlı biçimde açıklayabilip açıklayamadığı hakkında bilgi veriyor. Bu tabloya göre, Sorumluluk değişkeni Yemek Tercihi’ndeki değişimi istatistiksel olarak anlamlı biçimde açıklıyor. Reşit olup olmamak anlamlı biçimde açıklamıyor yani önemsiz. Ekonomik durum da Yemek Tercihi’ndeki değişimi anlamlı biçimde açıklıyor.
“Parameter Estimates” tablosu, incelemek için en çok zaman harcanacak multinominal lojistik regresyon tablosudur. Bu tablodaki her satırı ayrı ayrı açıklayacağım sırayla. Böylece farklı durumlarda nasıl farklı yorumlar yapılıyor onu görmüş olacaksınız.
Öncelikle bağımlı değişkenimiz olan Yemek Tercihi’ni nasıl kodlamış olduğumuzu hatırlayalım: 5 = Hamburger, 6 = Salata, 7 = Yoğurt, 8 = Pizza
Hamburger’i referans kategorisi olarak seçmiştik. Bu tabloda, sırayla Salata, Yoğurt, ve Pizza kategorileri, Hamburger kategorisiyle karşılaştırılıyor. (Eğer Salata’yı Yoğurt’la karşılaştırmak istiyorsanız bu ikisinden birini referans kategorisi alan başka bir lojistik regresyon analizi kurmalısınız.)
Salata – Sorumluluk
Salata’ya ait olan Sorumluluk satırına bakalım. Önce Sig. değerine bakıyoruz. Buradaki değer 0.010 yani 0.05’ten küçük anlamlı bir p değeri. Demek ki Sorumluluk seviyesi Salata ısmarlama oranını anlamlı biçimde etkiliyor.
B değeri pozitif. B değeri sadece doğrusal bir fonksiyonda işe yarayan bir katsayıdır. Fakat lojistik regresyon doğrusal bir fonksiyon değil. Bu yüzden B değerini Exp(B) diye başka bir katsayıya çevirip onu yorumlamak gerekiyor. O yüzden biz B yerine Exp(B) değerine bakıp yorumlama yapacağız. Salata için Sorumluluk’un Exp(B) değeri 1.355’miş.
Exp(B), bir lojistik regresyon modelinin B katsayısının üstel fonksiyonunu ifade eder. Bu, bir birimlik değişikliğin olasılık oranındaki (Odds Ratio) etkisini temsil eder. Bu yüzden Exp(B) değeri için Odds Ratio terimi de kullanılmaktadır.
1.355 olan Exp(B) değeri şu anlama geliyor: Sorumluluk puanı arttıkça, Salata tercih etme oranı artıyor. Sayısal olarak detaylıca şöyle yorumlayabiliriz: “Sorumluluk’ta eğer 1 puanlık artış meydana geliyor ise, bir katılımcının yemek olarak Salata seçme ihtimali, ilk baştaki ihtimalin %135.5’i kadardır.”
Sorumluluk’ta eğer 2 puanlık artış meydana geliyorsa Salata seçme ihtimali, en baştaki ihtimalin %135.5′inin %135.5′i kadar oluyor yani en baştaki ihtimalin %183.6’sı kadar oluyor.
B değeri pozitif ise Exp(B) değeri her zaman 1’den büyük olur, B değeri negatif ise Exp(B) değeri her zaman 1’den küçük olur.
Salata – Reşitlik Durumu
Reşitlik değişkeninin Sig. yani p değeri 0.856 çıkmış. Yani sonuç istatistiksel olarak anlamlı değil. Bu yüzden normalde bu değişken için tabloyu daha fazla okumaya gerek yok.
Fakat örnek göstermek açısından, eğer istatistiksel olarak anlamlı bir p değeri çıksaydı nasıl olurdu yorumlayalım.
Reşitlik durumu en başta 0 = Reşit değil; 1 = Reşit olarak kodlanmıştı. Yemek de 5 = Hamburger, 6 = Salata olarak kodlanmıştı.
Exp(B) değeri 1.096 ve B değeri pozitif. Şöyle yorumluyoruz: “Reşit olmak, yemek olarak Hamburger yerine Salata seçme ihtimalini baştaki ihtimalin %9.6’sı kadar arttırarak %109.6’sı yapıyor.”
Salata – Ekonomik Durum
Hatırlarsak 1 = Fakir; 2 = Orta; 3 = Zengin kodlamıştık. Parameter Estimates tablosuna bakarsak SPSS Zengin’i referans kategorisi olarak atadığını görüyoruz.
1. modele bakarsak, Sig. yani p değeri 0.518 yani istatistiksel olarak anlamlı değil. Bu yüzden bu satırı daha fazla okumaya gerek yok.
2. modele bakarsak, Sig. yani p değeri 0.029 yani istatistiksel olarak anlamlı. 0.652 olan Exp(B) değerine bakarsak, diyebiliriz ki “Zengin yerine Fakir olmak, Yemek olarak Salata seçme ihtimalini baştaki ihtimalin %65.2’si kadar yapıyor.” Başka bir deyişle: “Zengin yerine Fakir olmak, Salata seçme ihtimalini %34.8 azaltıyor.”
100 – 65.2 = 34.8 işlemini yaptık bu hesabı yaparken.
Not: Burada maalesef Fakir ekonomik durumdan Orta ekonomik duruma geçmek Salata seçme ihtimalini ne kadar arttırıyor direkt olarak göremiyoruz. Bunu görebilmek için ikisinden birini referans kategorisi olarak ayarlayıp yeniden aynı lojistik regresyon analizini yapmalıyız. O zaman görürüz.
Yoğurt ve Pizza
Bağımsız değişkenlerin durumunun Yoğurt ve Pizza seçimini etkileyip etkilemediğini de, aynı yukarıda Salata seçme ihtimalini incelediğimiz şekilde incelemek gerekiyor. Yaşanabilecek bütün tipte örnekleri (kategorik ve sürekli veri tipindeki pozitif ve negatif B değerlerini, 1’den büyük ve küçük Exp(B) değerlerini) yukarıdaki örneklerde gösterdim. Aynı mantığı kullanarak kendi multinominal lojistik regresyon analizlerinizde her çeşit veri için yorumlama yapabilirsiniz.
Son olarak, “Classification” tablosuna bakalım. “Observed” bölümündekiler gerçek değerlerdir ve “Predicted” bölümünde bulunan değerler SPSS’in, kurduğu lojistik regresyon modeli üzerinden tahmin ettiği değerlerdir.
Burada ilk satıra bakarsak, SPSS’in Hamburger seçen toplam 60 kişiden 41’ini Hamburger seçiyor olarak, 19’unu ise Salata seçiyor olarak bulduğunu görüyoruz. Yani 60 kişiden 41’inin tercihini doğru bilmiş. %68.3 oranla doğru bilmiş.
Yine benzer şekilde Salata seçen toplam 70 kişiden 45’inin Salata seçeceğini doğru bilmiş SPSS. %64.3’lük bir isabetli tahmin oranı var.
Yoğurt ve Pizza’yı ise epey başarısız tahmin ettiğini görüyoruz; tahminlerin isabet oranı birinde %21.4 birinde de %37.5. Bu multinominal lojistik regresyon analizlerinde normaldir. Yoğurt ve Pizza seçen kişi sayıları, Hamburger ve Salata seçen kişi sayılarına göre çok az olduğundan, SPSS, lojistik regresyon modelini Hamburger ve Salata’ya uydurmaya daha çok çalışmıştır. Bu yüzden az kişinin seçtiği değerleri doğru tahmin etme oranı düşüktür.
Bizim için genelde pratikte çok katılımcının tercih ettiği değerleri başarılı şekilde tahmin etmek daha önemli oluyor. Bu yüzden az katılımcının tercih ettiği değerlerin SPSS multinominal lojistik regresyon analizinde düşük isabetle tahmin edilmiş olması büyük bir sorun değil.
Multinominal lojistik regresyon analizi sonucu SPSS tablolarını yorumlama kısmı bu kadardı. Son olarak, veri setinde bir şeyi daha göstermek istiyorum.
SPSS regresyon analizine başlarken “Save” kısmında dört farklı seçenek işaretlemiştik. Bu işaretlediğimiz seçenekler SPSS veri setimizde yeni sütunlar açılmasına yol açtı. Bu sütunları ve her katılımcı için değerlerini SPSS Variable View penceresinde en sağ tarafta görebilirsiniz. Bunlar ne demek bakalım:
- EST = Estimated Response Probabilities (tahmini cevap olasılığı)
- PRE = Predicted Category (beklenen kategori)
- PCP = Predicted Category Probability (beklenen kategori olasılığı)
- ACP = Actual Category Probability (gerçek kategori olasılığı)
Aşağıda, bunların sırayla ne demek olduğunu ve neden kullanışlı olduğunu açıklayıp yazıyı bitireceğim.
Hatırlarsak bağımlı değişken olan Yemek kategorilerini şu şekilde kodlamıştık: 5 = Hamburger, 6 = Salata, 7 = Yoğurt, 8 = Pizza. Küçükten büyüğe sıralandığında EST_1 Hamburger’e, EST_2 Salata’ya, EST_3 Yoğurt’a, EST_4 de Pizza’ya karşılık gelmektedir. Her satır bir katılımcıyı ifade ediyor. Her satırda bu dört sütunda SPSS’in, kurduğu lojistik regresyon modeline göre o katılımcının seçeceği Yemek çeşidinin SPSS’in tahmin ettiği olasılıkları görünüyor.
Mesela en üst satırdaki katılımcının Ekonomik Durum, Sorumluluk, ve Reşit olup olmama durumuna göre Hamburger, Salata, Yoğurt, ve Pizza seçimi ihtimallerini SPSS şöyle tahmin etmiş: 1. katılımcı %44 Hamburger, %28 Salata, %22 Yoğurt ve %7 Pizza seçer diye tahmin etmiş. Bunların arasında en yüksek ihtimal Hamburger olduğu için, PRE sütununda 5 yazıyor yani Hamburger’in kodu. PCP’de o satırdaki en yüksek ihtimalli kategorinin ihtimali kaç ise o yazar. ACP kategorisinde ise gerçekte bu katılımcının seçtiği gerçek yemeğin oranı yazar. Bu katılımcı SPSS’in %7 ihtimal verdiği Pizza yemeğini seçmiş. Yani bu katılımcının ne yemek seçtiğini SPSS yanlış tahmin etmiş.
Bu şekilde bütün katılımcılar için SPSS’in yaptığı tahmin ve gerçek değeri karşılaştırdığımızda, SPSS’in toplam bütün tahminlerinin %59.9’u doğru isabetli olmuş olacak, Classification tablosundan bunu biliyoruz.
Son bir yorum daha: Verimizdeki bütün katılımcılar kapsamında düşündüğümüzde, PCP sütunundaki Predicted Category Probability yani beklenen kategori olasılığı değerleri genel olarak ne kadar büyükse SPSS ile kurduğumuz multinominal lojistik regresyon modeli o kadar başarılıdır ve iyi çalışmaktadır diyebiliriz.
Bir yanıt bırakın