SPSS Çoklu Regresyon Varsayımların Test Edilmesi

SPSS Çoklu Regresyon Varsayımların Test Edilmesi

Çoklu doğrusal regresyon analizi, birden fazla bağımsız değişkenin bir adet bağımlı değişken üzerindeki etkisini incelemek için kullanılan bir istatistiksel analiz yöntemidir. Çoklu doğrusal regresyon analizinin gerçeği yansıtan isabetli sonuçlar verebilmesi için bu analizin belirli varsayımları sağlaması gerekir. Varsayımların ihlali, regresyon analizi modelinin tahmin gücünü düşürebilir ve yanlış sonuçlara varılmasına yol açabilir. Bu yazıda, çoklu regresyon analizinde en sık kontrol edilen varsayımları SPSS kullanarak nasıl test edebileceğinizi adım adım ekran görüntüleriyle açıklayacağım.

spss analizi ücretli danışmanlık tanışma indirimi veri tablo rapor iletişim

 

Çoklu Regresyon Varsayımları Nelerdir?

  • Doğrusal İlişkiler: Bağımsız değişkenler ile bağımlı değişken arasındaki ilişkilerin doğrusal olması gerekmektedir. Eğer bağımsız değişkenlerden en az bir tanesi ile bağımlı değişken arasında doğrusal olmayan (eğri şeklinde) bir ilişki varsa, doğrusal regresyon modeli veriyi doğru şekilde temsil edemez. Scatterplot (serpilme grafiği) ile görselleştirilerek incelenebilir.

  • Homoskedastisite: Modeldeki hata terimlerinin bağımsız değişkenin değerine göre değişen varyans göstermemesi gerekir. Yani hata varyanslarının veri boyunca sabit olması gerekir. Homoskedastisite varsayımı ihlal edilirse, regresyon katsayılarının standart hataları yanlış tahmin edilebilir. Bu da yine Scatterplot (serpilme grafiği) incelenerek öğrenilebilir.

  • Çoklu Bağlantısızlık: Bağımsız değişkenlerin birbirleri arasında yüksek korelasyon olmaması istenir. Aksi takdirde çoklu bağlantı problemi oluşur ve bu da regresyon analizi modelinin gerçeği yansıtan sonuçlar vermesine engel olur. Çoklu doğrusallık VIF (Variance Inflation Factor) değerine bakılarak incelenir.

  • Hata Terimlerinin Bağımsızlığı: Regresyon modelinde hata terimlerinin birbirinden bağımsız olması gerekir. Hata terimlerinin bağımsız olmadığı duruma “otokorelasyon” denir. Özellikle zaman içinde toplanan verilerde otokorelasyon olup olmadığının incelenmesi faydalıdır. Durbin-Watson testi ile kontrol edilir.

  • Normallik: Regresyon modelinde hata terimlerinin normal dağılım göstermesi beklenir. Normallik varsayımı sağlanmazsa, analiz sonucu bulunan güven aralıkları ve p-değerleri hatalı olabilir. Histogram, Q-Q plot ve/veya Kolmogorov-Smirnov & Shapiro-Wilk normallik testleri ile kontrol edilebilir.

profesyonel spss danışmanlık hizmetleri

 

SPSS ile Çoklu Regresyon Varsayımlarını Test Etme

SPSS ile çoklu doğrusal regresyon analizinin varsayımlarının her biri başarılı bir şekilde kontrol edilebilir. Her varsayımı kontrol etmek için farklı bir işlem yapmak gerekmektedir, bu yüzden her varsayımı test etme işlemlerini ayrı bir alt başlık altında göstereceğim. Hazırsak başlayalım.

Bu örnekte, 3 tane bağımsız değişkenin (Stres, Dürtüsellik, Yaşam Doyumu) bir kişinin Depresyon seviyesini belirleyip belirlemediğini incelemek için çoklu regresyon analizi yapmadan önce regresyon analizinin ön varsayımlarını test edeceğiz.

çoklu regresyon varsayım test veriler 1

 

Doğrusal İlişkiler

Çoklu regresyon analizinde bağımsız değişkenlerin her birinin bağımlı değişken ile aralarında doğrusal bir ilişki olması beklenir. Daha doğrusu, doğrusal olmayan (eğrisel) bir ilişkinin olmaması beklenir. Bunu, SPSS ile Scatterplot (nokta saçılım grafiği) oluşturarak kolayca test edebiliyoruz.

Yukarıdaki menüden Graphs -> Scatter/Dot basalım.

çoklu regresyon varsayım doğrusal ilişki 1

 

Açılacak menüde Matrix Scatter seçiyoruz.

çoklu regresyon varsayım doğrusal ilişki 2

 

Bütün bağımlı ve bağımsız değişkenlerimizi Matrix Variables kutusuna atıp OK’a basıyoruz.

çoklu regresyon varsayım doğrusal ilişki 3

 

SPSS bize bütün değişkenlerin birbirleriyle olan ikili ilişkilerine dair nokta saçılım grafikleri verecektir. Bu grafiklerden bizim ilgilenmemiz gerekenler bağımlı değişken ile bağımsız değişkenler arasında olan grafikler. Bağımsız değişkenlerin kendi arasındaki ilişkilerin grafiklerini görmezden gelebiliriz o yüzden.

Aşağıdaki resimde kırmızı işaretli yer ile ilgilenmiyoruz. Yeşil işaretli yer ile ilgileniyoruz. Grafiklerde görebileceğiniz gibi, bağımlı değişken ile hiçbir bağımsız değişkenin doğrusal olmayan bir ilişkisi görülmemektedir. Ya ilişki yok gibi (noktalar rastgele dağılmış), ya da doğrusal bir ilişki var gibi görünmektedir. O zaman bu varsayımı doğrulamış sayılabiliriz.

çoklu regresyon varsayım doğrusal ilişki 4

 

Aşağıda doğrusal olan (yeşil) ve doğrusal olmayan (kırmızı) ilişkileri gösteren nokta saçılım grafiği örnekleri koydum.

korelasyon 12

 

Homoskedastisite

Homoskedastisite, çoklu regresyon analizinde hata terimlerinin (residual) varyansının bağımsız değişkenlerin seviyesine göre değişmemesi durumudur. Yani, bağımsız değişkenlerin aldığı değerler düşük olsa da yüksek olsa da modelin tahmin hatalarının (residual) dağılımı değişmemelidir.

Eğer değişmiyorsa buna homoskedastisite denir. Eğer bu varsayım ihlal edilirse yani değişiyorsa da buna heteroskedastisite denir.

Homoskedastisite olmaması durumunda regresyon analizi modeli tarafından tahmin edilen standart hatalar güvenilmez hale gelir ve analiz sonucunda yanlış sonuçlara ulaşılır.

Regression -> Linear bölümünden regresyon analizi yapma kısmına giriyoruz.

çoklu regresyon varsayım heteroskedastisite 1

 

Bağımlı ve bağımsız değişkenlerimizi yerlerine yerleştirdikten sonra “Plots” butonuna basıyoruz. Açılan yeni pencerede Y kutusuna ZRESID, X kutusuna da ZPRED giriyoruz. Ne anlama geldiklerini bir sonraki resimde açıklayacağım.

çoklu regresyon varsayım heteroskedastisite 2

 

Yatay eksene koyduğumuz ZPRED “Standardize Edilmiş Beklenen Değer” demektir. Dikey eksene koyduğumuz ZRESID de “Standardize Edilmiş Artık Değer (Residual)” demektir. Biz bu aşağıdaki tabloda, standardize edilmiş beklenen değerler (ZPRED) soldan sağa küçükten büyüğe gittikçe standardize edilmiş artık değerlerin (ZRESID) varyanslarının değişiyor olup olmadığını kontrol edebiliyoruz bu grafikte.

Bakmamız gereken şey, grafikteki noktaların bir huni şeklinde görünüp görünmediği. Huni şeklinde görünmemeli. Şu an bir huni şeklinde görünmüyor, homojen görünüyor ZPRED değerleri küçükken de noktaların dağılımı benzer ZPRED değerleri büyükken de. Yani hata terimlerinin varyansı eşit gidiyor diyebiliriz grafik boyunca soldan sağa. O yüzden mükemmel olmasa da homoskedastisite varsayımı sağlandı diyebiliriz bu varsayım testinin sonucunda da.

çoklu regresyon varsayım heteroskedastisite 3

 

Çoklu Bağlantısızlık

Çoklu doğrusallık (multicollinearity), çoklu regresyon analizinde bağımsız değişkenler arasında yüksek derecede korelasyon bulunması durumudur. Çoklu bağlantısızlık ise yüksek derecede korelasyon bulunmadığı durumu ifade eder. Çoklu doğrusallık varsa bu bir problemdir, çünkü bağımsız değişkenlerin birbiri arasında çok yüksek korelasyon olması, regresyon analizi modelinin tahmin gücünü azaltabilir, değişkenlerin bireysel etkilerini doğru bir şekilde belirlemeyi zorlaştırabilir ve standart hataların şişmesine neden olarak regresyon katsayılarının değerlerini ve anlamlılık testlerini etkileyebilir. Analiz edeceğimiz veride çoklu doğrusallık olup olmadığı 2 şekilde test edilir, ikisini de göstereceğim ikisi de kısa.

Yani çoklu regresyon analizinde çoklu doğrusallık olmasını istemiyoruz.

Çoklu doğrusallık tespit edildiğinde, birbiriyle yüksek korelasyon gösteren değişkenlerden birinin analizden çıkartılması tavsiye edilir.

Çoklu Doğrusallık Analizi Korelasyon Tablosu

Analiz edeceğimiz bağımsız değişkenlerin birbiriyle 0.80 veya daha üzeri korelasyon gösterirse “çoklu doğrusallık var” demek olur ve bu bir problemdir. Bunu, bir korelasyon analizi yaparak test edebiliriz.

Pozitif veya negatif korelasyon olması fark etmez, yani 0.80 ile 1 arasında veya -0.80 ile -1 arasında bir korelasyon görmek istemiyoruz bağımsız değişkenlerin birbiri arasında.

Analyze -> Correlate -> Bivariate basarak korelasyon analizini yapalım.

çoklu regresyon varsayım çoklu doğrusallık multicollinearity 1

 

Bağımsız değişkenlerin hepsini (bağımlı değişkeni değil) sağdaki Variables kutusuna koyalım. Sonra OK’a basalım.

çoklu regresyon varsayım çoklu doğrusallık multicollinearity 2

 

SPSS’in bize sunduğu korelasyon analizi sonuçlarında, kırmızı yuvarlak içine aldığım korelasyon katsayılarına bakmamız gerekiyor. Eğer buradaki değerler -0.80 ile 0 ile +0.80 arasındaysa o zaman çoklu doğrusallık olmadığı sonucuna varabiliriz.

Mesela burada çoklu doğrusallık problemi yok.

çoklu regresyon varsayım çoklu doğrusallık multicollinearity 3

 

Çoklu Doğrusallık Analizi VIF (Variance Inflation Factor)

Çoklu doğrusallık olup olmadığını, hiç korelasyon analizine girmeden direkt regresyon analizi penceresinden de inceleyebiliriz. Bu bağlamda VIF değeri, Tolerans değeri ve Condition Index değeri incelenebilmektedir. Aşağıdaki şartlar sağlanırsa “veride çoklu doğrusallık problemi yok” diyebiliriz:

  • VIF değeri 10 veya üzeri olmaması gerekir. Ayrıca genel olarak 1’in çok üstünde olmaması gerekir değerler.
  • Tolerans değeri “1 bölü VIF” değerine eşittir, bu yüzden VIF değeri uygunsa bu da uygun çıkar. Tolerans değeri 0.1’den büyük olmamalıdır.
  • Condition Index değeri 30’dan büyük olmaması istenir.

Yine Analyze -> Regression -> Linear ile regresyon analizi yapma penceresine gidelim.

çoklu regresyon varsayım heteroskedastisite 1

 

Regresyon analizi penceresinde bağımlı ve bağımsız değişkenlerimizi yerleştirdikten sonra “Statistics” butonuna basalım. Açılan pencerede “Collinearity diagnostics” seçeneğini işaretleyelim.

Sonra “Continue” ve “OK” basarak analizi başlatalım.

çoklu regresyon varsayım çoklu doğrusallık multicollinearity 4

 

Regresyon analizi sonucunda elde edeceğimiz tablolardan Coefficients başlıklı tabloda en sağ sütunda VIF değerini görebiliriz. Her değişken için ayrı bir VIF değeri hesaplanır. Bu örnekte bu değerlerin hepsi 1’e çok yakındır ve 10’un üzerinde VIF değerine sahip değişken yoktur. Bu yüzden “çoklu doğrusallık olmaması” varsayımı da sağlanmıştır.

çoklu regresyon varsayım çoklu doğrusallık multicollinearity 5

Tabloda VIF’in hemen solunda Tolerance değerini de görebiliriz. Ayrıca burada göstermeyeceğim ama SPSS’in size verdiği tablolarda bunun hemen altındaki tabloya bakarsanız Condition Index değerini de görebilirsiniz. Onun da 30’dan büyük olmaması gerekir “çoklu doğrusallık yok” diyebilmemiz için.

Bu VIF & Tolerance & Condition Index hep birbirleriyle uyumlu çıkar zaten, o yüzden genellikle bir tanesine bakmamız yeter.

 

Hata Terimlerinin Bağımsızlığı (Otokorelasyon Olmaması)

11 Nisan 2024 ile 31 Mayıs 2024 arasında veri toplanan, iklim kriziyle ilgili bir anket çalışması yaptığımızı düşünelim. Diyelim ki 10 Mayıs’ta iklim krizi ile ilgili yeni bir gelişme oldu ve insanların bu tarihten sonra iklim krizi hakkındaki görüşleri değişti. O zaman bizim anketimizi 10 Mayıs’tan önce dolduranlar ve 10 Mayıs’tan sonra dolduranlar arasında cevaplar bakımından biraz farklılık olacaktır.

Böyle bir durumun yaşanması bizim istatistiksel veri analizi sürecimizi olumsuz etkiler. Biz, veri toplarken katılımcılar anketimizi ne zaman doldurmuş olurlarsa olsunlar sonuçların değişmemesini istiyoruz. Bu varsayımı Durbin-Watson Testi ile test ediyoruz.

Durbin-Watson Testi, verilerimizin veri setinde nasıl sıralandığına göre sonucu değişen bir testtir. Mesela verilerimizi ID (kimlik) numarasına göre sıralayıp aynı regresyon analizini yaparsak veya yaşlarına göre sıralayıp aynı regresyon analizini yaparsak bütün regresyon analizi sonuçları birbirine tıpa tıp eşit olacaktır; Durbin-Watson Testi sonucu hariç…

Biz, genelde katılımcıların ankete verdikleri cevaplarının zamana göre değişmemesini arzuluyoruz, o yüzden katılımcıların anketi doldurma sırasını ifade eden ID numarasına göre sıralıyoruz önce veri setimizde küçükten büyüğe. Aşağıdaki resimde en sol sütunda görebilirsiniz bunu.

Şimdi Analyze -> Regression -> Linear ile regresyon analizi yapma penceresine gidelim.

çoklu regresyon varsayım heteroskedastisite 1

 

Regresyon analizi penceresinde bağımlı ve bağımsız değişkenlerimizi yerleştirdikten sonra “Statistics” butonuna basalım. Açılan pencerede “Durbin-Watson” seçeneğini işaretleyelim.

Sonra “Continue” ve “OK” basarak analizi başlatalım.

çoklu regresyon varsayım otokorelasyon durbin watson 1

 

SPSS’in bize vereceği sonuç tabloları arasında Model Summary başlıklı tabloyu bulalım. O tablonun en sağ kısmında Durbin-Watson değerimiz yer alacaktır.

Durbin-Watson değeri 0 ile 4 arasında değişir. Biz bunun 2’ye olabildiğince yakın olmasını istiyoruz. Eğer 1.5 ile 2.5 aralığındaysa uygundur. Eğer 1.5’tan küçük veya 2.5’tan büyük bir Durbin-Watson değeri elde edersek “verimizde otokorelasyon problemi var” demek olur.

çoklu regresyon varsayım otokorelasyon durbin watson 2

Bu örnekte Durbin-Watson değerini 2.124 bulduk yani otokorelasyon yok sonucuna varabiliriz. İstediğimiz sonuç buydu.

 

Normallik Varsayımı

Kalan son varsayımın test edilmesine geldik. Çoklu doğrusal regresyon analizi, adı üstünde doğrusal (lineer) bir analiz modelidir. Doğrusal modellerin isabetli sonuç verebilmesi için normal dağılım varsayımının sağlanıyor olması gerekmektedir.

Çoklu doğrusal regresyon analizinin normallik varsayımı, “analizin hata terimlerinin normal dağılım göstermesi” olarak bilinir. Regresyon analizinde hata terimlerini elde etmeyi ve normal dağılım gösterip göstermediğini test etmeyi göstereceğim şimdi.

Yine Analyze -> Regression -> Linear ile regresyon analizi yapma penceresine gidiyoruz.

çoklu regresyon varsayım heteroskedastisite 1

 

Regresyon analizi penceresinde bağımlı ve bağımsız değişkenlerimizi yerleştirdikten sonra “Save” butonuna basalım. Açılan pencerede “Residuals” başlığının altındaki “Standardized” seçeneğini işaretleyelim.

Sonra “Continue” ve “OK” basarak analizi başlatalım.

çoklu regresyon varsayım normallik 1

 

Sonra SPSS bize regresyon analizi sonuç çıktılarını verecek yeni bir pencerede ama bizim ihtiyacımız olan şey şu an o değil; o yüzden Output penceresini kapatıp veri setimize dönelim.

Veri setimizin en sağ kısmında, ZRE_1 isimli yeni bir değişken oluşacak. Bu, “standardize artık değer” demektir ve her katılımcının gerçek skorunun regresyon analizi modeli tarafından tahmin edilen skordan ne kadar farklı olduğunu ifade eder. Bunların normal dağılım gösterip göstermediğini incelememiz gerekiyor bizim.

Analyze -> Descriptive Statistics -> Explore

çoklu regresyon varsayım normallik 2

 

Yeni oluşan standardize artık değer değişkenimizi Dependent List kutusuna koyalım. Sonra “Plots” butonuna basıp Histogram ve Normality Plots seçeneklerini seçelim, aynı aşağıdaki gibi.

çoklu regresyon varsayım normallik 3

 

Sonra çeşitli tablo ve grafikler gelecek önümüze. Bunları nasıl yorumlamak gerektiğini normal dağılım başlıklı yazımda detaylı olarak anlatıyorum, ama burada da kısaca anlatayım.

Eğer verinizde 100’den az kişi varsa o zaman kırmızı ile işaretlediğim Kolmogorov-Smirnov veya Shapiro-Wilk testlerinin sonucunda bulunan Sig. yani p değerlerine bakmanız gerekiyor. Eğer p değeri 0.05’ten büyükse o zaman “normal dağılım var” diyebiliyoruz. Eğer 0.05’ten küçükse “normal dağılımdan farklı” sonucuna varıyoruz. Burada mesela bu iki testin de sonucunda p değerleri 0.05’ten küçük bulunmuş yani “normal dağılım” yok yönünde işaret ediyor.

Eğer verimizde 200’den fazla katılımcı varsa o zaman da Skewness ve Kurtosis yani sırasıyla çarpıklık ve basıklık değerlerine bakmak daha doğru oluyor. Bu değerlerin ikisinin de -2 ile +2 arasında yer alması gerekiyor. Aşağıda göreceğiniz gibi bu örnekte çarpıklık değeri 0.541 (0.197 standart hatasını ifade ediyor) ve basıklık değeri -0.166 (0.391 standart hatasını ifade ediyor). Yani ikisi de “normal dağılım var” işaret ediyor.

Ayrıca, veri setinde kaç katılımcı olursa olsun, histogram grafiğine bakarak normal dağılıma benziyor mu yoksa normal dağılımdan ne kadar farklı diye gözümüzle incelememiz faydalı olmaktadır.

çoklu regresyon varsayım normallik 4

Bu örnekte 152 kişilik bir katılımcı grubumuz vardı, o yüzden çarpıklık ve basıklık yani Skewness ve Kurtosis değerlerine bakarak (ve histogram grafiğine bakıp sağlamasını yaparak) sonuç olarak verimiz “normal dağılıma uygun” şeklinde bir sonuca varmak daha doğru oluyor. Bu yorumlama biçimi sizin kendi verinize göre değişebilir ama mantık hep aynıdır.


Çoklu doğrusal regresyon analizinin varsayımlarının test edilmesi bu kadardı. Bu örnekte bütün varsayımları test ettik ve doğrulandığını gördük. Demek ki veriyle yaptığımız regresyon analizi bizi doğru, isabetli ve güvenilir sonuçlara ulaştıracaktır. Bu veriyle yapılan regresyon analizi hakkında yazdığım diğer yazıyı okumak için de linke tıklayabilirsiniz.

SPSS Eğitim

Deniz Şavkay hakkında 182 makale
Lisans eğitimimi Boğaziçi Üniversitesi Moleküler Biyoloji ve Genetik bölümünde, Yüksek Lisans eğitimimi Polonya'daki SWPS Üniversitesi Psikoloji bölümünde tamamladım. Davranış bilimlerine ilgi duyuyorum ve eğitim hayatımı bunun üzerine şekillendirdim. SPSS ile istatistik analizi yapmayı çok seviyorum. SPSS analizleriyle insan davranışındaki kalıpları keşfetmek ve insan davranışı hakkında iç görü sahibi olmak beni heyecanlandırıyor.

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*