Çoklu Doğrusallık Nedir? (Multicollinearity)

çoklu doğrusallık problemi spss

Çoklu Doğrusallık (Multicollinearity) Nedir?

Çoklu doğrusallık (Multicollinearity), çoklu regresyon analizinde bağımsız değişkenler arasında yüksek düzeyde korelasyon olması durumudur. Yani, bağımsız değişkenlerden en az 2 tanesi birbirleriyle yüksek derecede ilişkiliyse buna “çoklu doğrusallık problemi” denir.

“Çoklu doğrusallık” terimi, aynı zamanda “çoklu bağlantı problemi” olarak da geçer.

“Çok yüksek ilişki” derken kastedilen genelde 2 bağımsız değişkenin birbiri arasında 0.70’ten veya 0.80’den yüksek korelasyon olmasıdır. (Fakat 3 bağımsız değişkenin her birinin arasında 0.60’tan yüksek korelasyonlar olmasının da aynı miktarda problem yarattığı söylenmektedir.)

Peki bu neden bir sorundur?

Çoklu regresyon analizinde bağımsız değişkenlerin birbirleriyle çok yüksek ilişkiye sahip olması, regresyon analizinin sonuçlarının gerçeği yansıtan isabetli sonuçlar vermesini engeller.

Çoklu doğrusallık durumu:

  • Standart hata değerlerini şişirerek bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerinin anlamsız çıkmasına yol açabilir.
  • Tahmin edilen regresyon katsayılarının güvenilirliğini bozar. Nadiren de olsa katsayılarda yön değişimleri (pozitifken negatif çıkması gibi) görülebilir.

İstatistik Danışmanlık Hizmeti Tez Makale

 

Çoklu regresyon analizi yaptıktan sonra ANOVA tablosunda p değerinin 0.05’ten küçük yani anlamlı olduğunu, fakat Coefficients tablosunda hiçbir bağımsız değişkenin etkisinin anlamlı olmadığını görmüş olabilirsiniz. “Madem regresyon analizi modeli anlamlı, o zaman neden hiçbir bağımsız değişkenim anlamlı çıkmıyor” diye düşünmüşsünüzdür. İşte bunun en yaygın sebebi, veride çoklu doğrusallık bulunmasıdır.

2 veya daha fazla bağımsız değişken birbirleri arasında çok yüksek korelasyon gösterdiği zaman, bu durum regresyon analizindeki standart hataların şişmesine sebep olur, standart hata miktarı arttıkça da istatistiksel anlamlılık miktarı azalır (yani p değeri yükselir).

Mesela 4 tane bağımsız değişkenin 1 tane bağımlı değişken üzerindeki ayrı ayrı etkilerini incelemek için 4 tane korelasyon analizi (veya 4 tane basit regresyon analizi) yaptığınızda hepsi anlamlı sonuç veriyor çıkabilir. Fakat bu 4 bağımsız değişkenin bağımlı değişken üzerindeki etkisini çoklu regresyon ile incelemek istediğiniz zaman hiçbirinin anlamlı sonuç vermediğini görebilirsiniz. Bu durumda kesinlikle veride çoklu doğrusallık (multicollinearity) durumu bulunmaktadır. Çoklu doğrusallık sorunu, normalde anlamlı etkisi olacak bir değişkenin istatistiksel olarak anlamsız görünmesine neden olabilir.

SPSS Eğitim

 

Çoklu Doğrusallık Nasıl Tespit Edilir?

Çoklu regresyon analizinde bağımsız değişkenler arasında çoklu doğrusallık (çoklu bağlantı) olup olmadığını anlamak için 3-4 farklı yerden bakıyoruz. Bunları burada kısaca sıraladım. Yazının aşağısında SPSS ile hepsi nasıl test edilir uzun uzun resimlerle detaylı olarak anlatıyorum.

Veride çoklu bağlantı sorunu olduğunu aşağıdaki şekilde anlarız:

  • VIF (Variance Inflation Factor) değerleri 5 ya da 10’un üzerindeyse
  • Tolerance değerleri 0.2 ya da 0.1’den küçükse
  • Bağımsız değişkenler arasındaki korelasyon katsayıları 0.70’ten yüksekse
  • CI (Condition Index) değeri 30’dan büyükse

Bu koşulların en az 1 tanesini gördüğümüzde veride çoklu bağlantı sorunu olup olmadığını daha detaylı incelememiz gerekir. Hepsi aynı anda sağlanmak zorunda değil, 1 tanesi bile geçerli olsa durup incelememiz gerekir.

İstatistik Danışmanlık Hizmeti Tez Makale

 

Çoklu Doğrusallık Sorunu Çözümleri

Çoklu doğrusal regresyon analizinin varsayımlarından birisi, veride çoklu bağlantı problemi olmamasıdır. Eğer bağımsız değişkenler arasında çoklu bağlantı (çoklu doğrusallık) olduğu bulunduysa çözülmesi gerekir; çözmeden regresyon analizine devam etmek riskli olur. Çözüm olarak birkaç yol izlenebilir:

  1. Yüksek korelasyonlu değişkenlerden birini modelden çıkartmak: Mesela Özsaygı, Özyeterlilik, Psikolojik Sağlamlık ve Depresyon şeklinde 4 tane bağımsız değişkenimizin olduğu bir çoklu regresyon analizi yapıyoruz. Özsaygı, Özyeterlilik ve Sağlamlık değişkenleri birbiri arasında çok yüksek korelasyon gösteriyorlar, fakat Depresyon değişkeni bunlarla pek yüksek korelasyon göstermiyor. O zaman Özsaygı, Özyeterlilik ve Sağlamlık değişkenlerinden önce 1 tanesini (hala çoklu doğrusallık problemi devam ediyorsa 2 tanesini) analizden çıkartıp analizi kalan değişkenlerle yapabiliriz (zaten bu 3 değişkenin birbiriyle çok yüksek korelasyon göstermesi neredeyse aynı şekilde ölçülmüş olduğu anlamına gelmektedir, yani Özsaygı’yı modelden çıkartıp analizi Özyeterlilik ile yapsak bile analiz sonucunu Özsaygı için genelleyebiliriz). Genelde böyle yapılır, yani Özsaygı-Özyeterlilik-Sağlamlık üçlüsünden bir tanesini seçip onu ve Depresyon’u bağımsız değişken yaparak 2 bağımsız değişkenli bir çoklu regresyon analizi yapıp seçtiğiniz değişken için bulduğunuz sonuçları analizden çıkarttığınız değişkenlere de genelleyebilirsiniz.
  2. Benzer değişkenleri birleştirerek yeni bir bileşik değişken oluşturmak: Mesela anne-baba destek ve duygusal zeka diye 3 tane bağımsız değişkenin olduğu bir çoklu regresyon analizi yapıyoruz ve “anne destek” ile “baba destek” değişkenlerinin birbiriyle çok yüksek ilişki gösterdiğini bulduk. Fakat destek ile duygusal zeka değişkenleri arasında aynı problem yok. O zaman anne ve baba destek değişkenlerini birleştirerek “ebeveyn destek” isimli yeni bir değişken oluşturup çoklu regresyon analizini “ebeveyn destek” ile “duygusal zeka” şeklinde 2 bağımsız değişken içerecek şekilde gerçekleştirebiliriz.
  3. Veri setine yeni gözlemler eklemek: Bu yöntem küçük örneklemde işe yarayabilir de 50-100 kişiden fazla veriniz varsa bu saatten sonra pek işe yaramaz.
  4. Ridge regresyon gibi çoklu doğrusallığı tolere eden yöntemler kullanmak: Bunu SPSS kullanarak yapamıyoruz ama.

spss analizi ücretli danışmanlık tanışma indirimi veri tablo rapor iletişim

 

SPSS ile Çoklu Doğrusallık Testi

Yazının kalan bölümünde, çoklu doğrusal regresyon analizi yaparken bağımsız değişkenler arasında çoklu bağlantı problemi olup olmadığını SPSS ile nasıl test edeceğimizi anlatıyor olacağım. Her şeyi cover ettim o yüzden biraz uzun gelebilir ama okuyunca başka soru kalmaz aklınızda.

Bu örnekte, 4 boyuttan oluşan Ebeveynlere Bağlanma Ölçeği’nin (EBÖ) alt boyutları olan Anne İlgi, Baba İlgi, Anne Koruma, Baba Koruma boyutlarının katılımcıların Depresyon skorları üzerinde etkisi olup olmadığını test etmek istiyoruz. Yeni çoklu regresyon analizi yapacağız: Bağımsız değişkenler 4 tane, bağımlı değişken ise depresyon skoru.

multicollinearity 1

 

Çoklu doğrusallık varsayımı çoklu regresyon analizinin varsayımlarından birisi olduğu için, SPSS’te çoklu regresyon analizi penceresinden test ediliyor.

Analyze -> Regression -> Linear

multicollinearity 2

 

Depresyon değişkenini Dependent kutusuna, diğer 4 değişkeni de Independents kutusuna koyuyoruz. Sonra Statistics butonuna basıp, açılacak küçük pencerede “Collinearity diagnostics” seçeneğini işaretlemek gerekiyor.

Sonra “Continue” ve “OK” basarak analizi başlatabiliriz.

multicollinearity 3

 

Şimdi regresyon analizi sonuçlarına hızlıca bir göz atalım:

  • Adjusted R-Square değeri 0.205 yani “bağımsız değişkenler bağımlı değişken olan depresyondaki varyasyonun %20.5’ini açıklıyor” diyebiliriz, gayet yüksek bir açıklama miktarı.
  • ANOVA tablosundaki Sig. değeri yani p değeri 0.001’den küçük yani regresyon analizi modeli istatistiksel olarak anlamlı.
  • Ama Coefficients tablosundaki Sig. yani p değerlerine bakınca görüyoruz ki bağımsız değişkenlerin hiçbirinin bağımlı değişken üzerindeki etkisi anlamlı değil (hepsi 0.05’ten büyük).

Regresyon analizi sonucu anlamlı ama hiçbir bağımsız değişkenin etkisi anlamsız?? Bu nasıl olabilir?

Çoklu regresyon analizi sonuçları buna benzer çıkıyorsa veride çoklu doğrusallık sorunu olduğundan şüphelenmeniz gerekir.

Çoklu doğrusallık olup olmadığını VIF değerlerine bakarak anlayabiliriz, VIF değeri 5’ten ya da 10’dan büyükse problem vardır demiştik. VIF değerleri ideal olarak 1’e çok yakın olmalı.

Fakat aşağıdaki regresyon analizi sonuçlarına göre VIF değerlerinin hepsi 3 civarında… Bu konudaki önemli bir detay, değişkenlerin hepsinin VIF değerlerinin 3-5 civarı olmasının da veride çoklu doğrusallık problemi olduğunu işaret etmesidir. Burada böyle olmuş, yani bu durum da problem olabileceğini işaret ediyor. Biraz daha detaylı incelemek gerek.

multicollinearity 4

 

Yaptığımız çoklu regresyon analizinin sonucunda, veride bağımsız değişkenler arasında çoklu doğrusallık sorunu olduğuna dair güçlü sinyaller bulduk. Hangi bağımsız değişkenler arasında nasıl ilişkiler var bunu detaylı öğrenebilmek için korelasyon analizi yapalım şimdi.

Analyze -> Correlate -> Bivariate

multicollinearity 5

 

Bütün bağımsız değişkenlerimizi (bağımlı değişkeni koymak gerekmez) Variables bölümüne atıp OK’a basarak korelasyon analizini başlatıyoruz.

multicollinearity 6

 

Korelasyon analizi sonuçlarında, bütün bağımsız değişken çiftlerinin birbirleriyle ne kadar korelasyon gösterdiğini görebiliyoruz. Burada, 0.700’den veya 0.800’den büyük korelasyon katsayıları aramalıyız.

Aşağıda gördüğünüz gibi, “Anne Koruma” ve “Anne İlgi” boyutları arasında 0.795 büyüklüğünde bir korelasyon ilişkisi bulunmuş. “Baba Koruma” ve “Baba İlgi” arasında da 0.827 büyüklüğünde bir korelasyon ilişkisi var. Regresyon analizinde çoklu doğrusallık probleminin yaşanmasına sebep olan şeyler bunlarmış. Bunu öğrenmiş olduk şu an.

multicollinearity 7

 

Sorunu tespit ettik, Peki şimdi ne yapabiliriz çözmek için?

2 seçenek var:

  • Birbiriyle çok yüksek korelasyon gösteren değişkenlerden bir tanesini çoklu regresyon analizinden çıkartıp analizi kalan değişkenlerle tekrarlayabiliriz (yani anne koruma ile anne ilgi boyutlarından birini çıkartmak, aynı zamanda baba koruma ve baba ilgi boyutlarından da bir tanesini çıkartmak olabilir).
  • Birbiriyle çok yüksek korelasyon gösteren değişken çiftlerini birleştirip birleşik değişkenlerle regresyon analizini tekrar edebiliriz.

Bu örnekte birbiriyle çok yüksek ilişki gösteren değişken çiftleri “anne koruma” ile “anne ilgi” boyutları ya (ve “baba koruma” ile “baba ilgi”). Bunları birleştirip “anne toplam” ve “baba toplam” diye yeni skorlar oluşturmak teorik olarak daha mantıklı bence. Bu yüzden böyle yapıyorum.

“Anne Toplam” ve “Baba Toplam” değişkenlerini oluşturmak için:

Transform -> Compute Variable

multicollinearity 8

 

Aşağıdaki gibi “anne ilgi” ve “anne koruma” boyutlarının ortalama skorunu hesaplıyoruz SPSS üzerinde. Bu bize “Anne Toplam” skorunu veriyor. (toplam yani iki skorun birleşimi anlamında)

multicollinearity 9

 

Aşağıdaki gibi “baba ilgi” ve “baba koruma” boyutlarının ortalama skorunu da aynı şekilde hesaplıyoruz. “Baba Toplam” skoru oluşuyor böylece.

multicollinearity 10

 

Gördüğünüz gibi şu anda veride “Anne Toplam” ve “Baba Toplam” olmak üzere 2 yeni değişken oluştu. İlk başta 4 bağımsız değişkenle yapmak istediğimiz ama çoklu doğrusallık sorunu yaşadığımız çoklu regresyon analizini şimdi bu 2 yeni değişkenle yeniden yapacağız.

multicollinearity 11

 

Yine:

Analyze -> Regression -> Linear

multicollinearity 12

 

Bu sefer Independents kutusuna Anne Toplam ve Baba Toplam skorlarını koyuyoruz. Yine “Statistics”e basıp “Collinearity diagnostics” seçeneğine basalım ki çoklu doğrusallık problemi çözülmüş mü onu görelim.

multicollinearity 13

 

Regresyon analizi sonuçlarına baktığımızda:

  • Adjusted R-Square 0.227 yani Anne Toplam ve Baba Toplam değişkenlerinden oluşan yeni regresyon analizi modeli, depresyon skorlarındaki değişimin %22.7’sini açıklayabiliyormuş.
  • ANOVA tablosundaki Sig. p değeri anlamlı (0.05’ten küçük), yani model depresyon skorlarındaki değişimi anlamlı olarak açıklayabiliyormuş.
  • Coefficients tablosuna baktığımızda “Anne Toplam” skorunun p değeri 0.001’den küçük olarak görünüyor (yani anlamlı), “Baba Toplam” skorunun p değeri ise 0.171 (yani anlamsız).

Son olarak VIF değerlerine bakalım: Gördüğünüz gibi VIF değerleri 1’e çok yakın (1.170). Yani veride çoklu doğrusallık problemi artık bulunmuyor. Çözmüşüz.

O zaman sonuç olarak diyebiliyoruz ki: “Ebeveyn Bağlanma Ölçeği’nin alt boyutlarından Anne Toplam boyutu depresyon seviyesi üzerinde anlamlı bir etkiye sahipken, Baba Toplam boyutu anlamlı bir etkiye sahip değildir.”

Raporlarken de önce 4 değişkene bakmak istediğinizi, fakat veride çoklu bağlantı problemi tespit ettiğiniz için Anne Toplam ve Baba Toplam skoru alıp analizleri öyle gerçekleştirdiğinizi şeffaf olarak yazarsanız bir sorun çıkmaz.

multicollinearity 14

 

 

BONUS:

Yukarıda demiştik ki “Tolerans ve CI (Condition Index) değerlerine bakarak da çoklu doğrusallık olup olmadığına bakabiliriz”. Ama sonra yukarıdaki SPSS analizlerini yaparken bunlara hiç bakmadık.

Bunun iki sebebi var:

  • Tolerans değerinin formülü “Tolerans = 1 / VIF” şeklindedir (tolerans eşittir 1 bölü VIF). Yani VIF değeri belliyse Tolerans değeri de belli oluyor aslında. Yukarıda VIF değerlerinin yazdığı tabloda hemen solundaki sütunda Tolerance sütununu okuyarak değerleri görebilirsiniz. O yüzden “VIF değeri 10’dan büyük” demek ile “Tolerans değeri 0.1’den küçük” demek aynı şey aslında mantıken.
  • CI (Condition Index) değeri 30’dan büyük olursa çoklu doğrusallık var sayılır demiştik ama CI değerlerine bakmak her zaman faydalı olmuyor. Örneğin bu sayfadaki 4 bağımsız değişkenli ilk örneğimizdeki CI değerini SPSS tablolarında Coefficients tablosunun altındaki Collinearity Diagnostics başlıklı tablodaki Condition Index yazan sütunun en alttaki satırındaki değeri okuyarak görebiliriz. Gördüğünüz gibi burada CI 17.290, yani 30’dan küçük olduğu için “çoklu bağlantı sorun var” diye işaret etmiyor. Ama aslında sorun vardı. O yüzden bu değere de pek bakmıyorum, yukarıda anlattığım sırayla yapıyorum işlemleri ben SPSS’te kendi analizlerimde.

multicollinearity 15

 


Bu yazı bu kadardı, uzun ama öğretici olması açısından her şeye değinmeye çalıştım. Hâlâ aklınıza takılan soru kaldıysa bana telefon numaramdan ya da WhatsApp üzerinden ulaşabilirsiniz. Görüşmek üzere.

spss analizi ücretli danışmanlık tanışma indirimi veri tablo rapor iletişim

Deniz Şavkay hakkında 184 makale
Lisans eğitimimi Boğaziçi Üniversitesi Moleküler Biyoloji ve Genetik bölümünde, Yüksek Lisans eğitimimi Polonya'daki SWPS Üniversitesi Psikoloji bölümünde tamamladım. Davranış bilimlerine ilgi duyuyorum ve eğitim hayatımı bunun üzerine şekillendirdim. SPSS ile istatistik analizi yapmayı çok seviyorum. SPSS analizleriyle insan davranışındaki kalıpları keşfetmek ve insan davranışı hakkında iç görü sahibi olmak beni heyecanlandırıyor.

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*