
İçindekiler
Bu blog yazısında, Cook’s Distance’ın ne olduğunu, neden ve nasıl kullanıldığını, SPSS programında nerede bulunabileceğini ve sonuçların ne anlama geldiğini detaylı bir şekilde ele alacağız.
Cook’s Distance Nedir?
Regresyon analizinde, bir regresyon modelin istikrarını etkileyen olağandışı bazı veri noktaları bulunabilir. Bu noktalar kaldırıldığında çıktı çok fazla değişir. Bu noktaları Cook’s Distance ile aramalıyız.
Cook’s Distance değeri 1’den büyük olan katılımcılar, problem olarak görülür.
Cook’s Distance, bir veri setindeki değerlerin bir istatistik modelindeki diğer değerlerden ne kadar fazla sapma gösterdiğini belirlemek için kullanılır. Buna, etkili gözlem (influential cases) denir. Etkili gözlem denen şey, uç değer denen şeyden farklıdır. Genellikle regresyon analizinde uç değerleri belirlemenin daha önemli olduğu düşünülse de, etkili gözlem değerlerini belirlemek daha önemlidir. Bunun için aşağıdaki iki grafiği inceleyelim.
X değişkeninin Y değişkeniyle olan korelasyonunu ölçmek için bir korelasyon (ya da regresyon) analizi yapıyoruz. Verimizdeki katılımcıların X ve Y değerleri grafiğe döküldüğünde grafik aşağıdaki gibi görünüyor.
Bu grafiğin korelasyon (ya da regresyon) çizgisini çizdiğimizde, en sağ üstte duran nokta çizginin tam üstüne geliyor. Fakat eğer bu noktayı veri setimizden çıkartsaydık ne olacaktı? Kalan bütün katılımcıların X değerleri aynı olmuş olacağı için, X ve Y’nin korelasyonu diye bir şey kalmamış olacaktı.
İşte bu yüzden etkili gözlem noktası (influential cases) denen konu en az uç değerlerin tespiti konusu kadar önemlidir, hatta belki daha da önemlidir. Bu da Cook’s Distance ile bulunur.
SPSS’te Cook’s Distance, bir gözlem noktasının (veri noktasının) modeldeki diğer gözlem noktalarından uzaklığını ölçer. Bir gözlem noktasının Cook’s Distance değeri ne kadar büyükse, o gözlem noktasının modele olan etkisi o kadar büyük demektir. Dolayısıyla, Cook’s Distance değerine dikkat etmek, analiz sonuçlarını doğru bir şekilde yorumlamayı sağlar. Cook’s Distance, regresyon analizi sırasında etkili gözlemlerin tespit edilmesini sağlar. Genellikle çoklu doğrusal regresyon analizinde kullanılmakla birlikte, basit doğrusal regresyon’da kullanılması da uygundur.
Cook’s Distance Ne İçin Kullanılır?
Cook’s Distance, regresyon analizinde, regresyon modelinin katsayılarını veya tahminlerini aşırı derecede etkileyebilecek etkili veri noktalarını belirlemek için kullanılır. Modele dahil edildiğinde veya modelden çıkartıldığında tahmin edilen regresyon katsayılarındaki değişikliklere dayanarak hesaplanır.
Cook’s Distance, veri setindeki her bir gözlem için hesaplanır ve bu gözlem, analizden çıkarıldığında regresyon katsayılarındaki değişikliklere dayanır. Cook’s Distance değerleri, bir anketi dolduran katılımcılar arasında diğerlerinden belirgin şekilde daha farklı cevap veren katılımcıları belirlemek için kullanılır çünkü bu katılımcıların cevaplarının regresyon modeline büyük etkisi olabilir ve bu da gerçek dünyayı fazla yansıtmayan bir regresyon analizi sonucuna varılmasına sebep olabilir.
SPSS’te Cook’s Distance Hesaplama
Veri setinizdeki katılımcıların Cook’s Distance değerlerini SPSS’te görmek için aşağıdaki adımları takip edebilirsiniz:
- Menü çubuğunda “Analyze” seçeneğine tıklayın.
- Açılan menüden “Regression” seçeneğini bulun ve üzerine tıklayın.
- Regression seçenekleri arasından “Linear” seçeneğini seçin.
- “Dependent” kutucuğuna bağımlı değişkeninizi ekleyin.
- “Independent(s)” kutucuğuna bağımsız değişkenleri ekleyin.
- Linear Regression penceresinde alt kısımda “Statistics” butonuna tıklayın.
- Açılan “Statistics” penceresinde, “Cook’s distance” seçeneğini işaretleyin.
- İstatistik seçeneklerini belirledikten sonra “OK” düğmesine tıklayarak analizi başlatın.
Cook’s Distance analizi sonuçları, çıktı penceresinde gösterilecektir. Aynı zamanda, veri setinizin “Data View” kısmında, en sağda yeni bir sütun açılacaktır. SPSS verimizin Data View penceresine geçelim. En sağda açılmış olan COO_1 isimli yeni sütunda, verinizdeki her elemanın kendisine ait olan Cook’s Distance değerini görebileceksiniz. Eşik değerinden büyük Cook’s Distance değerlerine sahip elemanlar, modelin o gözleme duyarlı olduğunu ve modelin o gözlemin çıkarılmasıyla değişebileceğini gösterir.
Hangi Cook’s Distance değerlerinin etkili gözlem noktalarına sahip katılımcıları temsil ettiğini belirlemenin farklı yöntemleri vardır. Bu yöntemleri aşağıdaki başlık altında anlatıyorum.
Cook’s Distance Değeri Yorumlama
Cook’s Distance değeri her zaman 0’dan büyük olur. Bir üst sınır değeri yoktur ama genelde 1’in altında olur.
SPSS’te Cook’s Distance değerini bulduk. Peki hangi Cook’s Distance değerlerinin etkili gözlem noktalarına karşılık geldiğini nereden bileceğiz? Bunu bulmanın 3 farklı yöntemi var.
- “Cook’s Distance değeri 1’den büyük ise etkili gözlem değeridir” yorumu. Buna göre, Cook’s Distance değeri 1’in üzerinde çıkan katılımcılar, regresyon analizi öncesinde veriden çıkartılmalıdır. Bu en popüler olan Cook’s Distance eşik değeri belirleme yöntemidir.
- “Cook’s Distance değeri (4 / katılımcı sayısı) formülünün sonucundan büyük ise etkili gözlem değeridir” yorumu. Buna göre, mesela 100 katılımcımız var ise, Cook’s Distance değeri 0.04’ten büyük olan katılımcılar etkili gözlem’dir ve regresyon analizi öncesinde veriden çıkartılmalıdırlar. Bu yöntem, birkaç yüz kişi veya daha büyük veri setlerinde çok fazla katılımcının veriden çıkartılmasına yol açacağı için pek tercih edilmemektedir.
- “Bir katılımcının Cook’s Distance değeri diğerlerinden çok farklı mı diye bakma” yöntemi. Bu yönteme göre, COO_1 ismiyle yeni oluşturduğumuz değişkene SPSS Data View bölümünden bakıyoruz ve değerlerini büyükten küçüğe sıralıyoruz. Diğerlerinden dikkat çekici ölçüde daha büyük bir değere sahip olan bir katılımcı varsa, bu Cook’s Distance değeri 1’den küçük olsa bile, araştırmacı bu katılımcıyı etkili gözlem birimi olarak yorumlayabilir ve regresyon analizi öncesi veriden çıkartabilir.
Bu 3 Cook’s Distance değeri yorumlama yönteminden istediğinizi kullanabilirsiniz. Ben, toplamda en az sayıda katılımcının veriden çıkartılmasına sebep olacak olan 1. yöntemi yani 1’den büyük Cook’s Distance değerlerini veriden çıkartma yöntemini tercih ediyorum.
Bir yanıt bırakın