
İçindekiler
Mahalanobis uzaklığı, SPSS istatistiksel analiz yazılımında kullanılan bir çok değişkenli uç değer saptama metriğidir. Bu metrik, veri noktalarının birbirlerine olan mesafesini ölçerek, bu noktaların benzerlik veya farklılık derecesini belirlemeyi sağlar. Mahalanobis uzaklığı, çok değişkenli veri setlerinde (mesela çoklu doğrusal regresyon veya MANOVA yaparken) yaygın olarak kullanılan bir ölçüttür. Bu yazıda, Mahalanobis uzaklığının ne işe yaradığını, SPSS’in neresinde Mahalanobis uzaklığını bulabileceğinizi ve bu ölçütle elde edilen sonuçların ne anlama geldiğini öğreneceksiniz.
Mahalanobis Uzaklığı Nedir?
Mahalanobis uzaklığı, bir nokta ile bir nokta dağılımı arasındaki mesafeyi belirlemek için kullanılan bir istatistiksel ölçüdür. Verinin korelasyon yapısını ve değişkenlerin varyanslarını dikkate alır. Bu ölçüt, bir veri noktasının bir veri kümesi içinde ne kadar anormal olduğunu değerlendirmek için kullanılan güçlü bir araçtır. Mahalanobis Uzaklığı, bir veri noktasının dağılımı ve değişkenler arasındaki ilişkileri dikkate aldığından, normal mesafe ölçütlerine göre daha hassas ve güvenilirdir.
Mahalanobis uzaklığı, her bir veri noktasının çok değişkenli uzayda diğer veri noktalarına olan uzaklığını ölçer. Bu uzaklık, veri noktalarının dağılımı ve kovaryans matrisi dikkate alınarak hesaplanır. Genel olarak, Mahalanobis uzaklığı, verinin farklı boyutlarda korelasyon ve değişkenlik gösterdiği durumlarda, basit Öklid uzaklığına göre daha doğru bir uzaklık ölçüsü sağlar. Bu yüzden Mahalanobis uzaklığı, genellikle çok değişkenli uç (aykırı) değer tespiti, kümeleme ve sınıflandırma gibi istatistiksel analizlerde kullanılır.
Mahalanobis Uzaklığı Ne İçin Kullanılır?
Mahalanobis mesafesi birkaç uygulamada faydalıdır:
- Aykırı (Uç) Değer Tespiti: Çoklu regresyon veya çoklu ANOVA (MANOVA) gibi çok bağımsız değişkenli parametrik analizler öncesinde, Mahalanobis uzaklığı ile her bir noktanın geri kalan dağılımdan ne kadar uzak olduğunu ölçerek uuç (aykırı) değerleri tespit edebiliriz. Anormal derecede büyük Mahalanobis mesafesine sahip noktalar aykırı değer olarak kabul edilir.Aykırı değer tespiti gibi, Mahalanobis mesafesi, normal veri noktalarının dağılımından önemli ölçüde uzak olan noktaları tanımlayarak verilerdeki anormallikleri tespit etmek için kullanılabilir.
- Sınıflandırma: Sınıflandırma görevlerinde, Mahalanobis mesafesi, örnekler arasındaki benzerliği belirlemek için bir ölçüt olarak kullanılabilir. Örneğin, k-nearest neighbors (KNN) sınıflandırmasında, özellikler arasında korelasyon olduğunda Mahalanobis mesafesi, basit Öklid mesafesi yerine kullanılabilir.
- Kümeleme: Mahalanobis mesafesi, kümeleme analizlerinde küme veya küme merkezleri arasındaki mesafeyi ölçmek için kullanılabilir ve küme şeklini ve yönelimini dikkate alır.
SPSS ile Mahalanobis Uzaklığı Hesaplama
SPSS’te Mahalanobis uzaklığını görmek için ayrı bir sütun oluşturmak oldukça yaygın bir uygulamadır. Aşağıdaki adımları takip ederek, veri kümenizdeki her bir gözlem birimi için Mahalanobis uzaklığını içeren yeni bir sütun oluşturabilirsiniz.
- SPSS’te veri dosyanızı açtıktan sonra “Analyze” -> “Regression” -> “Linear” seçeneklerine tıklayarak regresyon penceresini açın.
- Açılan pencerede sol taraftan bağımlı değişkeninizi Dependent Variable bölümüne ve bağımsız değişkenlerinizi Independent Variable(s) bölümüne yerleştirin.
- Pencerenin sağ tarafındaki “Save” butonuna tıklayın.
- Yeni açılan pencerede “Distances” bölümünün altında, “Mahalanobis” seçeneğini bulun ve kutucuğunu işaretleyin.
- Continue -> OK tuşlarına basın.
Bu şekilde, SPSS dosyanızın “Data View” bölümünde, Mahalanobis uzaklığı değerlerini içeren yeni bir sütun oluşturmuş olacaksınız. Bu sütun ekranın en sağında MAH_1 gibi bir isimle görünecektir. Bu sütundaki sayısal değerler, her bir gözlem birimi için Mahalanobis uzaklığını ifade eder.
Mahalanobis Uzaklığı Yorumlama
Mahalanobis uzaklığı kaç olmalı? Aşağıda anlattığım gibi, kesin sınırlarla belirlenmiş Mahalanobis uzaklığı eşik değerleri yoktur. Genel olarak düşük ve yüksek Mahalanobis uzaklığı olarak ikiye ayırabiliriz.
- Düşük Mahalanobis Uzaklığı: Bir gözlem biriminin Mahalanobis uzaklığı diğer gözlem birimlerine göre düşükse, bu gözlem birimi, veri kümesinin geneline benzer bir desene sahiptir. Yani, diğer gözlem birimlerine daha yakındır.
- Yüksek Mahalanobis Uzaklığı: Bir gözlem biriminin Mahalanobis uzaklığı diğer gözlem birimlerine göre yüksekse, bu gözlem birimi diğerlerinden farklı bir desene sahiptir. Eğer çok yüksek ise, bu gözlem birimi aykırı bir değer olabilir veya farklı bir alt gruba ait olabilir. Çoklu regresyon analizine başlamadan önce bu gözlem birimlerini veri setinden çıkarmamız gerekebilir.
Peki Mahalanobis Uzaklığı’nın ne kadar yüksek olursa sorun yaratacağını nasıl belirliyoruz? Aşağıdaki başlık altında anlatıyorum.
SPSS ile Mahalanobis p Değeri Hesaplama
Oluşturduğumuz Mahalanobis uzaklığı değerlerinin hangilerinin uç (aykırı) değere işaret ettiğini görmek için, her Mahalanobis uzaklığı değeri için bir p anlamlılık değeri hesaplamamız gerekiyor. Belli bir p değerinin altında çıkan katılımcılar, uç değer olarak yorumlanıyor. Mahalanobis uzaklığına karşılık gelen p değeri eşik seviyesi bazen 0.05 olmakla birlikte, genellikle 0.01 olarak kullanılmaktadır. Yani eğer 0.01’den küçük p değerine sahip katılımcı varsa, uç değer sayılabilir.
(Bazen de 0.001 eşik değer olarak kullanılmaktadır. Veri seti küçük olduğunda eşik p değerini 0.01 tercih edip büyük veri setlerinde 0.001 eşik p değerini kullanmak daha isabetli sonuç verir.)
Mahalanobis uzaklığı p değeri hesaplama işlemini SPSS’in kendi içindeki bir Ki Kare fonksiyonunu kullanarak otomatik olarak yapabiliriz.
Transform -> Compute Variable basıyoruz.
Yine yeni bir sütun oluşturacağız. Açılan Compute Variable penceresinde, Target Variable bölümüne yeni oluşturacağımız değişkenin ismini yazıyoruz. İsim fark etmez, p değeri bakacağımız için p_value yazdım ben. Sonra,
” 1 – Ki Kare Fonksiyonu ” şeklinde bir ifade yazıyoruz. 1 ve eksi işaretini elle yazabilirsiniz. Ki Kare fonksiyonunu da sağ alt köşedeki Functions and Special Variables bölümünden bulup yukarı taşımak gerekiyor.
Dikkat ettiyseniz fonksiyonu taşıdıktan sonra içinde iki tane ” ? ” işareti var. Soldaki soru işareti yerine, demin oluşturmuş olduğumuz yeni Mahalanobis uzaklığı değişkenini taşıyoruz. Sağdaki soru işareti yerine de, Mahalanobis uzaklığı bulurken kaç tane bağımsız değişken üzerinden buluyorsak o sayıyı yazıyoruz. Biz bu örnekte 2 bağımsız değişken ile hesaplama yaptığımız için 2 yazdım.
SPSS veri setimizin Data View bölümüne tekrar bakarsak, en sağ sütunda yeni bir değişken açıldığını göreceğiz. Bu sütunda, her Mahalanobis uzaklığına karşılık gelen p değeri bulunmaktadır.
p değeri 0.01’den küçük katılımcılar, uç değer olarak kabul edilebilir. Bu kişilerin çoklu regresyon veya MANOVA tarzı analizler öncesi veriden çıkartılması uygundur.
Alternatif Mahalanobis Uzaklığı Yorumlama (Basit Versiyon)
Mahalanobis uzaklığına göre hangi değerlerin uç değer olduğunu hesaplamanın en iyi uygulaması demin gösterdiğim p değeri bularak hesaplamadır. Fakat, daha kısa yoldan uç değer bulmak isteyen olursa diye aşağıdaki hızlı fakat kesinliği düşük yolu da paylaşayım.
Saygın istatistikçi Andy Field’ın “Discovering Statistics Using IBM SPSS Statistics (2018)” kitabında önerdiği Mahalanobis uzaklığı değerleri şöyledir:
N = 500 | 5 bağımsız değişken | 25’ten büyük değerler problematik |
N = 100 | 3 bağımsız değişken | 15’ten büyük değerler problematik |
N = 30 | 2 bağımsız değişken | 11’den büyük değerler problematik |
Bu tabloya göre, eğer 100 kişiden oluşan bir veri setimiz ve 3 bağımsız değişkenimiz var ise, 15’ten büyük Mahalanobis uzaklığı değerine sahip olan kişiler uç (aykırı) değer olabilir demektir. Regresyon analizi yapmaya başlamadan önce bu kişileri veri setinden çıkartırsak, daha doğru bir regresyon analizi yapmış olacağız.
Eğer veri setinizdeki katılımcı sayısı ve değişken sayısı bu tablodakinden farklılık gösteriyorsa, hangi Mahalanobis değerlerinin problematik seviyede olduğuna göz kararı mantığınızı kullanarak karar vermenizi öneriyorum. Tekrar edeyim, bu son yöntem yerine p değeri hesaplama yöntemi en doğru Mahalanobis uzaklığı yorumlama yöntemidir.
Bir yanıt bırakın