
İçindekiler
Intraclass Correlation Coefficient (ICC), yani Sınıf İçi Korelasyon Katsayısı, ölçümler arasındaki tutarlılığı değerlendiren bir güvenilirlik katsayısıdır. Aynı ölçümün farklı gözlemciler, zamanlar veya araçlarla tekrarlanması durumunda elde edilen sonuçların birbirine ne kadar benzediğini gösterir. Özellikle çoklu değerlendiricilerin olduğu çalışmalar ya da test-tekrar test güvenilirliği analizlerinde kullanılır. ICC değeri 0 ile 1 arasında değişir; değerin 1’e yaklaşması, ölçümlerin yüksek düzeyde tutarlı olduğunu ifade eder.
Bu blog yazısında, SPSS kullanarak sınıf içi korelasyon katsayısının ne olduğunu, nasıl hesaplandığını ve ölçüm güvenilirliğini nasıl değerlendireceğimizi detaylı bir şekilde ele alacağız.
“Güvenilirlik” Nedir?
Bilimsel araştırmalarda “güvenilirlik” genellikle bir ölçüm aracının veya metodun ne kadar tutarlı ölçüm yaptığını, dolayısıyla ne kadar güvenilir olduğunu ifade eder. En bilinen güvenilirlik türü, Cronbach’s Alpha analiziyle ölçülen ölçek güvenilirliğidir (yani bunda ölçeğin iç tutarlılığı ölçülür). Fakat, gözlemci güvenilirliği ve test-tekrar test güvenilirliği olmak üzere 2 farklı güvenilirlik türü daha mevcuttur. Gözlemci güvenilirliği ve test-tekrar test güvenilirliği kavramları, Intraclass Correlation Coefficient (ICC) analiziyle ölçülmektedir.
Intraclass Correlation Coefficient (ICC) analizleri bağlamında “güvenilirlik”, aynı ölçümün farklı değerlendirici kişiler (ya da ölçüm araçları) tarafından yapılması veya aynı ölçekle farklı koşullar altında birden fazla ölçüm yapılması suretiyle yapılan ölçümlerin benzer sonuçlar verip vermediğini ifade eder. Yani ICC ile ya birden fazla değerlendiricinin (ya da ölçüm aracının) birbirleri arasındaki tutarlılığı değerlendirilir, ya da bir ölçüm aracının test-tekrar test tutarlılığı değerlendirilir.
Eğer ICC değeri yüksekse, bu durum incelediğimiz ölçüm sonuçlarının rastlantısal değil, sistematik ve güvenilir olduğunu gösterir. Böylece elde edilen verilerin, tekrarlanan uygulamalarda benzer sonuçlar üreteceği anlaşılır; bu da bilimsel araştırmalarda yapılan ölçümlerin güvenilirliğini destekler.
Gözlemci Güvenilirliği: Intraclass Correlation Coefficient (ICC) bağlamında “gözlemci güvenilirliği”, aynı durumu değerlendiren birden fazla gözlemcinin (ya da ölçüm aracının) o gözlemcilere verdikleri puanların veya ölçümlerin birbirine ne kadar tutarlı olduğunu ifade eder. Bu kavram, özellikle öznel değerlendirmelerin yer aldığı çalışmalarda önemlidir. Gözlemciler arası güvenilirlik (inter-rater reliability) yüksek olduğunda, farklı kişilerin benzer sonuçlara ulaştığı görülür ve bu da değerlendirme sürecinin güvenilirliğini artırır. ICC bu güvenilirliği sayısal olarak ifade ederek gözlemciler arası tutarlılığın derecesini ortaya koyar.
Test-Tekrar Test Güvenilirliği: Intraclass Correlation Coefficient (ICC) bağlamında “test-tekrar test güvenilirliği”, bir ölçüm aracının zaman içerisinde tutarlılığını değerlendiren bir güvenilirlik türüdür. Aynı bireylere, aynı ölçüm aracıyla, farklı zamanlarda uygulanan testlerin sonuçları arasındaki benzerlik incelenir. Eğer ICC değeri yüksek çıkarsa, bu durum ölçüm aracının zamanla değişmeyen, istikrarlı sonuçlar verdiğini gösterir. Test-tekrar test güvenilirliği özellikle psikolojik testler, anketler veya klinik değerlendirme araçlarının zaman içinde güvenilir olup olmadığını belirlemek için önemlidir.
Sınıf İçi Korelasyon Katsayısı Nedir?
Sınıf İçi Korelasyon Katsayısı (Intraclass Correlation Coefficient, ICC), ölçümlerin tekrarlanabilirliğini veya tutarlılığını değerlendirmek için kullanılan bir istatistiksel ölçüdür. Özellikle ölçümlerin farklı gözlemciler veya farklı zamanlarda yapıldığı durumlarda kullanılır. ICC, aynı nesnelerin veya birimlerin farklı ölçümler arasındaki değişkenliği ne ölçüde açıkladığını belirler. Yüksek bir ICC değeri, ölçümün güvenilir olduğunu ve tekrarlanabilir sonuçlar verdiğini gösterir.
ICC genellikle aşağıdaki durumlar için kullanılır:
- Gözlemci veya Değerlendirici Uyumluluğu: Aynı nesneyi veya olayı farklı gözlemciler veya ölçüm araçları ölçtüğünde, bu ölçümlerin ne kadar uyumlu olduğunu değerlendirmek için ICC kullanılabilir. Örneğin, bir hastalığın şiddetini değerlendiren farklı doktorlar arasında yapılan ölçümlerin tutarlılığı ICC ile değerlendirilebilir.
Ya da, mesela yeni geliştirilen daha ucuz bir tümör tespit aletiyle yapılan ölçümlerin eskiden beri kullanılıp isabetli sonuç verdiği bilinen fakat pahalı olan başka bir tümör tespit aletiyle yapılan ölçümlerle yeterince uyumlu olup olmadığı ICC ile değerlendirilebilir. - Test – Tekrar Test Güvenilirliği: Bir test veya ölçek farklı zamanlarda aynı kişiler tarafından uygulandığında, bu ölçümlerin ne kadar tutarlı olduğunu değerlendirmek için ICC kullanılabilir. Örneğin, bir öz-yeterlik anketinin farklı zamanlarda aynı kişiler tarafından doldurulmasında, ölçeğin test-tekrar test tutarlılığı ICC ile ölçülebilir.
Sınıf İçi Korelasyon Katsayısı Değeri Yorumlama
Intraclass Correlation Coefficient yani Sınıf İçi Korelasyon Katsayısı hangi değerde olursa bu ne demektir, buna aşağıdaki şekilde karar verebiliriz.
- 0.50’den az ise = Zayıf
- 0.50 – 0.75 arası = Orta Düzeyde
- 0.75 – 0.90 arası = İyi
- 0.90 ve üzeri = Mükemmel
Genelde, 0.70’ten büyük olan sınıf içi korelasyon katsayıları uygun olarak değerlendirilir. 0.80’den büyük ise daha iyi, 0.90’dan büyük ise de çok iyi olarak yorumlanır.
SPSS’te Sınıf İçi Korelasyon Katsayısı ile Güvenilirlik Ölçümü
Bu örnekte, katılımcıların Dikkat skorlarını ölçen 2 tane ölçüm aracı var. Bu 2 ölçüm aracının, aynı kişilerin Dikkat seviyelerini birbirleriyle ne kadar uyumlu olarak ölçtüklerini Intraclass Correlation Coefficient yani SPSS’te Sınıf İçi Korelasyon Katsayısı ile ölçeceğiz.
Analyze -> Scale -> Reliability Analysis
Ölçüm değişkenlerimizi Items kutusuna atıp “Statistics” butonuna basıyoruz. Açılan pencerede altta “Intraclass Correlation Coefficient” seçeneğini işaretliyoruz.
Hemen altında Model menüsünden Two-Way Mixed ve Type olarak Absolute Agreement’ı seçelim. Bunları bir sonraki resimde daha detaylı açıklayacağım.
Model menüsünde 3 seçenek var, bunların ne anlama geldiğini anlatayım sırayla.
- One-Way Random ölçülen iki şey birbirinden ayırt edilemiyorsa seçilmelidir. Gerçek dünyada pek kullanılmıyor bu. Mesela ikizlerin ölçümü olabilir.
- Two-Way Random hem gözlemci hem de gözlemlenen şey popülasyondan rastgele seçilen kişilerden oluşmakta ise seçilmelidir. Bu da genelde kullanılmıyor.
- Two-Way Mixed ölçülen kişiler popülasyondan rastgele seçilen kişiler, gözlemciler ise seçilmiş olan belli kişiler ise seçilmelidir. Genelde bu kullanılır.
Type menüsündeki seçenekleri de hızlıca anlatayım.
- Consistency = Karşılaştırılan 2 ölçüm arasında doğrusal bir ilişki var mı (korelasyon gibi) diye bakmaya yarıyor. Biz burada güvenilirlik analizinde ölçümler arası doğrusal ilişki olup olmadığından ziyade 2 ölçüm tam olarak aynısını ölçmüş mü diye bakmak istiyoruz, bu yüzden burada bunu seçmek yanlış oluyor.
- Absolute Agreement = 2 ölçüm birbirleriyle bire bir eşit mi diye bakıyor. Güvenilirlik analizinde bunu seçmek gereklidir.
Analizi başlattıktan sonra, SPSS bize “Intraclass Correlation Coefficient” başlıklı bir tablo verecek. Biz bu örnekte birden fazla ölçüm yönteminin birbirleriyle uyumlu olup olmadığını incelediğimiz için, bu tabloda bakmamız gereken yer, Average Measures satırıdır. Average Measures satırı, gözlemcilerin / ölçümlerin ortalama puanının güvenilirliğini gösterir.
Intraclass Correlation sütunundaki değer sınıf içi korelasyon miktarını gösterir. Bu örnekte 0.932 çıkmış, bunun anlamı “2 ölçüm yöntemi aynı şeyi birbirleriyle çok iyi uyumlu olarak ölçüyorlar” demektir.
Single Measures vs. Average Measures
Intraclass Correlation Coefficient sonuç tablosunda Single Measures ve Average Measures olmak üzere 2 satır bulunur.
Single Measures
Eğer 1 ölçeğin test-tekrar test güvenilirliğini ölçüyor isek o zaman Single Measures değerine bakarak analiz sonuçlarını yorumlamak daha doğru olur. Single Measures, tek bir gözlemcinin (ya da ölçümün) puanının güvenilirliğini gösterir. Bazı uygulamalarda sadece tek bir rater kullanılabilir (örneğin maliyet ya da pratik nedenlerle). Bu durumda, araştırmacı şu soruyu sorar: “Ben sadece tek bir gözlemcinin puanını kullansam güvenilir olur mu?”. Yani, diğer bir deyişle, “Eğer elimde sadece tek bir gözlemci olsaydı, o gözlemcinin puanı ne kadar güvenilir olurdu?”. Aynı şekilde, soru şöyle de ifade edilebilir: “Eğer ben bu ölçümü sadece 1 kez alırsam, ne kadar güvenilir olur?”
-
Test-tekrar test güvenilirliğini kontrol edecek isek her zaman Single Measures kullanılması gerekir. Çünkü bunda her birey için sadece 1 test ve 1 retest ölçümü oluyor. Her ölçüm ayrı ayrı değerlendirilmek isteniyor, ortalaması alınmıyor.
-
Bununla birlikte ileride yapılacak yeni ölçümleri birden fazla gözlemciyle yapmak çok maliyetli olacaksa, önce az kişiden oluşan bir grupla pilot test yapılarak ICC değeri Single Measures’a göre okunur ve eğer yeterince yüksek bir değer bulunursa ileride yapılacak ölçümleri sadece 1 gözlemciyle yapmak uygun olacak demektir.
Average Measures
Eğer birden fazla gözlemciden (veya ölçümden) alınan puanların ortalamasını kullanarak analiz yapmak istiyorsak, o zaman Average Measures değerine bakarak analiz sonuçlarını yorumlamak daha doğru olur. Average Measures, birden fazla ölçümün (örneğin 2 veya daha fazla gözlemcinin) verdiği puanların ortalamasının ne kadar güvenilir olduğunu gösterir. Bu tür analizlerde araştırmacının sorduğu temel soru şudur:
“Eğer ben bu ölçümün puanlarını birkaç farklı gözlemciden alır, sonra bu puanların ortalamasını kullanırsam, bu ortalama ne kadar güvenilir olur?”
Yani, diğer bir deyişle:
“Bir kişi hakkında birden fazla ölçüm alırsam ve bunların ortalamasını kullanırsam, bu ortalama puan ne kadar tutarlıdır?”
Average Measures özellikle şu durumlarda kullanılır:
-
Birden fazla gözlemcinin puanlarının ortalaması kullanılacaksa
-
Bir testin alt boyutlarından veya farklı uygulayıcılardan gelen puanlar birleştirilecekse
-
Ölçüm hatasını azaltmak için birden fazla ölçümün ortalaması alınarak analiz yapılacaksa
Özellikle psikolojik testlerde, klinik değerlendirmelerde ya da puanlama gerektiren araştırmalarda, birkaç rater’ın verdiği puanların ortalamasının kullanılacağı durumlarda Average Measures kullanımı uygundur.
Eğer pilot bir çalışmada Average Measures değeri oldukça yüksek çıkarsa, bu durum ilerideki çalışmalarda birden fazla gözlemci yerine tek bir gözlemciyle devam etmenin de yeterli olabileceğine dair bilgi verebilir. Ancak bu karar verilirken mutlaka Single Measures değeri de göz önünde bulundurulmalıdır. Çünkü Average Measures, ölçüm sayısı arttıkça genellikle daha yüksek çıkar; bu yüzden karar verirken her iki ICC değeri birlikte değerlendirilmelidir.
Absolute Agreement vs. Consistency
1. Absolute Agreement (Mutlak Uyuşma)
Gözlemcilerin/ölçüm araçlarının/ölçümlerin aynı puanı verip vermediğine bakar.
-
Hem sıralama hem puan düzeyinin aynılığı önemlidir.
-
Farklı gözlemciler aynı kişiye 3 ve 3 verirse = perfect agreement (mükemmel uyuşma)
-
Ama biri 3 diğeri 4 verirse = agreement (uyuşma) bozulur, çünkü puanlar birebir aynı değil
2. Consistency (Tutarlılık)
Gözlemcilerin/ölçüm araçlarının aynı bireyleri benzer sıralayıp sıralamadığına bakar.
-
Sadece sıralama önemlidir, mutlak puan farkı önemsizdir
-
Eğer tüm gözlemciler aynı kişiyi en yüksek puanlayan kişi olarak görüyorsa, bu yüksek consistency (tutarlılık) demektir — ama puanlar birebir aynı olmak zorunda değil
Hangisi Seçilmeli?
Absolute Agreement daha katıdır ve bu yüzden birçok güvenilirlik çalışmasında tercih edilir — özellikle test–retest, gözlemci güvenilirliği, ölçek güvenilirliği gibi konularda.
Eğer puanlama sistemleri arasında küçük farklar önemsizse (örneğin ölçek biraz kaymış ama sıralama korunmuş), o zaman Consistency tercih edilebilir.
Kriter | Consistency | Absolute Agreement |
---|---|---|
Katılık | Daha gevşek | Daha katı |
Puan düzeyi | Önemli değil | Çok önemli |
Sıralama | Esas kriter | Hem sıralama hem birebir uyum |
En sık kullanım alanı | Faktör yapıları, ölçek karşılaştırma | Rater uyumu, test-retest, ölçüm aracı güvenilirliği |
Aşağıda, spesifik olarak hangi durumlarda tür olarak “Absolute Agreement” ve hangi durumlarda “Consistency” seçilmesi gerektiği hakkında biraz daha detaylı bir tablo yaptım, onu da inceleyebilirsiniz.
Durum / Amaç | Hangi Tür? | Açıklama |
---|---|---|
Test-retest (test-tekrar test) güvenilirliği | Absolute Agreement | Çünkü aynı ölçüm aracı, aynı kişiler, aynı sonuçlar beklenir |
Farklı gözlemcilerle yapılan puanlamalar (ör. klinik değerlendirme) | Absolute Agreement | Çünkü her gözlemcinin aynı puanı vermesi beklenir |
Farklı ölçeklerin veya yöntemlerin karşılaştırılması | Consistency | Çünkü mutlak değerler farklı olabilir, ama sıralama benzer olmalı |
Jüri üyeleri, uzman puanlaması (ama herkesin puanlama standardı farklı olabilir) | Consistency | Mutlak puanlar değişebilir ama kişiler arası sıralama sabitse bu yeterlidir |
Psikometrik değerlendirme (faktör analizinden sonra puanlar) | Consistency | Çünkü bazı dönüşümler puanları etkiler ama ilişkiler korunur |
ICC Analizi Raporlama
Intraclass Correlation Coefficient (ICC) raporlarken, SPSS veya benzeri programlarda “Two-Way Mixed” modeli seçilerek analiz yapıldığında, hangi ICC modelinin kullanıldığını belirtmek için ICC(3,k) formatı kullanılır. Buradaki 3 rakamı, “two-way mixed” yönteminin seçildiğini, k rakamı da ICC değerinin kaç ölçüm üzerinden hesaplanmış olduğunu ifade eder.
Eğer “Two-Way Random” kullanılırsa ICC(2,k) veya “One-Way Random” kullanılırsa ICC(1,k) olarak yazılır.
Bu notasyonda “Absolute Agreement” veya “Consistency” türü seçildiğinde bunu metin içinde ayrıca yazıyla belirtmek gerekir, ICC notasyonu (örneğin ICC(3,1)) model yapısını belirtir, ancak türü (consistency vs agreement) belirtmez. Bu yüzden Absolute Agreement mı Consistency mi seçilerek analiz yapıldığı, metin içinde ayrı bir bilgi olarak yazılmalıdır.
- ICC(3,1) => Bu gösterim Single Measures analiz sonucu raporlanırken yapılır.
- ICC(3,4) => Bu gösterim Average Measures analiz sonucu raporlanırken yapılır. 4 sayısı, 4 gözlemcinin verdikleri puanların güvenilirliğinin incelendiğini gösterir. Eğer ICC(3,2) olsaydı o zaman da 2 gözlemci olmuş olacaktı.
Örnek ICC Raporlama
Intraclass Correlation Coefficient (ICC) Analizi ve sonuçlarına dair akademik raporlama yapmak konusunda destek almak istiyorsanız, Telefon veya WhatsApp yoluyla benimle iletişime geçebilirsiniz. Birlikte doğru ICC analizi modeli ve türünü seçerek analizi yaparız, analiz sonucunda doğru ICC değerini yorumlarız ve akademik stilde eksiksiz raporlamasını yaparız.
Bir yanıt bırakın