Geçerlik ve Güvenirlik Nedir?

İçindekiler

1 Geçerlik ve Güvenirlik Nedir?
2 Güvenirlik Türleri
3 Geçerlik Türleri

Araştırma ve ölçme süreçlerinde sıkça duyduğumuz iki kavram “geçerlik” ve “güvenirlik”tir. Geçerlik (validity), bir ölçme aracının veya testin, ölçmek istediği özelliği ne kadar doğru ölçtüğünü ifade eder. Güvenirlik (reliability) ise ölçme aracının sonuçlarının tutarlılığını ve tekrarlanabilirliğini gösterir. Başka bir deyişle, geçerlik “doğruluk”, güvenirlik ise “tutarlılık” ile ilgilidir.

Neden Önemlidir?

Araştırma Kalitesi: Bilimsel çalışmalarda araştırma kalitesini belirleyen en önemli unsurlardan biri geçerli ve güvenilir ölçüm yapmaktır. Eğer bir ölçme aracı geçerli değilse, neyi ölçtüğünüz tam olarak belli olmayabilir; güvenilir değilse, sonuçlarınız rastgele hatalardan etkilenecektir.
Doğru Kararlar: Akademik veya kurumsal kararlar, araştırma çıktılarının doğruluğuna dayalıdır. Güvenilir ve geçerli sonuçlar, doğru karar vermenin temelini oluşturur.
Yeniden Uygulanabilirlik: Aynı çalışmanın farklı örneklemlerde veya farklı zamanlarda uygulanabilmesi, güvenirlik düzeyiyle yakından ilişkilidir. Tekrarlanan çalışmalarda benzer sonuçlar elde ediliyorsa, ölçüm aracının güvenirliği yüksek demektir.

Güvenilirlik, geçerlik için bir ön koşuldur. Bir ölçme aracının güvenilir olması her zaman geçerli olduğu anlamına gelmez. Geçerlilik, güvenirliği kapsayan bir kavramdır.

Bir araştırmanın hipotezlerini test etmek için yapılan istatistiksel analizlerin sonuçlarının tam anlamıyla gerçeği yansıttığından emin olabilmemiz için ölçüm aracı ile toplanan verilerin hem güvenirlik, hem de geçerlik analizleri yapılmış olmalıdır.

Güvenirlik Türleri

Güvenirlik, aynı ölçüm aracının farklı zamanlarda, farklı örneklemlerde veya aynı örneklemde tekrarlandığında benzer sonuçlar vermesiyle ilgilidir. Güvenirlik türleri genellikle aşağıdaki başlıklar altında incelenir:

1. İç Tutarlılık Güvenirliği

Testin içindeki maddelerin birbirleriyle ne kadar tutarlı olduğunu gösterir. En yaygın kullanılan yöntem Cronbach’s Alpha katsayısıdır.
Alternatif iç tutarlılık ölçümleri:
- Kuder-Richardson (KR-20, KR-21): İkili (doğru-yanlış gibi) yanıt içeren testler için kullanılır.
- Ortalama Madde Korelasyonu: Test maddelerinin birbiriyle olan korelasyonlarını hesaplar.
- Ortalama Madde Toplam (Item-Total) Korelasyonu: Maddelerin toplam puanla ilişkisini değerlendirir.
- Bileşik Güvenirlik (Composite Reliability = CR): Ölçeğin iç tutarlılığını değerlendirmek için kullanılır. Cronbach’s Alpha’ya alternatif olarak özellikle doğrulayıcı faktör analizi (DFA) bağlamında tercih edilir.

2. Test–Tekrar Test (Test-Retest) Güvenirliği

Aynı testin belirli bir zaman aralığında aynı bireylere uygulanmasıyla ölçülen güvenirlik türüdür. Testin zaman içindeki tutarlılığını gösterir. Korelasyon katsayısı yüksekse, test güvenilir demektir.

3. Eşdeğer (Paralel) Formlar Güvenirliği

Aynı yapıyı ölçen iki farklı test formunun (A ve B formu gibi) aynı gruba uygulanarak korelasyonlarının hesaplanmasıyla belirlenir. Farklı test formlarının aynı sonucu verip vermediği değerlendirilir.

4. İki Yarım (Split-Half) Güvenirliği

Testin iki yarıya bölünerek (örneğin çift ve tek numaralı sorular) her iki yarının korelasyonunun hesaplanmasıyla belirlenir. Spearman-Brown düzeltme formülü ile toplam testin güvenirliği hesaplanabilir.

5. Gözlemciler Arası (Inter-Rater) Güvenirlik

Farklı değerlendiricilerin (hakemlerin, kodlayıcıların) aynı veriyi ne kadar tutarlı şekilde değerlendirdiğini belirler. Cohen’s Kappa, Fleiss’ Kappa, Intraclass Correlation Coefficient (ICC) gibi istatistikler kullanılır.

6. Ölçümler Arası Güvenirlik (Inter-Method Reliability)

Aynı değişkeni ölçmek için kullanılan farklı yöntemlerin sonuçlarının birbirleriyle tutarlılığını değerlendirir. Özellikle psikometri ve sağlık bilimlerinde farklı değerlendirme araçlarının kıyaslanması için önemlidir.

Geçerlik Türleri

Geçerlik, bir ölçüm aracının ölçmek istediği özelliği ne kadar doğru ölçtüğünü ifade eder. Geçerlik kavramı, farklı açılardan değerlendirilebilen çok yönlü bir kavramdır. En sık bahsi geçen geçerlik türleri şunlardır:

İçerik Geçerliği (Content Validity)
Bir ölçme aracının tümüyle ölçmek istediği alanı ne kadar kapsadığını ifade eder. Örneğin, bir sınavın tüm konuları yeterince kapsayıp kapsamadığını değerlendirmek için içerik geçerliği göz önünde bulundurulur. Uzman görüşleri, kapsam geçerliği indeksi (Content Validity Index – CVI) ve Lawshe’nin içerik geçerliği katsayısı ile değerlendirilir.
Yapı Geçerliği (Construct Validity)
Ölçülmek istenen kuramsal yapının gerçekten ölçülüp ölçülmediğini inceler. Yapı geçerliğini test etmek için genellikle SPSS programıyla Açımlayıcı Faktör Analizi (AFA) ve AMOS programıyla Doğrulayıcı Faktör Analizi (DFA) yöntemleri kullanılır. Yapı geçerliğinin alt kategorileri olan birleşim ve ayrışım geçerliğinin ne olduğuna “Geçerlik Analizi Yapma” başlıklı yazımda daha detaylı değiniyorum.
Kriter Geçerliği (Criterion Validity)
Ölçme aracından elde edilen sonuçlarla, harici bir “kriter” veya “altın standart” arasında korelasyon aranır. Örneğin, çalışan performansını ölçen bir testin, çalışanların gerçek performans verileriyle yüksek korelasyon göstermesi beklenir. Bunu test etmek için korelasyon analizi ile ölçme aracının dış kriterlerle ilişkisi incelenir. Ayrıca, ROC analizi veya regresyon modelleri gibi yöntemler de kullanılabilir.

Bunun dışında saymak gerekirse Yüzey Geçerliği (Face Validity), Yordayıcı Geçerlik (Predictive Validity), Eşzamanlı Geçerlik (Concurrent Validity), Çapraz Geçerlik (Cross-Validation), Ekolojik Geçerlik (Ecological Validity), Kültürel Geçerlik (Cultural Validity) gibi geçerlik türleri de vardır. Her araştırmanın amacı ve bağlamına göre farklı geçerlik türleri önem kazanabilir. Ölçme aracının geçerli olduğunu tam anlamıyla gösterebilmek için genellikle birden fazla geçerlik türü değerlendirilir.

Geçerlik ve Güvenirlik Nedir?