
İçindekiler
Merhaba herkese,
Bu yazıda hipotez testi ve istatistik analizinde kullanılan p değerinin anlamından, nasıl kullanıldığından ve nasıl doğru yorumlamak gerektiğinden bahsedeceğim.
Deney ve Hipotez Testi İçin p Değerinin Önemi
Biz her deney yaptığımızda, bir hipotezi test ederiz. Mesela ben dondurma yemenin sınav başarısını arttırıp arttırmadığını merak edip bir deney yapıyorum. Hipotezim, “dondurma yemek sınav başarısını arttırıyor” olacak. Buna Hipotez 1 diyoruz. Hipotezi test etmek için bir de 0 Hipotezi diye bir hipoteze ihtiyacımız var. Bu da “dondurma yemek sınav başarısını arttırmıyor” şeklinde bir hipotez. 0 Hipotezi her zaman, “fark yoktur” anlamına gelen bir hipotez oluyor, Hipotez 1 ise her zaman “fark vardır” anlamına gelen bir hipotez oluyor.
Biz, deneyimizin istatistiksel analizini yaparken, her zaman 0 Hipotezi’ni reddetmeye çalışıyoruz. Kullandığımız istatistiksel metotlar bu şekildedir. p değerini burada kullanıyoruz işte. p değeri 0 ile 1 arasında kesirli bir sayı. p değerinin anlamı şudur: “Deneyi yaptık ve dondurma yiyen ve yemeyen kişilerin ortalama sınav skorları arasında bir miktar fark bulduk. Eğer 0 Hipotezi doğru ise, yani gerçekte dondurma yiyen ve yemeyen insanların sınav sonuçları arasında bir fark olmamış olsaydı, iki grup arasında deneyde bulduğumuz skor farkını bulmuş olmamızın olasılığı, bulduğumuz p değerine eşittir.”
Yani mesela deneyi yaptık, elde ettiğimiz verilerin analizini de yaptık. Analiz sonucu eğer p değeri 0.70 çıktıysa, bundan şöyle bir şey anlıyoruz: “eğer dondurma yemek ve sınav skoru arasında bir ilişki yok ise, iki grup arası bizim deneyde bulduğumuz gibi bir fark bulmuş olma olasılığımız %70’tir.” Yani oldukça yüksek bir olasılık. O zaman da diyoruz ki, “demek ki büyük ihtimal iki grup arasında anlamlı bir fark yok”. Yani “dondurma yemek ve sınav skoru arasında büyük ihtimal bir ilişki yoktur” diye bir sonuca varıyoruz.
Öte yandan diyelim bulduğumuz p değeri 0.01 çıktı. O zaman anlıyoruz ki, eğer gerçekte dondurma yemek ve sınav skoru arasında bir ilişki yoksa, bizim bulduğumuz gibi bir deney sonucu bulmanın ihtimali %1’dir. Yani oldukça düşük bir olasılık. O zaman diyoruz ki: “Dondurma yemek veya yememek, sınavdan alınan not konusunda bir fark yaratıyor olabilir”.
Yani p değerini 0 Hipotezi’ni reddetmek ya da reddetmemek kararını verirken kullanıyoruz. Eğer p değeri düşük çıktıysa 0 Hipotezi’ni reddediyoruz. Yani bu “gerçekte 2 grup arasında anlamlı bir fark var” demek oluyor. Ama mesela p değeri yüksek çıktıysa 0 Hipotezi’ni reddetmek için yeterli bir sebebimiz olmamış oluyor. O zaman “anlamlı bir sonuç bulmamış olduk” demek oluyor bu.
Peki p değerine neye göre yüksek neye göre düşük diyoruz? Kesin bir sınır yok burada. Biliminsanlarının üzerinde anlaştığı eşik değeri p = 0.05 tir. p değeri eğer 0.05’ten küçükse, 0 Hipotezi’ni reddediyoruz, p 0.05’ten büyük ise 0 Hipotezi’ni reddedemiyoruz.
p değeri nedir ve hipotez testinde nasıl kullanılır özeti buydu.
Bir Örnek ile p Değeri Yorumlama
Şimdi p değerinin nasıl kullanıldığı hakkında bir örnek bakalım.
Mesela bir deney yaptım. Sınavdan 10 dakika önce dondurma yemenin sınav başarısını arttırıp arttırmadığına bakan bir deney olsun. Deneyde 2 grubum var. Kırmızı gruptaki insanlar testten 10 dakika önce dondurma yiyip sonra testi çözüyor, mavi gruptakiler ise hiçbir şey yemeden testi çözüyor.
Deneyi yaptım bitti, şimdi sonuçları inceliyoruz. Kırmızı gruptakiler testten ortalama 60 almış, mavi gruptakiler ise 55 almış. Sadece ortalama puanlar arasındaki bu farka bakarak “dondurma yemek sınav başarısını arttırıyormuş” diyebilir miyiz? Bundan emin olamayız. İstatistiksel analizini yapmamız lazım. Yalnızca istatistik analizi yaparsak bu farkın istatistiksel olarak anlamlı bir fark mı yoksa anlamsız bir fark mı olduğu hakkında bir fikir edinebiliriz.
Bu konuda bize yol gösteren şey p değeri işte. İstatistiksel analiz yaparken belli standart işlemler yapıyoruz. Bu işlemleri yaptığımızda elimize bir p değeri geçiyor. Analiz sonucu elde ettiğimiz p değeri ne kadar büyükse, kırmızı ve mavi grup arasındaki 60-55 skor farkının anlamsız bir fark olma ihtimali o kadar büyük oluyor.
p değeri 0 ile 1 arasında değişebilen bir sayı demiştik. Mesela bizim analizimiz sonucu bulduğumuz p değeri 0.80 çıktı diyelim. Yani 0.05’ten büyük bir değer. “Gruplar arası ortalama skor farkı, istatistiksel olarak anlamsız bir farktır, yani büyük ihtimalle dondurma yemek sınav skorunu etkilemiyordur” diyoruz bu p değerine bakarak. Ama mesela p değerimiz 0.01 çıktı diyelim. O zaman da diyoruz ki “bu skor farkı anlamlı bir skor farkı yani dondurma yemek gerçekten sınavdan daha yüksek not almayı sağlıyor olabilir”.
Öğrencilerin çoğu p değerinin anlamını yanlış anlıyor. p değerinin anlamı şu değil: “bulduğumuz deney sonucunu şans eseri bulmuş olma ihtimalimizin büyüklüğü” değil. Yani p değeri 0.01 çıktığında, bulduğumuz sonucun gerçekte var olmama ihtimali %1 değildir. p değerinin doğru anlamı şudur: “Eğer 0 Hipotezi doğru ise, deneyimizde bulduğumuz gibi bir veriyi bulmuş olma ihtimalimizin büyüklüğü”dür p değeri.
Mesela dondurma deneyimizde p değerini 0.01 bulduk. Bir grup ortalama 60 bir grup da 55 almıştı. Diyoruz ki: “Eğer 0 Hipotezi doğru olsaydı, yani dondurma yemek sınav skorunu etkilemiyor olsaydı, bizim bulduğumuz gibi bir 60-55 skor farkı bulma olasılığı %1’dir. Çok düşük bir olasılık. Diyoruz ki “o zaman muhtemelen 0 Hipotezi doğru değil”. Ve 0 Hipotezi’ni reddediyoruz. Yani “sınavdan önce dondurma yemek, sınav başarısını arttırmıyor değil” diye bir sonuca varıyoruz.
p değerinin ne demek olduğunu ve ne demek olmadığını ayırt etmek çok önemli, istatistiksel açıdan deney sonucu yorumlarken buna dikkat etmek gerekiyor.
Tip I ve Tip II Hatalar (ve konuyla ilgisi)
Dediğim gibi p değeri, hipotez testi yaparken önemli bir araçtır, ancak sadece p değerine odaklanmak bazı hatalara yol açabilir. Bu hatalar, istatistikte Tip I ve Tip II hata olarak bilinir ve p değerinin yanlış yorumlanması veya hipotez testi sürecinin yanlış yönetilmesi durumunda ortaya çıkabilir.
Tip I hata (α): Bu hata, aslında doğru olan 0 Hipotezi’ni (yani, gruplar arasında fark yoktur hipotezini) reddettiğimizde ortaya çıkar. Başka bir deyişle, deney sonucunda aslında gerçek dünyada var olmayan bir fark bulduğumuzda Tip I hata yapmış oluruz. Örneğin, gerçekte dondurma yemek sınav başarısını etkilemiyorsa, ancak biz deney sonucunda “etkiliyor” sonucuna varırsak, Tip I hata yapmış oluruz. Tip I hata olasılığı, genellikle belirlenen p değerine bağlıdır. Eğer p değeri 0.05 ise, %5 ihtimalle Tip I hata yapabileceğimiz anlamına gelir. Tip I hata “yanlış pozitif” olarak da bilinmektedir.
Tip II hata (β): Bu hata ise 0 Hipotezi’ni reddetmememiz gerektiği durumda, yani gerçek dünyada var olan bir farkı tespit edemediğimizde meydana gelir. Örneğin, dondurma gerçekten sınav başarısını arttırıyorsa, fakat biz deneyimizde bunu tespit edemediğimizde, Tip II hata yapmış oluruz. Bu hatanın olasılığı ise genellikle testin istatistiksel gücüyle ilişkilidir; küçük bir örneklem büyüklüğü kullanıldığında Tip II hata yapma olasılığı artar. Tip II hata “yanlış negatif” olarak da bilinmektedir.
Bilimsel Açıdan Bu Hatalardan Kaçınmanın Önemi
Tip I ve Tip II hatalardan kaçınmak, bilimsel araştırmanın güvenilirliğini artırmak için çok önemlidir. Tip I hatayı önlemek için istatistiksel analiz sırasında Tip I hata ihtimalini (yanlış pozitifleri) minimuma indirmeye çalışmalıyız. Bu, araştırmanın güvenilirliğini artırır ve yanlış sonuçlara dayalı çıkarımlar yapma olasılığını azaltır. Öte yandan, Tip II hatayı önlemek de önemlidir çünkü gerçekte var olan etkileri tespit edememek, yanlış negatif sonuçlara yol açabilir. Bu nedenle, uygun istatistiksel güç ayarlanarak yapılan doğru örneklem büyüklüğü hesaplama uygulamaları sayesinde Tip II hataların önüne geçilebilir.
Sonuç olarak, bilimsel araştırmalarda bu hatalardan kaçınmak, doğru kararlar almak ve bulgularımızın güvenilirliğini sağlamak açısından hayati önem taşır. Araştırmanın odak noktasını p değeri yapmak tek başına yeterli değildir; deney tasarımını doğru yaparak ve hipotez testi süreçlerini dikkatle yürüterek bu sayfada bahsettiğim hatalardan kaçınmak mümkündür.
Son Notlar
Bu örnekte, elde ettiğim p değerine bakarak dondurma yemenin sınav skoruna etkisini yorumlarken dikkat ederseniz “kesinlikle” kelimesini kullanmadım. Çünkü bir sonucun şans eseri mi bulunduğunu yoksa gerçekten mi var olduğunu “kesinlikle” bilmek mümkün değildir. En fazla yapabildiğimiz şey şu: yeterince iyi bir tahmin yürütme şansımız oluyor. Mesela elde ettiğimiz p değeri 0.00001 ise (0’a çok yakın bir sayı), o zaman çok çok büyük ihtimal deney sonucu gerçek hayatta var olan bir sonuçtur.
Genelde p değeri sınırı 0.05 demiştik. Mesela bulduğumuz p değeri 0.05 değil de 0.06 çıktı… işte buraları siyah-beyaz değil de gri alan olmaya başlıyor. Ben bu dondurma yeme deneyini yaptım, kırmızı grup 60 mavi grup 55 aldı ortalama olarak testten. Analizini yaptım, p değerim 0.06 çıktı. p değerim 0.06 olduğu için sonuç istatistiksel olarak “anlamsız” yani “demek ki dondurma yemek sınav başarısını arttırmıyor muhtemelen” diyoruz.
Bu p değeri böyle keskin sınırlarla belirlenmediği için, analizi biraz eğip bükerek, p değerini zorla 0.05’in altında çıkartmak çok zor değildir. Ve bu şekilde, gerçekte var olmayan sonuçları, gerçekte varmış gibi göstermek mümkündür. Bu mümkün, ama bilimsel açıdan sakıncalı bir uygulama. Bu sorundan bahseden de bir yazı yazdım, dilerseniz okuyabilirsiniz.
Okuduğunuz için teşekkürler, başka bir yazıda görüşmek üzere…
Bir yanıt bırakın