İçindekiler
Merhaba herkese,
Bu yazıda, size istatistikte p-hacking yani p değeri hack’leme denen kavramın ne olduğundan bahsedeceğim.
p-hacking nedir?
p-hacking, bir deneyin sonucunu istatistiksel açıdan anlamlı bir sonuçmuş gibi göstermek için kullanılan bütün şüpheli uygulamaların genel adıdır.
İstatistiksel anlamlılığı gösteren p-değeri üzerinde oynandığı için adı “p-hacking” olarak geçmektedir.
Herhangi bir araştırmacı, herhangi bir deney yaptıktan sonra, elde ettiği verilerin istatistiksel analizini yaparken bu p-hacking denen yöntemi kullanarak, deneyden anlamlı bir sonuç çıkmamış olsa da, çıkmış gibi gösterebiliyor. Yani p-hacking yapılınca ne oluyor, gerçekte var olmayan deney sonuçları, gerçekte varmış gibi görünüyor ve bilim dünyasına bu şekilde giriyor. Sonuçta doğru olmayan bilgi oluşuyor.
“Az sayıda araştırmacı bunu yapıyordur ama çoğunluk yapmıyorsa sıkıntı yok, deney sonuçlarının çoğuna rahatlıkla güvenebiliriz” diye düşünüyor olabilirsiniz. Maalesef güvenemeyiz çünkü bu p-hacking olayı tahmin ettiğinizden çok daha yaygın. Ve diğer yazımda bahsettiğim, bilimdeki büyük replikasyon krizine yol açan asıl şey bu p-hacking durumu.
Şimdi yazının geri kalanında p-hacking denen şeyin arka planından, nasıl yapıldığından, ve bilime etkilerinden bahsedeceğim.
“Anlamlı” ve “Anlamsız” İstatistiksel Sonuç Nedir?
İstatistiksel olarak “anlamlı” ve “anlamsız” sonuç nedir çok kısaca açıklayayım konuya uzak olanlar için: Bir deney yapıldığında elde edilen verilerin istatistiksel analizi yapılır. Eğer analiz sonucu bulunan p değeri 0.05’ten küçükse, deneyde “anlamlı” bir sonuç bulunmuştur demek oluyor. Yani, deney sonucunun gerçekte var olan gerçek bir sonuç olma ihtimali yüksek demek oluyor. Eğer p değeri 0.05’ten yüksekse, “anlamsız” bir sonuç bulunmuştur demek oluyor. Deney yapan araştırmacılar genelde p değerinin 0.05’ten küçük çıkmasını isterler. Yani istatistiksel olarak “anlamlı” bir sonuç bulmak istiyorlar. Bunu böyle istemelerinin sebebi büyük ve çok boyutlu etik bir problem, bunu anlatan da ayrı bir yazı yazdım. Neyse ki bu yazıyı takip etmek için, araştırmacıların p değerini illa 0.05’ten küçük bulmak istediklerini bilmek yeterli.
Efsane p-Hacking Makalesi (2011)
2011’de, Joseph Simmons, Leif Nelson, ve Uri Simonsohn isimli 3 yüce biliminsanı “False-Positive Psychology” isimli bir makale yayınladılar. Makalede, p değerini 0.05’in altında göstermek için değişik farklı yöntemler uygulandığında, 0.05’in altında bir p değeri elde etmenin çok çok kolay olduğunu gösterdiler. p değerini bu şekilde zorla 0.05’in altında gösterme hareketine de “p-hacking” yani “p değeri hack’leme” dediler.
p-hacking yapılarak, gerçekte 0.05ten büyük çıkması gereken p değerleri, yapay yollarla 0.05’ten küçükmüş gibi gösteriliyor. Bu da gerçekte var olmayan sonuçların, gerçekte varmış gibi görünmesine sebep oluyor. Bu “gerçekte var olmayan sonuçların gerçekte varmış gibi gözükmesi” durumuna “yanlış pozitif” deniyor. Bu makaleye kadar, bilim dünyası p-hacking olayının, yanlış pozitif deney sonuçlarının yayılmasına büyük bir etkisi olduğunu düşünmüyordu. Bu makale bilimsel çevrelerde bir aydınlanmaya sebep oldu.
Bu olayların arka planında şu var: Bilim dünyasında en az 1960’lardan beri bilinen ama herkesin görmezden geldiği şöyle bir paradoks var: “Bilimsel dergilerde yayınlanan makalelerin çoğu, istatistiksel olarak anlamlı bir sonuç raporlamış. Aynı zamanda, bilimsel dergilerde yayınlanan makalelerin çoğundaki deneyler, istatistiksel olarak güçlü değilmiş.” Yani mantık çerçevesinden bakınca son cümle şu anlama gelmeli: “dergilerde yayınlanan makalelerin çoğu, istatistiksel olarak anlamlı bir sonuç çıkmamış olmalı.” Ama ilk cümleye bakarsak çoğunda anlamlı bir sonuç çıkmış. Bu nasıl oluyor?
Rosenthal “File Drawer Problem” (1979)
Bunu açıklamak için 1979 yılında Robert Rosenthal isimli bir psikolog şöyle bir fikir ortaya atıyor: “Herhangi bir konuda deney yapan araştırmacıların yaptıkları deneylerin %95i anlamsız çıkmıştır ve hiçbir zaman haklarında makale yazılıp raporlanmamıştır. Bunlar dosya çekmecesine konulup üstü kapatılmıştır” diyor Rosenthal. Bu da bilim dünyasında “file drawer problem” yani “dosya çekmecesi problemi” olarak bilinmeye başlanıyor. Geri kalan %5’lik dilimin içinde ise birçok “yanlış pozitif” sonuç vardır diyor Rosenthal. 1980’ler, 90’lar ve 2000’lerde bu fikir doğru kabul ediliyor ama bilim dünyasında bu durumu düzeltmek için hâlâ hiçbir şey yapılmıyor.
Rosenthal’in “file drawer problem” fikri başlangıç olarak güzel bir fikir ama üstüne biraz düşününce mantıksız tarafları var. Mesela, araştırmacılar yaptıkları deneylere bir sürü zaman ve efor harcıyorlar, bir araştırmacının, deney sonucu anlamsız çıktı diye yaptığı araştırmaların %95’ini çekmeceye atıp üstünü kapatması mantıklı değil. Ayrıca araştırmalarda genelde bir tanecik hipotez test edilmez, genelde birkaç tane farklı hipotez test edilir. Gerçekte, “yayınlanan makalelerde, test edilip desteklenmediği ortaya çıkan hipotezlerden hiç bahsedilmiyor, sadece desteklenen hipotezlerden bahsediliyor” gibi bir durum yaşanıyor olabilir. 2011’de yayınlanan Simmons, Nelson, ve Simonsohn’un makalesinde, “file drawer problem” konusuna farklı bir açıdan bakmak öneriliyor. Şöyle diyorlar: “Yapılan deneylerin %95inin sonucu anlamsız çıktığı için dosya çekmecelerine konulmamıştır. Bu deneyler başarılı deney kılığına sokulup dergilerde yayınlanmıştır. Deneylerin kendisi yerine, bu deneylerin istatistiksel analizleri anlamlı sonuç vermediği zaman bu analizler çekmeceye atılmıştır. Sadece anlamlı sonuç veren %5’lik istatistik analizi kısmı dergilerde yayınlanmıştır ve bu kısım içinde birçok yanlış pozitif sonuç mevcuttur” şeklinde bir fikir ortaya atıyorlar.
p-Hacking Makalesi Deneyi Özet (2011)
p-hacking terimini Simmons, Nelson & Simonsohn, 2011’den sonra ortaya atıyor. p-hacking çok yeni bir terim yani. Bunlardan önce p değerleriyle oynayıp yanlış pozitif sonuç raporlama diye bir şeyin mümkün olabildiğinden bahseden makaleler vardı, ta 1950’lerde 80’lerde falan bu tarz makaleler vardı. Ayrıca, yine ta 1960 70’li yıllarda, bilimsel dergilerde yayınlanan makalelerdeki deneylerin katılımcı sayısının çok az olduğunu, istatistiksel olarak güvenilir sonuçlar elde etmek istiyorsak bu deneylerin daha fazla katılımcıyla yapılması gerektiğini söyleyen bilim insanları da vardı. Ama bunlar genelde görmezden gelindi çünkü p-hacking’in 2011’deki makalenin gösterdiği kadar güçlü bir etkisi olduğunun henüz kimse farkına varmamıştı. Peki bu 2011’deki bu makale neyi gösterdi de insanlar sorunun ciddiyetinin farkına vardılar?
2011’deki makaleyi yazan 3 kişi, yanlış olduğu çok bariz olan bir şeyi, doğru kabul edilen istatistiksel deney analiz yöntemleriyle doğruymuş gibi gösteren bir deney serisi yaptılar ve bunu raporladılar. Sonra da ne yaptıklarını anlattılar.
- Birinci deney doğru olması pek olası olmayan bir deney sonucu
- İkinci deney doğru olması imkansız bir deney sonucu
Birinci deney şu: 30 kişiye bir çocuk şarkısı dinlettiler ve çocuk şarkısı dinlemenin insanın kendisini daha yaşlı hissetmesine sebep olduğu sonucunu buldular. Pek olası değil ama hadi doğru çıktı diyelim.
İkinci deney de şu: Acaba birinin dinlediği şarkı, o kişinin gerçek yaşını değiştiriyor mu diye baktılar. 1. deneyin aynı yöntemini kullanarak, 20 kişiye 2 tane farklı şarkı dinlettiler. Ve insanların birinci şarkıyı dinledikten sonra 1 buçuk yaş gençleştiği sonucunu buldular.
Bildiğimiz evrende böyle bir durum mümkün olamaz. Bir şarkı dinleyen kişinin şarkıyı dinledikten sonra gerçek yaşı değişemez. Ama bu deney sonucunu, bilim dünyasının kabul edeceği yöntemlerle analiz ettiler ve böyle bir sonuç buldular. Sorun nerede? Bu araştırmacılar bu bulguları, p değerini hack’leyerek buldular. Şimdi ne yaptılar onu inceleyelim.
Bir deney yapılıp bittiği zaman, o deneyin istatistiksel analizini yapan araştırmacının, neyin analizini nasıl yapacağı konusunda vereceği birtakım kararlar oluyor. Mesela hangi değişkenleri analize dahil edeceği, kaç kişilik bir veriyi analiz edeceği, deneyle doğrudan alakası olmayan ama deney sonucunu etkileyebilecek olan hangi başka değişkenleri (covariate) dahil edeceği, ve hangi deney koşullarını analize dahil edeceğini araştırmacı kendi seçiyor. Bu oldukça fazla bir özgürlük demek. Bu kararların her birine araştırmacının “özgürlük derecesi” deniyor.
Bu 3 araştırmacı, yaptıkları bu 2 deneyde yanlış olduğu bariz olan bir sonucu nasıl buldukları hakkında okuyuculara bir fikir vermek için, bir deney simülasyonu örneği verdiler.
Bu diğer deney simülasyonunda 2 tane değişken var. Dışarıdan üçüncü bir etkinin, birinci değişkeni, ikinci değişkeni, ya da iki değişkenin kombinasyonunu etkileyip etkilemediğini görmek için 3 tane hipotez test ediliyor. Değişkenlerin ve hipotezlerin ne olduğu önemli değil. Hipotezlerin doğruluğunu test etmek için, 15,000 tane farklı bilgisayar simülasyonu yapıyorlar. Her bir simülasyonda, normal dağılmış bir popülasyondan seçilmiş 20 kişilik bir örneklem seçiliyor ve bu 3 hipotezin doğruluğu ya da yanlışlığı test ediliyor. Deney analizinin nasıl yapılacağı baştan belirlendiği zaman, yani hiçbir özgürlük derecesi kullanılmadığı zaman, gerçekte anlamlı bir sonuç var olmasa da anlamlı bir sonuç bulma ihtimali normalde %5’tir. Yani gerçekte var olmayan bir sonucun varmış gibi görünme ihtimali %5. Yani yanlış pozitif sonuç raporlanma ihtimali %5.
Demin araştırmacıların deneylerinin analizini yaparken çeşitli özgürlük dereceleri oluyor demiştim. Simülasyonu yapan bu 3 araştırmacı, simülasyonu yapmadan önce, normalde istatistik analizi yaparken yaygın olarak kullanılan dört tane özgürlük derecesi belirlediler. Bu özgürlüklerden birisi “değişkenlerin hepsini değil de bazılarını seçmek”, bir tanesi “örneklem büyüklüğünü seçmek”, birisi “deneyle doğrudan alakası olmayan ama belki alakası olabilecek değişkenleri analize dahil etmek”, birisi de “deney kondisyonlarının bazı alt gruplarını seçip sadece onları raporlamak” şeklinde oldu. Olabilecek bütün özgürlük dereceleri bunlar değil, daha bir sürü var ama en yaygın olarak yapılanları bunlar olduğu için araştırmacılar bu örnekleri seçmişler.
Bu simülasyonlarda normalde hiçbir özgürlük derecesi kullanılmazsa deneyden anlamlı sonuç bulma ihtimali %5’tir demiştik. En az bir özgürlük derecesi kullanıldığında, gerçekte anlamlı sonuç olmasa dahi anlamlı sonuç bulma ihtimalinin %5’ten bir miktar fazla olmasını beklersiniz. İşte “ne kadar” fazla olduğunu görmek için yapıyorlar araştırmacılar bu 15,000 simülasyonu. Bu simülasyonların bazılarında sadece 1 tane özgürlük derecesi kullanılmış. Bazılarında 2 özgürlük derecesi birlikte kullanılmış. Bazılarında 3 tanesi bir arada kullanılmış. Bazılarında ise 4 tanesi birden aynı anda kullanılmış.
P-Hacking Makalesi Sonuçları Özet (2011)
Simülasyonun sonuçları çok çarpıcı. Şu şekilde:
Eğer 1 tane özgürlük derecesi kullanılarak analiz yapılırsa, deneyden en az 1 tane anlamlı sonuç bulma ihtimali %5 yerine yaklaşık %10’a yükseliyor.
2 tane özgürlük derecesi aynı anda birlikte kullanıldığında, normalde %5 olması gereken ihtimal %15’e çıkıyor.
3 tanesi birlikte kullanıldığında, %30’a çıkıyor.
4 tanesi birlikte kullanıldığında, %60’a çıkıyor.
Yani, deney analizi yaparken, araştırmacı, 4 tane şeye kendisi sonradan kendisi karar verecek olursa, normalde %5 olması gereken yanlış pozitif sonuç raporlama ihtimali %60’a çıkıyor.
E ne oldu? Gerçekte var olmayan bir sonucun, gerçekte varmış gibi gösterilme ihtimali %5’ten %60’a çıkmış oldu. Hatırlarsanız bu simülasyonlarda deneyin istatistik analizi yapılırken araştırmacının kendi karar verebildiği şey sayısı sadece 4’tü. Gerçek hayatta araştırmacıların çok daha fazla şeye kendileri karar veriyor olması mümkün. Bu yüzden yanlış pozitif bir sonucun doğruymuş gibi raporlanma ihtimali %60’tan bile daha fazladır diye düşünülüyor. “Yani dergilerde yayınlanan makalelerdeki araştırma sonuçlarının, en az %60’ı, büyük ihtimalle daha fazlası, yanlış pozitif sonuçlar içeriyor” diye bir sonuca varılabilir buradan da. Yani okuduğumuz makalelerin %60’ı gerçekte var olmayan bulguları gerçekte varmış gibi gösteriyor olabilir, bunun böyle olması çok mümkün. Bunu gösterdi işte 2011’deki bu makale.
Bu bilimsel açıdan çok büyük bir problem. Çünkü bilimsel makalede okuduğumuz bilgilerin doğruluğuna da güvenmeyeceksek, neyin doğruluğuna güveneceğiz?
Son Not
Bu noktada, araştırmacıların p-hacking uygulamalarını genelde kötü niyetle yapmadığını belirtmek istiyorum. 2011’den önce p-hacking yaparak yanlış pozitif bir sonucu doğruymuş gibi göstermenin bu kadar kolay olduğunu kimse bilmiyordu. 2011’den sonra fark edildi bu.
İsterseniz p-hacking yapmanın ne kadar kolay olduğunu uygulamalı gösterdiğim diğer yazımı okuyabilirsiniz.
Neyse ki çözüm önerileri var. Bu 2011’deki makalenin yayınlanmasıyla beraber, yanlış pozitif sonuçların raporlanma ihtimalini azaltmak için, yani bilimsel makalelerin güvenilirlik miktarını arttırmak için, bazı güzel çözüm önerileri ortaya atıldı. Ve bu çözüm önerileri giderek daha çok uygulanıyor. Bunların ne olduğundan da başka bir yazıda bahsediyorum.
Okuduğunuz için teşekkürler, diğer yazıda görüşmek üzere…
Bir yanıt bırakın