İçindekiler
Bu yazıda, gerçekte doğru olmayan bilgilerin, bilimsel olarak nasıl doğruymuş ve güvenilir bilgiymiş gibi görünecek şekilde raporlanabileceğini, basit bir örnek ile anlatacağım. Amacım kimseyi buna teşvik etmek değil, aksine farkındalık yaratmak, çünkü günümüzde bilimsel bilgilerin güvenilirliği (özellikle sosyal bilimlerde) epey sallantıda.
Bir Deney Hayal Edelim
Bu yazıda kullanacağım örnek gerçek hayatta yaşanmış olması çok muhtemel bir p değeri hack’leme örneği olacak. p değerinin anlamından ve p-hacking’in ne olduğundan diğer 2 yazımda detaylı bahsediyorum, ama onları okumasanız bile bu yazıyı takip edebilirsiniz bence.
Mesela ben bir araştırmacıyım ve sınavdan 10 dakika önce dondurma yemenin sınav başarısını arttırıp arttırmadığını merak ediyorum. Bir deney yaptım. 2 grubum var. Kırmızı gruptaki insanlar bir testten 10 dakika önce dondurma yiyip sonra testi çözüyor, mavi gruptakiler ise hiçbir şey yemeden testi çözüyor.
Deneyi yaptım bitti şimdi sonuçları inceliyoruz. Kırmızı gruptakiler testten ortalama 60 almış, mavi gruptakiler ise 55 almış. Sadece ortalama puanlar arasındaki bu farka bakarak “dondurma yemek sınav başarısını arttırıyormuş” diyebilir miyiz? Bundan emin olamayız. Sonuçların istatistiksel analizini yapmamız lazım. Yalnızca istatistik analizi yaparsak bu farkın istatistiksel olarak anlamlı bir fark mı yoksa anlamsız bir fark mı olduğu hakkında bir fikir edinebiliriz.
Diğer yazımda daha detaylı bahsediyorum ama birkaç cümleyle özetleyeyim: Analiz sonucu bir tane p değeri buluruz. Bu p değeri 0.05’in altında olursa “anlamlı bir fark var, yani dondurma yemek gerçekten sınav başarısını arttırıyor” diyoruz. p değerimiz 0.05’in üstünde olursa da “fark anlamsız” diyoruz, yani “dondurma yemek gerçekte sınav başarısını arttırmıyor ve biz deneyimizde büyük ihtimal bu farkı şans eseri bulduk” diyoruz.
Diyelim ben bu dondurma deneyini yaptım, bir sürü zaman ve emek harcadım. Deneyi bitirdim, istatistiksel analizini yaptım. Sonuçta p değerim 0.06’ya eşit çıktı. Yani 0.05’ten büyük, istatistiksel olarak anlamsız bir fark. Sonuç olarak “dondurma yemek sınav başarısını arttırmıyormuş” sonucuna vardım.
Bu Deneyi Bilimsel Dergide Yayınlamaya Çalışalım
Normalde ben tamamen merak ettiğim için, bilimsel bir amaçla dondurma-sınav skoru arasında bir ilişki var mı diye baktım, ilişki yok çıktı. Ben bu deney sonucu hakkında bir makale yazıp bir bilimsel dergiye gönderiyorum, makalemi yayınlasınlar diye. İşte tam burda duvara çarpıyorum. Bilimsel dergiler, genelde, deney sonucu anlamsız çıktığı zaman makaleleri yayınlamazlar… Maalesef, dergiler deney sonucunda anlamlı sonuç çıkan makaleleri yayınlamayı tercih ediyorlar ki daha ilgi çekici olsun, insanlar daha çok okusun.
E ben araştırmacı olarak kariyerimde ilerlemek için düzenli olarak dergilerde makale yayınlamalıyım. Makale yayınlamazsam mevki yükselemem ve hatta özel üniversitede çalışıyorsam işten atılabilirim. Anlıyorum ki deney sonucumu dergide yayınlatmak için yaptığım deneyin analizinde p değerini 0.05’in altında bulmalıyım. O zaman deney sonucu çıkan p değerini 0.05’in altında göstermek için çok da bilimsel açıdan doğru olmayan yöntemlere yönelmek zorunda kalıyorum.
Bu dondurma deneyinin aynısını, baştan tekrar yapıyorum farklı katılımcılarla. Deney bitiyor, sonuçlara bakıyorum yine kırmızı gruptakiler 60 puan mavidekiler 55 puan almış ortalama. Analizini yapıyorum, p değeri atıyorum 0.15 çıktı. Olmaz, yine 0.05’ten büyük. Deneyin aynısını üçüncü kez yapıyorum başka katılımcılarla. Yine kırmızı grup 60 puan mavi 55 puan aldı ortalama. Analizini yapıyorum, bu sefer de atıyorum p değeri 0.03 çıktı. Güzel, 0.05’in altında bir p değeri var. Bu deney sonucu hakkında makale yazıp dergiye gönderebilirim. Ve dergi büyük ihtimal benim makalemi yayınlar çünkü sınavdan hemen önce dondurma yemenin sınavda aldığımız skoru arttırması baya ilgi çekici bir sonuç.
Dikkat ettiyseniz ilk 2 deneyin sonucunda p değeri anlamsız çıktı, sadece 3. deneyde anlamlı çıktı. Ama ben sadece 3. deneyi dergiye yolladım. Şimdi makalemi okuyan birisi bakar, makalede bahsettiğim p değeri anlamlı. “Gerçekten dondurma yemek sınav skorunu arttırıyor galiba” sonucuna varır. Ama gerçekte ne oldu, ben aynı deneyi 3 kere yaptım, 2 tanesinde sonuç anlamsız çıktı, sadece 1 tanesinde sonuç anlamlı çıktı ve sadece dergiye verdiğim makalede sadece anlamlı olan o 1 tane sonucu raporladım. Gerçekten objektif bilimsel bir şekilde, “sonuç anlamlıdır” diyebilir miyiz? Hayır.
Replikasyon Krizi’ne Giden Yol
Çok önemli bir soru daha: Ben bir biliminsanı olarak, kariyerimde ilerlemek için bunu bu şekilde yapmak zorunda mıydım? Muhtemelen evet. Zorunda olmasam bile akademik sistem tarafından çok güçlü bir şekilde teşvik edildim.
İşte istatistikte “yanlış pozitif” (false positive) sorunu denen şey bu. Gerçekte var olmayan bir deney sonucunun, gerçekte var olan bir sonuçmuş gibi görünmesine “yanlış pozitif” deniyor. Bunun p değeriyle ilgisi de şu: bulduğum p değeri ne kadar büyükse, benim deneyimdeki 2 grup arasındaki 60-55 puan farkının yanlış pozitif olma ihtimali o kadar büyük oluyor. p değeri ne kadar küçükse de, bu puan farkının doğru pozitif, yani gerçekte var olan anlamlı bir fark olma ihtimali o kadar büyük oluyor.
İşte bilimsel dergilerin bu “Yaptığın deneyden anlamlı sonuç çıkmazsa senin makaleni yayınlamam” politikası yüzünden biliminsanları, yaptıkları deneylerde buldukları p değerlerini 0.05’in altında bulmak için çeşitli yöntemler uygulamak zorunda kaldılar. Ta 1950’lerden 2010’ların başlarına kadar böyle yapılıyordu bu. Bu da bugüne kadar çok fazla sayıda yanlış pozitif sonucun gerçekte varmış gibi gösterilip bilimsel dergilerde yayınlanmasına sebep oldu.
2010’ların başında insanlar bu durumun ciddiyetinin farkına vardı ve Replikasyon Krizi adı verilen kavram ortaya çıktı. Sonrasında da bilim dünyasında bu kötü durumu düzeltmek için bazı uygulamalar yapılmaya başlandı. Bu çözüm uygulamalarından da başka bir yazıda bahsediyorum.
Okuduğunuz için teşekkürler, başka bir yazıda görüşmek üzere.
Bir yanıt bırakın