hipotez testi çerçevesi ve iki hata türü
Hipotez testi, bir iddiayı veriyle test etmenin formel yöntemidir. H₀ (sıfır hipotezi), durumun değişmediğini, farkın olmadığını veya etkinin sıfır olduğunu söyler. Test, bu hipotezi reddetmek için yeterli kanıt olup olmadığını ölçer.
İki yanlış karar riski her zaman vardır: gerçek bir etkiyi görmezden gelmek (Tip II) ve olmayan bir etkiyi "bulmak" (Tip I). Her test bu iki hata arasında denge kurar — birini azaltmak diğerini büyütür.
| H₀ Gerçekte Doğru | H₀ Gerçekte Yanlış | |
|---|---|---|
| H₀ Reddedildi | Tip I Hata (α) Yanlış alarm — olmayan bir etkiyi "bulduk" |
Doğru Karar (1−β) Test gücü — gerçek etkiyi yakaladık |
| H₀ Korundu | Doğru Karar (1−α) Haklı olarak H₀ korunduk |
Tip II Hata (β) Gerçek etkiyi gözden kaçırdık |
Kredi modellemesinde α = 0.05 genel eşiktir. Ama bağlam önemlidir: yüksek riskli bir kalibrasyon testinde Tip II hataya (bozuk modeli gözden kaçırmak) daha az tolerans gösterilmeli, bu α'yı daha büyük alarak daha kırılgan (daha az kanıt isteyen) bir test anlamına gelir.
artifact — p-value görselleştirici
Standart normal dağılım altında H₀ geçerliyken beklenen test istatistiği bu dağılımdaki bir değer olacaktır. Kaydırıcıyla test istatistiğini değiştirin — coral alan p-değeridir (bu uç veya daha uç bir değer görme olasılığı). Kritik eşikler (±1.96) amber kesik çizgilerle işaretli.
güven aralığı: p-value'nun daha zengin kardeṣi
P-değeri binary bir cevap verir: anlamlı mı, değil mi? Güven aralığı (confidence interval) ise daha zengin bilgi taşır: tahmin ne kadar kesin, etki ne yönde, büyüklük ne kadar? Bu üç soruya birlikte cevap verir.
Pratik kural: %95 güven aralığı sıfırı içermiyorsa, p-değeri 0.05'ten küçüktür — ve tam tersi. İkisi matematiksel olarak eşdeğerdir. Ama güven aralığı, "istatistiksel anlamlı ama pratik önemsiz" durumu da görünür kılar: çok dar bir CI (yüksek kesinlik) ile %0.001'lik bir etki anlamlı çıkabilir ama operasyonelde fark yaratmaz.
Bankacılık modellemesinde yaygın hipotez testleri:
tipik hata
İkinci yanılgı: p-değerini H₀'ın doğru olma olasılığı saymak. "p = 0.03, yani H₀ yalnızca %3 doğru." Hayır — p-değeri H₀ altında bu verinin görülme olasılığıdır. H₀'ın olasılığı bambaşka bir soru; cevabı için Bayesian çerçeve gerekir (Bkz. 3.1).
Üçüncüsü: güç (power) analizi yapmadan test tasarlamak. Küçük örneklemle yapılan test, gerçek bir etkiyi bile gözden kaçırır (Tip II hata yüksek). "Anlamlı çıkmadı" demek "etki yok" demek değil — "bulmak için yeterli güçte değiliz" demek olabilir.