Hipotez Testi & Belirsizlik Dili · Veri Bilimi Yol Haritasi

Katman IV · Örnekleme, Bias & Çıkarım · 12 / 12

Hipotez Testi & Belirsizlik Dili

bu bölümün sorusu

p < 0.05 ne anlama gelir? "Modelin değişkeni anlamlı" ne demektir? Ve neden istatistiksel anlamlılık, pratik önemi garanti etmez? Belirsizliği dil olarak kullanmak buradan başlar.

hipotez testi çerçevesi ve iki hata türü

Hipotez testi, bir iddiayı veriyle test etmenin formel yöntemidir. H₀ (sıfır hipotezi), durumun değişmediğini, farkın olmadığını veya etkinin sıfır olduğunu söyler. Test, bu hipotezi reddetmek için yeterli kanıt olup olmadığını ölçer.

İki yanlış karar riski her zaman vardır: gerçek bir etkiyi görmezden gelmek (Tip II) ve olmayan bir etkiyi "bulmak" (Tip I). Her test bu iki hata arasında denge kurar — birini azaltmak diğerini büyütür.

	H₀ Gerçekte Doğru	H₀ Gerçekte Yanlış
H₀ Reddedildi	Tip I Hata (α) Yanlış alarm — olmayan bir etkiyi "bulduk"	Doğru Karar (1−β) Test gücü — gerçek etkiyi yakaladık
H₀ Korundu	Doğru Karar (1−α) Haklı olarak H₀ korunduk	Tip II Hata (β) Gerçek etkiyi gözden kaçırdık

Kredi modellemesinde α = 0.05 genel eşiktir. Ama bağlam önemlidir: yüksek riskli bir kalibrasyon testinde Tip II hataya (bozuk modeli gözden kaçırmak) daha az tolerans gösterilmeli, bu α'yı daha büyük alarak daha kırılgan (daha az kanıt isteyen) bir test anlamına gelir.

artifact — p-value görselleştirici

Standart normal dağılım altında H₀ geçerliyken beklenen test istatistiği bu dağılımdaki bir değer olacaktır. Kaydırıcıyla test istatistiğini değiştirin — coral alan p-değeridir (bu uç veya daha uç bir değer görme olasılığı). Kritik eşikler (±1.96) amber kesik çizgilerle işaretli.

interactive — p-value görselleştirici

katman IV · bölüm 12

Test istatistiği (z-skoru) 1.50

test istatistiği

z = 1.50

iki kuyruklu p-değeri

0.134

karar (α = 0.05)

H₀ Korundu

Ne anlama geliyor: H₀ doğru olsaydı, |z| ≥ 1.50 büyüklüğünde bir test istatistiği görme olasılığı %13.4'tür. Bu, H₀'ı reddetmek için yeterli kanıt değildir.

p-değeri, H₀'ın doğru olma olasılığı değildir. Veriyle tutarsızlığın ölçüsüdür. "p = 0.04" demek "H₀ %96 yanlış" değil — "H₀ doğruysa bu veriyi görme ihtimali %4" demektir.

güven aralığı: p-value'nun daha zengin kardeṣi

P-değeri binary bir cevap verir: anlamlı mı, değil mi? Güven aralığı (confidence interval) ise daha zengin bilgi taşır: tahmin ne kadar kesin, etki ne yönde, büyüklük ne kadar? Bu üç soruya birlikte cevap verir.

Pratik kural: %95 güven aralığı sıfırı içermiyorsa, p-değeri 0.05'ten küçüktür — ve tam tersi. İkisi matematiksel olarak eşdeğerdir. Ama güven aralığı, "istatistiksel anlamlı ama pratik önemsiz" durumu da görünür kılar: çok dar bir CI (yüksek kesinlik) ile %0.001'lik bir etki anlamlı çıkabilir ama operasyonelde fark yaratmaz.

Yönetim sunumlarında doğru dil: "Portföyün ortalama PD'si %3.2'dir" yerine: "Ortalama PD tahmini %3.2 (%95 GA: %2.9–%3.5)." İkincisi belirsizliği gizlemez — ve dinleyicinin karar almasını sağlar.

Bankacılık modellemesinde yaygın hipotez testleri:

PD Kalibrasyon Testi

H₀: "Model iyi kalibre edilmiştir — tahmin edilen PD gerçekleşen oranla uyumlu."

Hosmer-Lemeshow chi-square testi. p < 0.05 → kalibrasyon sorunu. Uyarı: büyük n'de küçük sapmalar da "anlamlı" çıkar.

PSI Eşik Testi

H₀: "Skor dağılımı değişmedi — portföy stabil."

PSI < 0.10 → stabil. 0.10–0.20 → dikkat. > 0.20 → anlamlı değişim. Kritik değerler istatistiksel değil, operasyonel konvansiyondur.

Katsayı Anlamlılığı

H₀: "Bu değişkenin katsayısı sıfırdır — modele katkısı yok."

Lojistik regresyonda Wald testi. p < 0.05 → değişken anlamlı. Ama iş yorumu ayrı değerlendirilmeli.

Model Karşılaştırma

H₀: "Yeni model, eski modelden daha iyi değil."

AUC farkı için bootstrap CI veya DeLong testi. Daraltma: sadece istatistiksel değil, OOT ve kalibrasyon da karşılaştırılmalı.

İstatistiksel anlamlılık ≠ pratik önem: 10 milyon gözlemle %0.01'lik bir PD farkı istatistiksel olarak anlamlı çıkabilir ama banka politikasında hiçbir şeyi değiştirmez. Model kararlarını p-değerine değil, etki büyüklüğüne ve iş bağlamına göre almak gerekir.

tipik hata

En yaygın yanılgı: "p = 0.04 çıktı, hipotezi reddettik." Doğru. Ama şu eklenmeli: "p = 0.051 çıksaydı reddedemezdik." Bu iki sayı arasında anlamlı hiçbir fark yok — ama birinde "anlamlı", diğerinde "anlamsız" diyoruz. p-değerinin keskin eşikten geçmesi karar, matematik değildir.

İkinci yanılgı: p-değerini H₀'ın doğru olma olasılığı saymak. "p = 0.03, yani H₀ yalnızca %3 doğru." Hayır — p-değeri H₀ altında bu verinin görülme olasılığıdır. H₀'ın olasılığı bambaşka bir soru; cevabı için Bayesian çerçeve gerekir (Bkz. 3.1).

Üçüncüsü: güç (power) analizi yapmadan test tasarlamak. Küçük örneklemle yapılan test, gerçek bir etkiyi bile gözden kaçırır (Tip II hata yüksek). "Anlamlı çıkmadı" demek "etki yok" demek değil — "bulmak için yeterli güçte değiliz" demek olabilir.

Katman IV tamamlandı. Örneklem, bias, çıkarım ve belirsizlik dilini öğrendik. Katman V'te korelasyondan nedenselliğe geçiş — modelcinin en sık düştüğü tuzak başlıyor.

Sıradaki bölüm · Katman V · 13

Korelasyon ≠ Nedensellik

→