koşullu olasılık: P(A|B) ≠ P(B|A)
Koşullu olasılık P(A|B), "B gerçekleşti bilgisi verilmişken A'nın olasılığı" demektir. Bu, P(B|A)'dan — "A gerçekleşti bilgisi verilmişken B'nin olasılığı" — temel olarak farklıdır.
Kredi riskinde bu ayrım hayatidir. Temerrüde düşmüş müşterilerin büyük çoğunluğunun öncesinde ödeme gecikmesi yaşadığı bilinebilir — P(gecikme | temerrüt) yüksektir. Ama bu, ödeme gecikmesi yaşayan her müşterinin temerrüde gideceği anlamına gelmez — P(temerrüt | gecikme) çok daha düşük olabilir. İki sayı birbirinin tersi değildir; aralarında taban oranı yatar.
Formülü kelimelerle: "Alarmlananların gerçekten temerrütlü olma ihtimali = modelin temerrütlüyü yakalama oranı × temerrüt taban oranı / toplam alarm oranı." Taban oranı (P(temerrüt)) küçükse, paydaki P(flag) baskın gelir ve P(temerrüt | flag) düşük çıkar — model ne kadar iyi olursa olsun.
artifact — conditional probability console
10.000 müşterili bir portföyde temerrüt oranını, model hassasiyetini ve yanlış alarm oranını ayarlayın. Her 10.000 müşteriden kaçı flaglanıyor, bu flaglananların ne kadarı gerçekten temerrüt gösteriyor?
Üst çubuk: flaglanan müşterilerin içindeki gerçek / yanlış alarm dağılımı. Alt çubuk: flaglanmayanların içindeki kaçırılan / temiz dağılımı.
| Gerçek Temerrüt | Gerçek İyi | Toplam | |
|---|---|---|---|
| Model Flagladı | — | — | — |
| Model Temiz | — | — | — |
| Toplam | — | — | 10.000 |
taban oranı yanılsaması: neden nadir olayları bulmak zordur
Modelinizin hassasiyeti %99, yanlış alarm oranı %1 olsun. Harika görünüyor. Ama işlediğiniz olayların taban oranı %0.1 ise — yani 1000 müşteriden 1'i — flaglananların yalnızca ~%9'u gerçek temerrüt olacaktır. Geri kalan %91 yanlış alarmdır.
Bu bir "model hatası" değil; olasılığın matematiksel zorunluluğudur. Nadir olay ne kadar nadirse, gerçek pozitif oranını yüksek tutmak için o kadar spesifik (düşük yanlış alarm oranı) olmak gerekir. Bu gerilim; fraud tespiti, kara para aklamayla mücadele (AML), erken temerrüt uyarısı gibi her nadir olay modelinin temel problemidir.
tipik hata
İkinci yanılgı daha derin: P(A|B) ile P(B|A)'yı karıştırmak. "Temerrüde düşenlerin %90'ı önceden gecikme yaşadı" → "Bu müşteri gecikme yaşadı, yani %90 ihtimalle temerrüde düşer" demek değildir. Aralarında portföyün taban oranı var. Bu refleks oturmadan validasyon yapılamaz.