Skor, Olasilik, Karar · Veri Bilimi Yol Haritasi

Katman VII · Sınıflandırma, Skor & Eşik · 18 / 20

Skor, Olasılık, Karar: Üç Farklı Katman

bu bölümün sorusu

Model "667 puan verdi" mi, yoksa "temerrüt olasılığı %8.3" mi, yoksa "reddet" mi? Üçü farklı şeydir. Aralarındaki fark, hem modeli hem de kararı doğru yorumlamanın temelidir.

skor, olasılık ve karar: ne farkeder?

Skor (Raw)

β'x doğrusal kombinasyonu. Sınırsız aralık: −∞ to +∞. Sıralama için mükemmel ama "kaç?" sorusuna cevap vermez. FICO 700 puanı veya z = −1.2 gibi.

Olasılık (Kalibre)

P(default|x) = σ(z) ∈ [0,1]. Sigmoid uygulanmış ama kalibrasyonu ayrıca kontrol edilmeli. Raw MLE çıktısı ≠ kalibre PD. Hosmer-Lemeshow ile test edilir.

Karar (Eşik)

if P(default) > c → RED. c istatistiksel değil, bir iş kararıdır. Risk iştahı, kayıp maliyeti, yasal gereksinimler ve piyasa koşulları c'yi belirler.

Kritik ayrım: model sadece 1. katmanı öğrenir. 2. ve 3. katmanlar ayrı süreçler gerektirir — kalibrasyon ve karar politikası. Üçünü tek bir "model çıktısı" olarak görmek, hem modeli hem kararı yanlış değerlendirmeye götürür.

Model öğrenir, sıralar. Kalibrasyon fiyatlandırır. Eşik karar verir. Bu üçü karıştırıldığında, modelin "ne söylediği"nden emin olunamaz.

artifact — eşik karar konsolu

1.000 müşteri: 300 gelecekte temerrüt edecek (kırmızı dağılım), 700 etmeyecek (yeşil dağılım). Eşiği kaydırın — confusion matrix canlı değişiyor. Hiçbir eşik değeri TP ve TN'i aynı anda maksimize edemez.

interactive — eşik karar konsolu

katman VII · bölüm 18

Karar Eşiği (Skor) 5.5

Doğru Red (TP)

—

Yakalandı

Kaçan Risk (FN)

—

Onaylanan default

Yanlış Red (FP)

—

Haksız reddedilen

Doğru Onay (TN)

—

Kârlı müşteri

TPR / Duyarlılık

—

TP / (TP + FN)

FPR / Yanlış Red

—

FP / (FP + TN)

Kesinlik (Precision)

—

TP / (TP + FP)

Eşiği sola çekince (düşük eşik): daha fazla TP ama çok daha fazla FP — iyi müşterilerin çoğu reddedilir. Sağa çekince: iyi müşteriler korunur ama çok FN (onaylanan defaultlar). Bu tradeoff, ROC eğrisinin tüm noktalarını oluşturur — bir sonraki bölüm.

eşik seçimi bir iş kararıdır

Optimal eşik, P=0.5 değil — yanlış kararların maliyet asimetrisine bağlıdır. Bir default'u kaçırmanın maliyeti (FN), iyi bir müşteriyi reddetmenin maliyetinden (FP) genellikle çok daha yüksektir.

Hata Türü

Oluşur

Maliyet

Karar

FN — Kaçan Risk

Eşik yüksek

~LGD × EAD

Defaulter onaylandı

FP — Yanlış Red

Eşik düşük

Fırsat kaybı

İyi müşteri reddedildi

Beklenen maliyet = FN × C_FN + FP × C_FP formülünü minimize eden eşik, matematiksel olarak şöyledir: P(default|x) > C_FP / (C_FP + C_FN). FN maliyeti C_FP'nin 4 katıysa, optimal eşik P=0.20'ye iner — sadece %5 ihtimalle bile defaulter mevcut eşikte reddedilmeli.

Farklı ürünlerde farklı eşik: Küçük tüketici kredisi: düşük FN maliyeti → yüksek eşik tolere edilir. Büyük kurumsal kredi: yüksek FN maliyeti → düşük eşik. Banka her ürün grubu için ayrı eşik politikası belirlemelidir — ve bu politikayı validation raporu doğrulamalıdır.

tipik hata

Yaygın yanılgı: "Model %50 eşiğini kullanıyor." Neredeyse hiçbir production modeli P=0.5 eşiğini kullanmaz — ve kullanmamalıdır. Eşik, veri dağılımına, sınıf dengesizliğine ve iş maliyetine göre kalibre edilmeli. "Model AUC 0.85 veriyor" ile "model doğru kararlar alıyor" birbirinden farklı ifadelerdir — ikincisi için eşik seçimi de dahil.

İkinci yanılgı: accuracy metriğini kullanmak. 1.000 müşteride 50 default varsa, "herkesi iyi say" modeli %95 accuracy verir. Ama TP=0, FN=50 — tamamen işe yaramaz. Dengesiz sınıflarda accuracy yanıltıcıdır; TPR, FPR, Precision ve F1 çok daha bilgilendiricidir.

Sıradaki adım: Eşik değiştikçe TPR ve FPR birlikte hareket eder. Bu hareketi tüm eşik değerleri için izleyen eğri: ROC eğrisi ve altındaki alan AUC.

Sıradaki bölüm · Katman VII · 19

ROC, AUC & KS: Ayırt Edicilik Ölçümü

→