Kalibrasyon & Cut-off Optimizasyonu · Veri Bilimi Yol Haritasi

Katman VII · Sınıflandırma, Skor & Eşik · 20 / 20

Kalibrasyon & Cut-off Optimizasyonu

bu bölümün sorusu

AUC=0.85 olan bir model, tüm PD'leri iki kat aşırı tahmin edebilir. AUC sıralamayı ölçer, kalibrasyon ise sayısal doğruluğu. İkisi bağımsız boyutlardır — ve IFRS 9'da ikisi birden şarttır.

diskriminasyon ve kalibrasyon: bağımsız iki boyut

Diskriminasyon, modelin defaultları non-defaultların önüne koyup koyamadığını sorar: sıralama doğru mu? AUC ve KS bu boyutu ölçer. Kalibrasyon ise sayıların doğruluğunu sorar: model %5 dediyse gerçekten %5 mi temerrüt ediyor?

Bu iki boyut tamamen bağımsızdır. Mükemmel diskriminasyon ile berbat kalibrasyon bir arada olabilir — ve bankacılıkta sıklıkla görülür. Modeli 2018 verisiyle kurup 2024'te kullandığınızda, sıralama hâlâ doğru olabilir ama mutlak PD değerleri makroekonomik değişimi yansıtmıyordur.

Mükemmel diskriminasyona sahip ama kötü kalibrasyonlu bir model, müşterileri doğru sıralar ama fiyatlamayı yanlış yapar. Mükemmel kalibrasyona sahip ama zayıf diskriminasyonlu model ise tam tersi. İRB ve IFRS 9 her ikisini de ayrı ayrı test eder.

Hosmer-Lemeshow (HL) testi, kalibrasyonun standart ölçümüdür: örneklem 10 desile bölünür, her desilde tahmin edilen PD ile gerçekleşen temerrüt oranı karşılaştırılır. H₀: "Model iyi kalibredir." p < 0.05 → kalibrasyon sorunu.

artifact — kalibrasyon grafiği (reliability diagram)

Her nokta bir desil: x ekseninde tahmin edilen PD, y ekseninde gerçekleşen temerrüt oranı. Diagonal çizgi mükemmel kalibrasyonu temsil eder. Farklı senaryoları seçerek kalibrasyon bozulmasının nasıl göründüğünü izleyin.

interactive — kalibrasyon grafiği (reliability diagram)

katman VII · bölüm 20

Senaryo:

HL χ² (df=8)

—

Kritik: 15.5 (α=0.05)

Kalibrasyon

—

Maks. Sapma

—

|tahmin − gerçek|

Ort. Sapma

—

desil ortalaması

HL testi dikkatli yorumlanmalıdır. Büyük örneklemde (%5'lik küçük bir kalibrasyon hatası bile anlamlı çıkar. Küçük örneklemde gerçek bir bozulma gözden kaçabilir. HL istatistiğini mutlak değer olarak (x puanlık sapma) okumak, p-değerinden daha bilgilendiricidir. Regülatörler her ikisini de ister.

IFRS 9 ve kalibrasyon: PIT vs TTC ayrımı

IFRS 9 Beklenen Kredi Kayıpları (ECL) hesabı, nokta-zamanlı (PIT) PD tahminleri gerektirir. Basel IRB ise genellikle döngü ortalamalı (TTC) PD kullanır. Her ikisi de kalibrasyon gerektirse de referans noktaları farklıdır — ve bu fark IFRS 9 stage sınıflandırmasını doğrudan etkiler.

Stage	Koşul	ECL Hesabı	Kalibrasyon Riski
Stage 1	Önemli kredi riski artışı yok	12 aylık ECL = PD₁₂ × LGD × EAD	PIT PD eksik tahmin → Stage 1 ECL düşük
Stage 2	Önemli kredi riski artışı var	Ömür boyu ECL (PD lifetime × LGD × EAD)	Yanlış staging → kayıp ve sermaye hataları
Stage 3	Temerrüt gerçekleşmiş	Bireysel değerleme / LGD odaklı	Bu noktada kalibrasyon ikincil

PIT kalibrasyonu, mevcut makroekonomik koşulları yansıtmalıdır. TTC-kalibre edilmiş bir model 2024 gibi yüksek faizli ortamda uygulanırsa, Stage 1'deki PD'ler gerçekçi olmayan düzeyde düşük kalabilir. Bu hem ECL yetersizliğine hem de Stage 2 geçişlerinin gecikmesine neden olur.

Validatörün IFRS 9 kalibrasyon soruları: (1) Model PIT mi TTC mi kalibre edilmiş? (2) Makro düzeltme yapılıyor mu (overlay)? (3) Stage 1→2 geçiş eşiğini tetikleyen PD hangi kalibre değere dayanıyor? (4) PD'ler düzenli aralıklarla yeniden kalibre ediliyor mu — kalibrasyonun ne sıklıkla gözden geçirildiği dokümante edilmiş mi?

tipik hata

Yaygın yanılgı: "AUC iyi çıktı, kalibrasyon da iyidir." İkisi tamamen bağımsız. Model performans raporunda AUC sunmak kalibrasyonu göstermez. Basit bir kontrol: portföy ortalama PD'si nedir? Gerçekleşen ortalama temerrüt oranı nedir? Fark anlamlıysa kalibrasyon sorunu var — Hosmer-Lemeshow gereksiz.

İkinci yanılgı: HL testinde p < 0.05 çıkınca "model geçersiz" demek. HL testi büyük örneklemde aşırı hassastır. Örneklem büyüdükçe küçük ama operasyonel olarak önemsiz sapmalar anlamlı çıkar. Doğru soru: "Kalibrasyon hatası büyüklüğü iş kararlarını etkiliyor mu?" — bu istatistiksel anlamlılıktan ayrı bir değerlendirme gerektirir.

Katman VII tamamlandı. Skor, olasılık, eşik, ROC/AUC/KS ve kalibrasyon — modelin performans dilinin tamamı öğrenildi. Katman VIII'de bu performansın nasıl ölçüleceği ve overfitting ile genelleme sorunları başlıyor.

Sıradaki bölüm · Katman VIII · 21

Overfitting, Genelleme & Bias-Variance

→