diskriminasyon ve kalibrasyon: bağımsız iki boyut
Diskriminasyon, modelin defaultları non-defaultların önüne koyup koyamadığını sorar: sıralama doğru mu? AUC ve KS bu boyutu ölçer. Kalibrasyon ise sayıların doğruluğunu sorar: model %5 dediyse gerçekten %5 mi temerrüt ediyor?
Bu iki boyut tamamen bağımsızdır. Mükemmel diskriminasyon ile berbat kalibrasyon bir arada olabilir — ve bankacılıkta sıklıkla görülür. Modeli 2018 verisiyle kurup 2024'te kullandığınızda, sıralama hâlâ doğru olabilir ama mutlak PD değerleri makroekonomik değişimi yansıtmıyordur.
Hosmer-Lemeshow (HL) testi, kalibrasyonun standart ölçümüdür: örneklem 10 desile bölünür, her desilde tahmin edilen PD ile gerçekleşen temerrüt oranı karşılaştırılır. H₀: "Model iyi kalibredir." p < 0.05 → kalibrasyon sorunu.
artifact — kalibrasyon grafiği (reliability diagram)
Her nokta bir desil: x ekseninde tahmin edilen PD, y ekseninde gerçekleşen temerrüt oranı. Diagonal çizgi mükemmel kalibrasyonu temsil eder. Farklı senaryoları seçerek kalibrasyon bozulmasının nasıl göründüğünü izleyin.
IFRS 9 ve kalibrasyon: PIT vs TTC ayrımı
IFRS 9 Beklenen Kredi Kayıpları (ECL) hesabı, nokta-zamanlı (PIT) PD tahminleri gerektirir. Basel IRB ise genellikle döngü ortalamalı (TTC) PD kullanır. Her ikisi de kalibrasyon gerektirse de referans noktaları farklıdır — ve bu fark IFRS 9 stage sınıflandırmasını doğrudan etkiler.
| Stage | Koşul | ECL Hesabı | Kalibrasyon Riski |
|---|---|---|---|
| Stage 1 | Önemli kredi riski artışı yok | 12 aylık ECL = PD₁₂ × LGD × EAD | PIT PD eksik tahmin → Stage 1 ECL düşük |
| Stage 2 | Önemli kredi riski artışı var | Ömür boyu ECL (PD lifetime × LGD × EAD) | Yanlış staging → kayıp ve sermaye hataları |
| Stage 3 | Temerrüt gerçekleşmiş | Bireysel değerleme / LGD odaklı | Bu noktada kalibrasyon ikincil |
PIT kalibrasyonu, mevcut makroekonomik koşulları yansıtmalıdır. TTC-kalibre edilmiş bir model 2024 gibi yüksek faizli ortamda uygulanırsa, Stage 1'deki PD'ler gerçekçi olmayan düzeyde düşük kalabilir. Bu hem ECL yetersizliğine hem de Stage 2 geçişlerinin gecikmesine neden olur.
tipik hata
İkinci yanılgı: HL testinde p < 0.05 çıkınca "model geçersiz" demek. HL testi büyük örneklemde aşırı hassastır. Örneklem büyüdükçe küçük ama operasyonel olarak önemsiz sapmalar anlamlı çıkar. Doğru soru: "Kalibrasyon hatası büyüklüğü iş kararlarını etkiliyor mu?" — bu istatistiksel anlamlılıktan ayrı bir değerlendirme gerektirir.