Banking Foundations · 16
İyi Model Ne Demek?

tek bir sayı yetmez

Yaygın hata şudur: "Gini %72 — iyi model." Ama yüksek Gini tek başına yeterli değildir. Model kötü kalibre edilmiş olabilir. Stabil olmayabilir. Yorumlanamıyor olabilir. Zaten üretime alınmış ama hiçbir kararda kullanılmıyor olabilir.

İyi model çok boyutlu bir kavramdır. Her boyut farklı bir başarısızlık modunu temsil eder. Bir boyutta güçlü ama diğerinde zayıf model, tüm boyutlarda vasat bir modelden daha riskli olabilir — çünkü zayıflığı gizlidir.

Aşağıda yedi boyutu gör. Her kartı tıkla — o boyutun ne anlama geldiğini, nasıl ölçüldüğünü, validasyonun ne sorduğunu ve red flag nedir öğren.

7 boyut

model profili — radar karşılaştırması

İki model arasında seçim yaparken hangi boyutun daha önemli olduğu kullanım amacına göre değişir. Slider'larla iki modeli şekillendir, radar üzerinde karşılaştır.

Model A
Model B
İki modeli karşılaştırıyorsunuz. Slider'larla profilleri şekillendirin.

iyi model vs kötü model — gerçek örnekler

Soyut boyutları somutlaştırmak için iki model profili. Tüm metrikler benzer görünebilir — ama detayda ne farklı?

✓ İyi Model Profili
Gini %68 — IS ve OoT'ta tutarlı, %66 / %67. Sıralama gücü stabil.
Kalibrasyon: Tahmin edilen PD / gerçekleşen DR oranı 0.95–1.05 bandında.
PSI < 0.1 son 8 çeyrekte. Portföy karışımı değişmesine rağmen stabil.
Her değişken ekonomik olarak anlamlı — hepsi gerekçelendirilmiş.
Kredi kararlarında, fiyatlamada ve IFRS 9'da aktif olarak kullanılıyor.
Metodoloji belgesi tam, replikasyon yapılabildi.
✕ Sorunlu Model Profili
Gini IS: %81, OoT: %52. Aşırı optimize edilmiş — overfit işareti.
Tahmin edilen PD sistematik olarak %30 düşük. Provizyon eksik hesaplanıyor.
PSI son 2 çeyrekte 0.22 — anlamlı portföy kayması, model geçerliliği sorgulanmalı.
İki değişken yüksek korelasyonlu, birbiriyle çelişen yön işaretleri mevcut.
Override oranı %38 — kredi analistleri modele güvenmiyor.
Metodoloji belgesinde iki bölüm eksik, replikasyon tamamlanamadı.
İkinci modelin Gini'si in-sample'da birinciden yüksek. Eğer sadece bu metriğe bakarak karar verilseydi — yanlış model seçilirdi. OoT, kalibrasyon ve use test olmadan Gini yanıltır.

kaçınılmaz dengeler

Her model belirli boyutlar arasında denge kurmak zorundadır. Bu dengeler gerçektir — her ikisini birden maksimize etmek genellikle mümkün değildir.

Discrimination vs Interpretability
Yüksek discrimination: karmaşık model, çok değişken, ensemble
Yüksek interpretability: az değişken, lojistik regresyon, WoE
Regülatör genellikle interpretability tarafını tercih eder. IRB PD modeli black-box olmamalı.
Calibration vs Stability
PIT kalibrasyonu: güncel ve hassas, ama döngüyle dalgalanır
TTC stabilitesi: stabil ama mevcut koşulları kaçırır
Basel TTC stabilitesini, IFRS 9 PIT kalibrasyonunu seçer — farklı amaçlar, farklı tercih.
Complexity vs Governance
Karmaşık model: daha iyi discrimination, ama belgeleme zor
Basit model: daha az discrimination, ama belgeleme kolay
Yönetişim maliyetini karşılayamayan karmaşık model basit modelden risklidir.
Bu dengeler model seçimini "doğru teknik çözüm" probleminden çıkarıp "bağlamına uygun çözüm" problemine dönüştürür. Validasyon bu bağlamı sorgular: "Bu denge bu modelin kullanım amacı için doğru mu?"

bu sayfadan götürülecekler

iyi model çok boyutludur
Discrimination, calibration, stability, interpretability, operational usability, governance, data lineage — hepsinde en az "yeterli" olmak gerekir. Bir boyuttaki mükemmellik diğerindeki çöküşü örtbas etmez.
OoT performansı IS'ten değerli
Modelin hiç görmediği verindeki performansı gerçek gücünü gösterir. IS yüksek OoT düşük → overfit. Her zaman OoT'a bak.
kullanılmayan model "iyi" değildir
Use test: model gerçekten kullanılıyor mu? %40 override oranı modelin güvenilmez bulunduğunu gösterir. Kararların dışında kalan model değer üretmez.
dengeler bağlama göre değişir
Discrimination vs interpretability, TTC vs PIT — hangi boyutun öncelikli olduğu modelin kullanım amacına bağlıdır. Validasyon bu bağlamla test eder.
Sıradaki adım: Validasyonda baktığımız testler — backtesting, benchmark, replikasyon, PSI, use test. Her test ne sorar, ne arar, red flag nedir?