Banking Foundations · 15
Model Geliştirme Süreci Nasıl İşler?
neden bir süreç var?
Model geliştirmek rastgele bir keşif değildir. Bir PD modeli yanlış kurulursa — yanlış veri penceresi, hatalı temerrüt tanımı, gereğinden optimize edilmiş eğitim seti — sonuç görünürde başarılı ama gerçekte güvenilmez bir model olabilir.
Süreç disiplini bunu önler. Her adım belgelenmiş, her tercih gerekçelendirilmiş, her test sonucu kayıt altında. Validasyon da bu kayıtlara bakarak çalışır — "bu tercihi neden yaptınız?" sorusunun cevabı belgede olmalı.
Aşağıdaki pipeline, bir PD, LGD veya EAD modeli geliştirirken tipik olarak izlenen sekiz adımı gösteriyor. Her adıma tıkla — içerik, sahip ekip, risk noktaları ve validasyonun o adımda nereye baktığını gör.
8 adım: problemden izlemeye
temel veri kavramları
Model geliştirmenin kalbi verinin doğru kurgulanmasıdır. İki kavram özellikle kritik: gözlem penceresi ve performans penceresi. Bunları yanlış kurmak modeli kökten bozar.
Gözlem Penceresi
Modelin girdi değişkenlerini ölçtüğü dönem. "Bu müşteri bu dönemde nasıl görünüyordu?" sorusunun cevaplandığı zaman dilimi. Mali tablo verileri, davranışsal veriler, teminat durumu bu pencerede ölçülür.
Gözlem Penceresi
→
Performans Penceresi
Performans Penceresi
Modelin tahmin etmesi gereken olayın gerçekleşip gerçekleşmediğinin izlendiği dönem. PD modelinde "gözlem noktasından itibaren 12 ay içinde temerrüde düşüldü mü?" sorusu bu pencerede yanıtlanır.
Girdi Özellikleri
→
Temerrüt Var mı?
Point-in-Time (PiT) vs Cohort
PiT gözlem: Her müşteri tek bir noktada gözlemlenir (Ocak 2020'deki durumu). Cohort: Aynı tarihte başlayan müşteriler grup olarak takip edilir. Her yaklaşımın data leakage riski farklıdır.
Data Leakage
Performans penceresindeki bilginin gözlem penceresine sızması. Örnek: temerrüt sonrası değişkenlerin (karşılık oranı, icra durumu) girdi olarak kullanılması. Model gerçekte geleceği biliyormuş gibi davranır — ama gerçek hayatta bu bilgi yoktur.
⚠ Leakage: Gelecek bilgisi girdiye girmiş
Data leakage modelin in-sample performansını yapay olarak şişirir. Out-of-time testinde çöker. Validasyonun en erken sorularından biri: "Gözlem ve performans pencereleri kesişmiyor mu? Gelecekteki bilgi girdi olarak kullanılmış mı?"
train / test / out-of-time ayrımı
Model verisi üç bölüme ayrılır. Bu ayrım modelin gerçek performansını ölçmek için şarttır.
Train Set
Model bu veriyle öğrenir. Genellikle toplam verinin %60–70'i. Zaman bazlı ayrımda en eski dönem.
Test Set
Hiperparametre seçimi ve model karşılaştırması için. Model bu veriyi görmemiş ama seçim bu veriye göre yapıldı — dolayısıyla "temiz" değil.
Out-of-Time (OoT)
Gerçek sınav. En yeni dönem verisi, modele hiç dokunmamış. Discriminability, kalibrasyon ve stabilite buradan ölçülür. Validasyonun en güvendiği test seti.
Zaman Bazlı Ayrım
Rastgele bölme değil, zaman sırasına göre bölme. Ocak 2017–Aralık 2021 = Train. 2022 = Test. 2023 = OoT. Bu sıralama gerçek hayatı taklit eder.
değişken seçimi (feature selection)
Her değişken modele girmiyor. İyi değişken: temerrütü öngörme gücü yüksek, stabil, ekonomik açıdan mantıklı, geleceğe erişilebilir. Kötü değişken: tesadüfi ilişki, veri kalitesi düşük, yorumlanamaz.
Değişken
IV
Stabilite
Durum
IV (Information Value) değişkenin ayrıştırma gücünü özetler. IV < 0.02: anlamsız. 0.02–0.1: zayıf. 0.1–0.3: orta. 0.3+: güçlü. Ama güçlü IV tek başına yeterli değil — stabilite ve ekonomik mantık da gerekli. Çok yüksek IV bazen data leakage'ın işareti.
WoE dönüşümü değişkeni modele girebilir hale getirir — sürekli değişkeni bantlara böler, her bant için log-odds hesaplar. Monotonluk kısıtı: daha kötü bantta daha yüksek risk beklenmelidir. Validasyon bu kısıtın korunup korunmadığını sorgular.
bu sayfadan götürülecekler
süreç disiplini modelin güvencesidir
Her adım belgelenmiş, her tercih gerekçelendirilmiş. Validasyon bu belgelere bakarak çalışır — süreç yoksa validation da işlevsiz kalır.
pencere kurgusu kritik
Gözlem ve performans penceresi yanlış kurulursa model kökten bozulur. Data leakage in-sample performansı şişirir, OoT'ta çöker.
OoT en güvenilir sınav
Modelin hiç görmediği, zaman bazlı en güncel veri. Train/test performansı iyi ama OoT kötüyse model overfit etmiş ya da portföy kayması var.
değişken seçimi teknik değil, yargı
IV yüksek ama anlamsız değişken, IV düşük ama stabil değişkenden daha tehlikeli olabilir. Ekonomik mantık istatistiği kısıtlar.
Sıradaki adım: İyi model ne demek? Discrimination, calibration, stability, interpretability — modelin sağlık göstergeleri nelerdir?