data generating process: veri neden bu şekilde üretildi?
Data Generating Process (DGP), gözlemlediğimiz veriyi üreten gerçek dünya mekanizmasıdır. Kredi modellemesinde DGP şunu içerir: müşterinin finansal sağlığı, makroekonomik ortam, ürün yapısı, banka politikaları — ve bunların birlikte temerrüt veya ödeme davranışına nasıl dönüştüğü.
DGP-farkındalıklı feature, "bu değişkenin temerrüdü öngörmesinin mantıklı bir mekanizması var" diyebildiğimiz feature'dır. DGP-kör feature ise istatistiksel bir korelasyon bulmuştur ama neden çalıştığını bilmiyoruz — ve koşullar değişince aniden çalışmayı bırakır.
| Feature | DGP Bağlantısı | Değer |
|---|---|---|
| Son 6 ayda DPD 30+ var mı? | Geçmiş ödeme güçlüğü, mevcut kırılganlığın en güçlü sinyalidir | Güçlü DGP bağlantısı |
| Borç/Gelir Oranı (%) | Geri ödeme kapasitesini doğrudan ölçür — gelir azalınca veya borç artınca temerrüt riski yükselir | Güçlü DGP bağlantısı |
| Kredi Kartı Kullanım Oranı | Ani yükseliş, likidite sıkışmasının erken işareti | Güçlü DGP bağlantısı |
| Kedi sahibi mi? (varsayımsal) | Korelasyon bulunsa bile mekanizma yok — sosyo-ekonomik proxy olabilir ama direkt savunulamaz | DGP mekanizması yok |
| Müşteri no. % 7 | Saf gürültü — sistemik korelasyon bulunursa veri problemini yansıtır | Tamamen kör feature |
artifact — WoE / IV hesaplayıcı
Borç/Gelir Oranı (DTI) için 5 bin. Her bin 1.000 müşteri içeriyor. Kaydırıcılarla her binin temerrüt oranını değiştirin — WoE dönüşümü ve IV canlı güncelleniyor. "Monoton değil" preset'ini deneyin.
yasal model dili: neden WoE hâlâ standart?
XGBoost, Random Forest gibi algoritmalar WoE'yu çoktan geçmişti. Ama IRB modellerinde WoE/IV kombinasyonu hâlâ standart. Nedeni teknik değil, yönetişimsel.
Birincisi: yorumlanabilirlik. "Bu müşterinin DTI oranı %65 olduğu için risk skoru 200 puan düştü" cümlesi kurulabilir. XGBoost için aynı cümle ancak SHAP ile ve yaklaşık olarak kurulabilir — yasal model için bu yeterli değil.
İkincisi: monotonluk kısıtı. Düzenleyici beklenti: daha yüksek DTI → daha yüksek risk. Model "DTI %50 ile %45'ten daha iyi" diyorsa, bunu savunmak gerekir. WoE binleme, bu monotonluğu modele zorla uygular.
Üçüncüsü: SHAP'ın yasal modelde değişken seçiminde neden hatalı olduğu. SHAP değerleri, eğitimde kullanılan tüm değişkenler ve örneklem üzerinden hesaplanır. Eğer değişkenler arasında yüksek korelasyon varsa SHAP değerleri değişkenden değişkene "sızar" — değişken seçim kriteri olarak kullanmak bu yüzden tehlikeli. IV ise her değişkeni bağımsız olarak ölçer.
tipik hata
İkinci yanılgı: DGP'yi sormadan sadece istatistiksel güce bakarak feature seçmek. Binlerce değişkende IV hesaplayıp en yüksek olanları seçmek, tesadüfi korelasyonları modele çeker. Özellikle büyük veri setlerinde, anlamlı olmayan birçok feature yüksek IV üretir. Domenya bilgisi olmadan salt istatistik kör bir süreçtir.