Feature Engineering, WoE/IV & DGP · Veri Bilimi Yol Haritasi

Katman V · İliski, Nedensellik & Feature · 14 / 14

Feature Engineering, WoE/IV & DGP

bu bölümün sorusu

Veriyi üreten süreci anlamadan feature üretmek körü körüne kürektir. "Bu değişken neden temerrüdü öngörür?" sorusuna cevap veremiyorsak, o feature gürültüdür — öğrenilmiş bir deseni değil, tesadüfi bir korelasyonu taşıyor olabilir.

data generating process: veri neden bu şekilde üretildi?

Data Generating Process (DGP), gözlemlediğimiz veriyi üreten gerçek dünya mekanizmasıdır. Kredi modellemesinde DGP şunu içerir: müşterinin finansal sağlığı, makroekonomik ortam, ürün yapısı, banka politikaları — ve bunların birlikte temerrüt veya ödeme davranışına nasıl dönüştüğü.

DGP-farkındalıklı feature, "bu değişkenin temerrüdü öngörmesinin mantıklı bir mekanizması var" diyebildiğimiz feature'dır. DGP-kör feature ise istatistiksel bir korelasyon bulmuştur ama neden çalıştığını bilmiyoruz — ve koşullar değişince aniden çalışmayı bırakır.

Feature	DGP Bağlantısı	Değer
Son 6 ayda DPD 30+ var mı?	Geçmiş ödeme güçlüğü, mevcut kırılganlığın en güçlü sinyalidir	Güçlü DGP bağlantısı
Borç/Gelir Oranı (%)	Geri ödeme kapasitesini doğrudan ölçür — gelir azalınca veya borç artınca temerrüt riski yükselir	Güçlü DGP bağlantısı
Kredi Kartı Kullanım Oranı	Ani yükseliş, likidite sıkışmasının erken işareti	Güçlü DGP bağlantısı
Kedi sahibi mi? (varsayımsal)	Korelasyon bulunsa bile mekanizma yok — sosyo-ekonomik proxy olabilir ama direkt savunulamaz	DGP mekanizması yok
Müşteri no. % 7	Saf gürültü — sistemik korelasyon bulunursa veri problemini yansıtır	Tamamen kör feature

İyi bir feature, veriyi üreten sürecin izini taşır. Kör bir feature, tesadüfi bir korelasyonun izini taşır. İkisi eğitim setinde aynı IV'ü üretebilir — OOT'da tamamen farklı davranır.

artifact — WoE / IV hesaplayıcı

Borç/Gelir Oranı (DTI) için 5 bin. Her bin 1.000 müşteri içeriyor. Kaydırıcılarla her binin temerrüt oranını değiştirin — WoE dönüşümü ve IV canlı güncelleniyor. "Monoton değil" preset'ini deneyin.

interactive — WoE / IV hesaplayıcı

katman V · bölüm 14

Ön ayar:

Information Value (IV)

—

Monoton Düzen?

—

WoE sıralaması

WoE Aralığı

—

max − min WoE

WoE dönüşümü iki şey yapar: (1) Kategorik / non-lineer değişkeni log-odds ölçeğine çeker, böylece lojistik regresyona doğrudan girer. (2) Binleme ile monotonluk uygulanabilir — düzenleyici açıdan savunulabilir ilişki kurulur. IV ise o değişkenin tek başına taşıdığı ayırt edici bilgiyi özetler.

yasal model dili: neden WoE hâlâ standart?

XGBoost, Random Forest gibi algoritmalar WoE'yu çoktan geçmişti. Ama IRB modellerinde WoE/IV kombinasyonu hâlâ standart. Nedeni teknik değil, yönetişimsel.

Birincisi: yorumlanabilirlik. "Bu müşterinin DTI oranı %65 olduğu için risk skoru 200 puan düştü" cümlesi kurulabilir. XGBoost için aynı cümle ancak SHAP ile ve yaklaşık olarak kurulabilir — yasal model için bu yeterli değil.

İkincisi: monotonluk kısıtı. Düzenleyici beklenti: daha yüksek DTI → daha yüksek risk. Model "DTI %50 ile %45'ten daha iyi" diyorsa, bunu savunmak gerekir. WoE binleme, bu monotonluğu modele zorla uygular.

Üçüncüsü: SHAP'ın yasal modelde değişken seçiminde neden hatalı olduğu. SHAP değerleri, eğitimde kullanılan tüm değişkenler ve örneklem üzerinden hesaplanır. Eğer değişkenler arasında yüksek korelasyon varsa SHAP değerleri değişkenden değişkene "sızar" — değişken seçim kriteri olarak kullanmak bu yüzden tehlikeli. IV ise her değişkeni bağımsız olarak ölçer.

IV eşik değerleri (pratik kural): IV < 0.02 → modele ekleme. 0.02–0.10 → zayıf, değerlendirmeye al. 0.10–0.30 → orta güç. 0.30–0.50 → güçlü. > 0.50 → çok güçlü ama look-ahead bias veya leakage kontrolü yap. IV > 1.0 → neredeyse kesin leakage.

tipik hata

Yaygın yanılgı: "IV yüksek, o zaman bu feature iyidir." IV yüksekliği hem güçlü bir sinyali hem de label leakage'ı yansıtır. IV > 0.5 gördüğünüzde ilk soru: "Bu değişken performans penceresindeki bilgiyi içeriyor olabilir mi?" SHAP'ın yasal model değişken seçiminde kullanılması aynı yanılgıyı üretir — sadece farklı bir formatta.

İkinci yanılgı: DGP'yi sormadan sadece istatistiksel güce bakarak feature seçmek. Binlerce değişkende IV hesaplayıp en yüksek olanları seçmek, tesadüfi korelasyonları modele çeker. Özellikle büyük veri setlerinde, anlamlı olmayan birçok feature yüksek IV üretir. Domenya bilgisi olmadan salt istatistik kör bir süreçtir.

Katman V tamamlandı. Korelasyon-nedensellik farkını ve feature engineering'in temelini anladık. Katman VI'da model dilinin kendisine giriyoruz: regresyon ailesi.

Sıradaki bölüm · Katman VI · 15

Supervised Learning Zihinsel Modeli

→