Katman VIII · Performans, Genelleme & Validasyon · 21 / 23
Overfitting, Genelleme & Bias-Variance
bu bölümün sorusu
Model training datasında mükemmel çalışıyor ama OOT'da bozuluyor. Neden? Ve "ne kadar karmaşık model doğrudur?" sorusuna istatistiksel cevap ne?

bias-variance tradeoff: modelin iki farklı başarısızlık modu

Her model iki tür hata üretir. Bias (sapma), modelin veriyi üretenin gerçek formundan sistematik olarak uzak olmasıdır — model çok basit, yanlış varsayım yapıyor. Variance (değişkenlik), modelin training verisine fazla uyarak gürültüyü öğrenmesi ve yeni veriye genelleme yapamamasıdır.

Toplam beklenen hata = Bias² + Variance + İndirgenemez Gürültü (ε²). Modeli daha karmaşık yapınca bias düşer ama variance artar. Daha basit yapınca tersi. Bias-variance tradeoff, bu karşıt hareketin yönetimidir.

DurumBiasVarianceGörünümBankacılık Örneği
UnderfittingYüksekDüşükTrain ve test hatası yüksekTek değişkenli PD modeli karmaşık portföyde
Sweet spotOrtaOrtaTrain ≈ Test, her ikisi kabul edilebilirLojistik regresyon, doğru feature seti
OverfittingDüşükYüksekTrain hata çok düşük, test hata yüksekDecision tree derin dallar, 2018 dönemi ezberler
Modelin training performansı öğrenmesini değil, ezberleme kapasitesini ölçer. Gerçek performans, hiç görmediği veriye ne kadar taşıyabildiğidir.

artifact — polinom kompleksite labı

Gerçek ilişki 2. derece bir paraboladır (gri kesikli). Mavi noktalar eğitim verisi. Turuncu noktalar hiç görmediğimiz test verisi. Derece arttıkça eğitim hatası düşer — ama test hatası ne yapıyor?

interactive — polinom kompleksite labı
katman VIII · bölüm 21
Polinom Derecesi:
Polinom Derecesi
2
gerçek karmaşıklık
Eğitim MSE
train hatası
Test MSE
genelleme hatası
Train/Test Oranı
1'e yakın = iyi
Alt grafik: her derece için eğitim (teal) ve test (coral) MSE barları. Derece 2'ye kadar her ikisi birlikte düşer. Daha yüksek derecede eğitim hatası düşmeye devam eder ama test hatası — gürültü öğrenilince — tırmanmaya başlar. Bu overfitting'in teşhis görseli.

OOT validasyonu: bias-variance'ı bankacılıkta tespit etmek

Kredi modellerinde "test verisi" yoktur — gerçek anlam da budur. Ama OOT (Out-of-Time) validasyonu tam olarak bu rolü oynar: modelin eğitildiği dönemden farklı bir zaman diliminde performansını ölçer.

Train AUC − OOT AUC > 0.05: Variance yüksek — model eğitim döneminin gürültüsünü öğrenmiş, zamanla genelleme yapamıyor. Olası nedenler: çok fazla değişken, yeterli düzenleştirme yok, eğitim verisi çok kısa dönem.

Train AUC = OOT AUC ama her ikisi de düşük: Bias yüksek — model çok basit. Feature seti, model mimarisi veya örneklem zenginleştirilmeli.

Validatörün kontrol soruları: (1) Eğitim ve OOT veri setleri hangi dönemleri kapsıyor? (2) Ekonomik döngü her ikisinde de temsil ediliyor mu? (3) AUC farkı kabul edilebilir eşiğin altında mı (< 0.03-0.05)? (4) PSI < 0.10? Bu sorulara "evet" demek bias-variance dengesinin makul kurulduğunu söyler.

tipik hata

Yaygın yanılgı: "Training MSE düşük, model iyi." Training performansı modelin ezberleme kapasitesini ölçer, öğrenmeyi değil. Kompleks modellerde training MSE herzaman düşük çıkar. Anlam taşıyan metrik: OOT/test performansı ile training performansı arasındaki fark.

İkinci yanılgı: regularizasyon olmadan karmaşık model kurmak. Lojistik regresyon sınırında çalışan IRB modellerinde bu daha az sorun, ama gradient boosting veya neural network tabanlı uygulamalarda L1/L2 düzenleştirmesi veya dropout olmadan overfitting kaçınılmazdır. Model dokümantasyonunda regularizasyon kararı açıklanmalıdır.

Sıradaki adım: Overfitting'i anladık. Şimdi onu doğrudan ölçen araç: cross-validation ve proper train/validation/test ayrımı.
Sıradaki bölüm · Katman VIII · 22
Cross-Validation & Model Seçim Çerçevesi