Overfitting, Genelleme & Bias-Variance · Veri Bilimi Yol Haritasi

Katman VIII · Performans, Genelleme & Validasyon · 21 / 23

Overfitting, Genelleme & Bias-Variance

bu bölümün sorusu

Model training datasında mükemmel çalışıyor ama OOT'da bozuluyor. Neden? Ve "ne kadar karmaşık model doğrudur?" sorusuna istatistiksel cevap ne?

bias-variance tradeoff: modelin iki farklı başarısızlık modu

Her model iki tür hata üretir. Bias (sapma), modelin veriyi üretenin gerçek formundan sistematik olarak uzak olmasıdır — model çok basit, yanlış varsayım yapıyor. Variance (değişkenlik), modelin training verisine fazla uyarak gürültüyü öğrenmesi ve yeni veriye genelleme yapamamasıdır.

Toplam beklenen hata = Bias² + Variance + İndirgenemez Gürültü (ε²). Modeli daha karmaşık yapınca bias düşer ama variance artar. Daha basit yapınca tersi. Bias-variance tradeoff, bu karşıt hareketin yönetimidir.

Durum	Bias	Variance	Görünüm	Bankacılık Örneği
Underfitting	Yüksek	Düşük	Train ve test hatası yüksek	Tek değişkenli PD modeli karmaşık portföyde
Sweet spot	Orta	Orta	Train ≈ Test, her ikisi kabul edilebilir	Lojistik regresyon, doğru feature seti
Overfitting	Düşük	Yüksek	Train hata çok düşük, test hata yüksek	Decision tree derin dallar, 2018 dönemi ezberler

Modelin training performansı öğrenmesini değil, ezberleme kapasitesini ölçer. Gerçek performans, hiç görmediği veriye ne kadar taşıyabildiğidir.

artifact — polinom kompleksite labı

Gerçek ilişki 2. derece bir paraboladır (gri kesikli). Mavi noktalar eğitim verisi. Turuncu noktalar hiç görmediğimiz test verisi. Derece arttıkça eğitim hatası düşer — ama test hatası ne yapıyor?

interactive — polinom kompleksite labı

katman VIII · bölüm 21

Polinom Derecesi:

Polinom Derecesi

gerçek karmaşıklık

Eğitim MSE

—

train hatası

Test MSE

—

genelleme hatası

Train/Test Oranı

—

1'e yakın = iyi

Alt grafik: her derece için eğitim (teal) ve test (coral) MSE barları. Derece 2'ye kadar her ikisi birlikte düşer. Daha yüksek derecede eğitim hatası düşmeye devam eder ama test hatası — gürültü öğrenilince — tırmanmaya başlar. Bu overfitting'in teşhis görseli.

OOT validasyonu: bias-variance'ı bankacılıkta tespit etmek

Kredi modellerinde "test verisi" yoktur — gerçek anlam da budur. Ama OOT (Out-of-Time) validasyonu tam olarak bu rolü oynar: modelin eğitildiği dönemden farklı bir zaman diliminde performansını ölçer.

Train AUC − OOT AUC > 0.05: Variance yüksek — model eğitim döneminin gürültüsünü öğrenmiş, zamanla genelleme yapamıyor. Olası nedenler: çok fazla değişken, yeterli düzenleştirme yok, eğitim verisi çok kısa dönem.

Train AUC = OOT AUC ama her ikisi de düşük: Bias yüksek — model çok basit. Feature seti, model mimarisi veya örneklem zenginleştirilmeli.

Validatörün kontrol soruları: (1) Eğitim ve OOT veri setleri hangi dönemleri kapsıyor? (2) Ekonomik döngü her ikisinde de temsil ediliyor mu? (3) AUC farkı kabul edilebilir eşiğin altında mı (< 0.03-0.05)? (4) PSI < 0.10? Bu sorulara "evet" demek bias-variance dengesinin makul kurulduğunu söyler.

tipik hata

Yaygın yanılgı: "Training MSE düşük, model iyi." Training performansı modelin ezberleme kapasitesini ölçer, öğrenmeyi değil. Kompleks modellerde training MSE herzaman düşük çıkar. Anlam taşıyan metrik: OOT/test performansı ile training performansı arasındaki fark.

İkinci yanılgı: regularizasyon olmadan karmaşık model kurmak. Lojistik regresyon sınırında çalışan IRB modellerinde bu daha az sorun, ama gradient boosting veya neural network tabanlı uygulamalarda L1/L2 düzenleştirmesi veya dropout olmadan overfitting kaçınılmazdır. Model dokümantasyonunda regularizasyon kararı açıklanmalıdır.

Sıradaki adım: Overfitting'i anladık. Şimdi onu doğrudan ölçen araç: cross-validation ve proper train/validation/test ayrımı.

Sıradaki bölüm · Katman VIII · 22

Cross-Validation & Model Seçim Çerçevesi

→