Gradient Boosting & Regularizasyon · Veri Bilimi Yol Haritasi

Katman IX · Nonlineer Dünya · 25 / 26

Gradient Boosting & Regularizasyon

bu bölümün sorusu

Gradient boosting her iterasyonda ne öğreniyor? "Gradient" kelimesi ne işe yarıyor? Ve öğrenme hızı neden bu kadar kritik — çok yüksek olunca ne oluyor, çok düşük olunca ne?

artık minimizasyonu: her ağaç öncekinin hatasını öğrenir

Gradient Boosting'in özü: her yeni ağaç, önceki modelin artıklarını (residuals) hedef alır. Model 1 → artık 1'i hesapla → Model 2 bu artıkları tahmin eder → toplam tahmin = Model1 + LR × Model2 → artık 2 → Model 3… Bu süreç adım adım kümülatif bir model inşa eder.

"Gradient" nereden geliyor? Regresyonda MSE kaybı için, negatif gradyan = residual. Sınıflandırmada log-loss için, negatif gradyan = (gerçek label − tahmin edilen olasılık). Her iterasyonda modeli kayıp fonksiyonunun gradyanını azaltacak yönde güncelliyoruz — tıpkı gradient descent gibi ama fonksiyon uzayında.

GBM, gradient descent'i parametre uzayında değil, fonksiyon uzayında gerçekleştirir. Her yeni ağaç, kaybı azaltma yönünde bir adımdır. Öğrenme hızı bu adımın büyüklüğünü kontrol eder.

artifact — GBM iterasyon simülatörü

40 noktadan oluşan non-lineer veri. İterasyon = 0'da: model sadece ortalama — sabit çizgi. Slider'ı ilerlettikçe her iterasyon artıkları öğrenir, tahmin eğrisi veriye yaklaşır. Alt grafik: farklı öğrenme hızlarının MSE'yi nasıl düşürdüğünü karşılaştırıyor.

interactive — GBM iterasyon simülatörü

katman IX · bölüm 25

Öğrenme hızı:

İterasyon: 0

İterasyon

ağaç sayısı

Mevcut MSE

—

tahmin hatası

İyileşme

—

bu iterasyonda

Residual Std

—

artık büyüklüğü

LR=1.0'da: model hızlı yaklaşır ama bazı iterasyonlarda "aşar" — MSE eğrisi dalgalanır. LR=0.05'te: yavaş ama pürüzsüz iniş, 30 iterasyonda hâlâ potansiyel var. Bu tam da bias-variance tradeoff'un öğrenme hızına yansıması: küçük adım = daha stabil ama daha yavaş.

kritik hiperparametreler ve etkileri

Hiperparametre	Küçük Değer	Büyük Değer	Pratik İpucu
learning_rate (lr)	Yavaş öğrenme, daha kararlı, daha fazla ağaç gerekir	Hızlı ama dengesiz, aşırı uyum riski	0.05-0.15 başlangıç; early stopping ile n_trees artır
n_estimators	Underfitting (yeterli öğrenme olmadı)	Overfitting (gürültü öğrenildi)	Early stopping zorunlu: validation loss durduğunda durdur
max_depth	Yüksek bias: lineer sınıra yakın	Her ağaç memorize eder, ensemble'ı da bozar	Tabular veri için 3-6; GBM için 3-5 tipik
subsample	Yüksek variance (varyans yüksek)	Stokastiklik azalır, bagging etkisi kaybolur	0.7-0.9 genellikle iyi; variance'ı azaltır
colsample_bytree	Feature çeşitliliği azalır	Korelasyonlu ağaçlar, overfitting artar	0.6-0.9; Random Forest'ın temel fikriyle aynı

Early stopping: Validation seti üzerinde k iterasyonda iyileşme olmadıysa dur. XGBoost ve LightGBM'in her ikisi de bu özelliği built-in sunar. n_estimators'ı tahmin etmek yerine büyük tutup early stopping'e bırakmak, en güvenilir yöntemdir. Bankacılık modellerinde bu karar dokümante edilmeli: "150 ağaçta optimal validation MSE'ye ulaşıldı, 200 ağaçta overfit başladı."

tipik hata

Yaygın yanılgı: "XGBoost her zaman daha iyidir." Yanlış. Küçük veri setlerinde (n < 1000), lojistik regresyon GBM'i kolaylıkla geçer. GBM'in avantajı büyük, yüksek boyutlu, karmaşık etkileşimlerin olduğu veri setlerinde ortaya çıkar. Kredi modellemesinde özellik setini iyi kurmak, algoritma seçiminden genellikle daha etkilidir.

İkinci yanılgı: feature importance'ı nedensel etki olarak okumak. GBM feature importance, modelin hangi değişkeni ne sıklıkta split için kullandığını söyler — DTI'ın en önemli değişken olduğu, DTI'ın temerrüdü doğrudan "artırdığı" anlamına gelmez. Yüksek korelasyonlu değişkenler arasında önem puanı keyfi dağılır. SHAP değerleri daha tutarlı ama hâlâ nedensel yoruma kapalı.

Katman IX'un son bölümü: GBM'in içindeki "kara kutuyu" açmak — SHAP ve model yorumlanabilirlik araçları.

Sıradaki bölüm · Katman IX · 26

Yorumlanabilirlik: SHAP, PDP & Model Açıklaması

→