Katman IX · Nonlineer Dünya · 25 / 26
Gradient Boosting & Regularizasyon
bu bölümün sorusu
Gradient boosting her iterasyonda ne öğreniyor? "Gradient" kelimesi ne işe yarıyor? Ve öğrenme hızı neden bu kadar kritik — çok yüksek olunca ne oluyor, çok düşük olunca ne?

artık minimizasyonu: her ağaç öncekinin hatasını öğrenir

Gradient Boosting'in özü: her yeni ağaç, önceki modelin artıklarını (residuals) hedef alır. Model 1 → artık 1'i hesapla → Model 2 bu artıkları tahmin eder → toplam tahmin = Model1 + LR × Model2 → artık 2 → Model 3… Bu süreç adım adım kümülatif bir model inşa eder.

"Gradient" nereden geliyor? Regresyonda MSE kaybı için, negatif gradyan = residual. Sınıflandırmada log-loss için, negatif gradyan = (gerçek label − tahmin edilen olasılık). Her iterasyonda modeli kayıp fonksiyonunun gradyanını azaltacak yönde güncelliyoruz — tıpkı gradient descent gibi ama fonksiyon uzayında.

GBM, gradient descent'i parametre uzayında değil, fonksiyon uzayında gerçekleştirir. Her yeni ağaç, kaybı azaltma yönünde bir adımdır. Öğrenme hızı bu adımın büyüklüğünü kontrol eder.

artifact — GBM iterasyon simülatörü

40 noktadan oluşan non-lineer veri. İterasyon = 0'da: model sadece ortalama — sabit çizgi. Slider'ı ilerlettikçe her iterasyon artıkları öğrenir, tahmin eğrisi veriye yaklaşır. Alt grafik: farklı öğrenme hızlarının MSE'yi nasıl düşürdüğünü karşılaştırıyor.

interactive — GBM iterasyon simülatörü
katman IX · bölüm 25
Öğrenme hızı:
İterasyon: 0
İterasyon
0
ağaç sayısı
Mevcut MSE
tahmin hatası
İyileşme
bu iterasyonda
Residual Std
artık büyüklüğü
LR=1.0'da: model hızlı yaklaşır ama bazı iterasyonlarda "aşar" — MSE eğrisi dalgalanır. LR=0.05'te: yavaş ama pürüzsüz iniş, 30 iterasyonda hâlâ potansiyel var. Bu tam da bias-variance tradeoff'un öğrenme hızına yansıması: küçük adım = daha stabil ama daha yavaş.

kritik hiperparametreler ve etkileri

HiperparametreKüçük DeğerBüyük DeğerPratik İpucu
learning_rate (lr) Yavaş öğrenme, daha kararlı, daha fazla ağaç gerekir Hızlı ama dengesiz, aşırı uyum riski 0.05-0.15 başlangıç; early stopping ile n_trees artır
n_estimators Underfitting (yeterli öğrenme olmadı) Overfitting (gürültü öğrenildi) Early stopping zorunlu: validation loss durduğunda durdur
max_depth Yüksek bias: lineer sınıra yakın Her ağaç memorize eder, ensemble'ı da bozar Tabular veri için 3-6; GBM için 3-5 tipik
subsample Yüksek variance (varyans yüksek) Stokastiklik azalır, bagging etkisi kaybolur 0.7-0.9 genellikle iyi; variance'ı azaltır
colsample_bytree Feature çeşitliliği azalır Korelasyonlu ağaçlar, overfitting artar 0.6-0.9; Random Forest'ın temel fikriyle aynı
Early stopping: Validation seti üzerinde k iterasyonda iyileşme olmadıysa dur. XGBoost ve LightGBM'in her ikisi de bu özelliği built-in sunar. n_estimators'ı tahmin etmek yerine büyük tutup early stopping'e bırakmak, en güvenilir yöntemdir. Bankacılık modellerinde bu karar dokümante edilmeli: "150 ağaçta optimal validation MSE'ye ulaşıldı, 200 ağaçta overfit başladı."

tipik hata

Yaygın yanılgı: "XGBoost her zaman daha iyidir." Yanlış. Küçük veri setlerinde (n < 1000), lojistik regresyon GBM'i kolaylıkla geçer. GBM'in avantajı büyük, yüksek boyutlu, karmaşık etkileşimlerin olduğu veri setlerinde ortaya çıkar. Kredi modellemesinde özellik setini iyi kurmak, algoritma seçiminden genellikle daha etkilidir.

İkinci yanılgı: feature importance'ı nedensel etki olarak okumak. GBM feature importance, modelin hangi değişkeni ne sıklıkta split için kullandığını söyler — DTI'ın en önemli değişken olduğu, DTI'ın temerrüdü doğrudan "artırdığı" anlamına gelmez. Yüksek korelasyonlu değişkenler arasında önem puanı keyfi dağılır. SHAP değerleri daha tutarlı ama hâlâ nedensel yoruma kapalı.

Katman IX'un son bölümü: GBM'in içindeki "kara kutuyu" açmak — SHAP ve model yorumlanabilirlik araçları.
Sıradaki bölüm · Katman IX · 26
Yorumlanabilirlik: SHAP, PDP & Model Açıklaması