artık minimizasyonu: her ağaç öncekinin hatasını öğrenir
Gradient Boosting'in özü: her yeni ağaç, önceki modelin artıklarını (residuals) hedef alır. Model 1 → artık 1'i hesapla → Model 2 bu artıkları tahmin eder → toplam tahmin = Model1 + LR × Model2 → artık 2 → Model 3… Bu süreç adım adım kümülatif bir model inşa eder.
"Gradient" nereden geliyor? Regresyonda MSE kaybı için, negatif gradyan = residual. Sınıflandırmada log-loss için, negatif gradyan = (gerçek label − tahmin edilen olasılık). Her iterasyonda modeli kayıp fonksiyonunun gradyanını azaltacak yönde güncelliyoruz — tıpkı gradient descent gibi ama fonksiyon uzayında.
artifact — GBM iterasyon simülatörü
40 noktadan oluşan non-lineer veri. İterasyon = 0'da: model sadece ortalama — sabit çizgi. Slider'ı ilerlettikçe her iterasyon artıkları öğrenir, tahmin eğrisi veriye yaklaşır. Alt grafik: farklı öğrenme hızlarının MSE'yi nasıl düşürdüğünü karşılaştırıyor.
kritik hiperparametreler ve etkileri
| Hiperparametre | Küçük Değer | Büyük Değer | Pratik İpucu |
|---|---|---|---|
| learning_rate (lr) | Yavaş öğrenme, daha kararlı, daha fazla ağaç gerekir | Hızlı ama dengesiz, aşırı uyum riski | 0.05-0.15 başlangıç; early stopping ile n_trees artır |
| n_estimators | Underfitting (yeterli öğrenme olmadı) | Overfitting (gürültü öğrenildi) | Early stopping zorunlu: validation loss durduğunda durdur |
| max_depth | Yüksek bias: lineer sınıra yakın | Her ağaç memorize eder, ensemble'ı da bozar | Tabular veri için 3-6; GBM için 3-5 tipik |
| subsample | Yüksek variance (varyans yüksek) | Stokastiklik azalır, bagging etkisi kaybolur | 0.7-0.9 genellikle iyi; variance'ı azaltır |
| colsample_bytree | Feature çeşitliliği azalır | Korelasyonlu ağaçlar, overfitting artar | 0.6-0.9; Random Forest'ın temel fikriyle aynı |
tipik hata
İkinci yanılgı: feature importance'ı nedensel etki olarak okumak. GBM feature importance, modelin hangi değişkeni ne sıklıkta split için kullandığını söyler — DTI'ın en önemli değişken olduğu, DTI'ın temerrüdü doğrudan "artırdığı" anlamına gelmez. Yüksek korelasyonlu değişkenler arasında önem puanı keyfi dağılır. SHAP değerleri daha tutarlı ama hâlâ nedensel yoruma kapalı.