karar ağacı: özellik uzayını bölen model
Karar ağacı, her adımda "hangi özellik ve eşik değeri veriyi en iyi ikiye böler?" sorusunu sorar. Bölme kalitesini ölçmek için Gini safsızlığı kullanılır: bir düğümdeki sınıf karışıklığının ölçüsü. Gini=0 → düğüm saf (tek sınıf). Gini=0.5 → maksimum karışıklık (50-50).
Her bölme, özellik uzayında eksenlerle paralel dikdörtgenler oluşturur. Sığ ağaç: az dikdörtgen, büyük bölgeler, yüksek bias. Derin ağaç: çok küçük dikdörtgen, gürültüyü de öğrenir, yüksek variance. Pruning (budama), gereksiz dalleri keserek aşırı karmaşıklığı önler.
artifact — karar sınırı görselleştirici
60 müşteri: teal = iyi ödeyici, coral = temerrüt. Özellikler: kredi skoru ve borç/gelir oranı. Ağaç derecesi arttıkça karar sınırları (siyah çizgiler) nasıl değişiyor? Derin ağacın eğitim doğruluğu artar ama karar bölgeleri küçük adalara dönüşür.
bagging vs boosting: ensemble'ın iki ana yolu
Ensemble metodları "çok model → tek tahmin" fikrini farklı şekillerde uygular. İki ana yaklaşım hem bias-variance perspektifinden hem de pratik özelliklerinden ayrışır.
| Özellik | Bagging (Random Forest) | Boosting (GBM / XGBoost) |
|---|---|---|
| Mekanizma | Bootstrap örnekleriyle paralel ağaçlar; çoğunluk oyu | Sıralı ağaçlar; her ağaç öncekinin hatalarını düzeltir |
| Variance etkisi | Büyük ölçüde azalır (bağımsız ağaçların ortalaması) | Orta azalır |
| Bias etkisi | Tek ağaça benzer kalır | Büyük ölçüde azalır (hata odaklı iterasyon) |
| Overfitting riski | Daha düşük — paralel yapı aşırı uyumu sınırlar | Yüksek — düzenleştirme (lr, max_depth) kritik |
| Hız | Hızlı — paralel çalışır | Yavaş — sıralı bağımlılık |
| Bankacılık kullanımı | Özellik önemi analizi, erken uyarı, operasyonel modeller | Behavioral scoring, fraud, tahsilat önceliklendirme |
tipik hata
İkinci yanılgı: feature importance'ı yorumlamak. Random Forest ve GBM'in feature importance çıktıları, ortalama impurity azalması veya permutation bazlıdır. Korelasyonlu özellikler arasında önemi keyfi olarak dağıtır. "DTI en önemli değişken" sonucu, DTI'ın nedensel olduğunu söylemez — ve yüksek korelasyonlu başka değişkenler varsa önemi gerçeğin altında kalabilir.