Karar Agaclari & Ensemble Sezgisi · Veri Bilimi Yol Haritasi

Katman IX · Nonlineer Dünya · 24 / 26

Karar Ağaçları & Ensemble Sezgisi

bu bölümün sorusu

Lineer modeller sınırlarına çarptığında ne yapılır? Karar ağaçları özellik uzayını dikdörtgenlerle böler. Bir ağaç overfitting yapar — ama yüzlerce ağaç birlikte tahmin edince ne olur?

karar ağacı: özellik uzayını bölen model

Karar ağacı, her adımda "hangi özellik ve eşik değeri veriyi en iyi ikiye böler?" sorusunu sorar. Bölme kalitesini ölçmek için Gini safsızlığı kullanılır: bir düğümdeki sınıf karışıklığının ölçüsü. Gini=0 → düğüm saf (tek sınıf). Gini=0.5 → maksimum karışıklık (50-50).

Her bölme, özellik uzayında eksenlerle paralel dikdörtgenler oluşturur. Sığ ağaç: az dikdörtgen, büyük bölgeler, yüksek bias. Derin ağaç: çok küçük dikdörtgen, gürültüyü de öğrenir, yüksek variance. Pruning (budama), gereksiz dalleri keserek aşırı karmaşıklığı önler.

Tek karar ağacı, tüm veriyi görmüş bir dedektif gibidir: geçmişi mükemmel açıklar ama yeni bir suçu kaçırır. Ensemble metotları, birbirinden habersiz yüzlerce dedektifin kararını birleştirir.

artifact — karar sınırı görselleştirici

60 müşteri: teal = iyi ödeyici, coral = temerrüt. Özellikler: kredi skoru ve borç/gelir oranı. Ağaç derecesi arttıkça karar sınırları (siyah çizgiler) nasıl değişiyor? Derin ağacın eğitim doğruluğu artar ama karar bölgeleri küçük adalara dönüşür.

interactive — karar sınırı görselleştirici

katman IX · bölüm 24

Ağaç Derinliği:

Derinlik

–

Yaprak Sayısı

—

karar bölgesi

Eğitim Doğr.

—

% doğru sınıf

Kök Gini

—

başlangıç safsızlığı

Derinlik 1-2'de büyük, anlaşılır bölgeler — yorum kolay. Derinlik 4-5'te küçük adalar belirir: model birkaç noktayı yakalamak için ayrı bir bölge oluşturur. Bu noktalar gürültü olabilir. Derinlik 5'te eğitim doğruluğu %100'e yaklaşır ama test verisinde bu performans çöker — overfitting'in tam görüntüsü.

bagging vs boosting: ensemble'ın iki ana yolu

Ensemble metodları "çok model → tek tahmin" fikrini farklı şekillerde uygular. İki ana yaklaşım hem bias-variance perspektifinden hem de pratik özelliklerinden ayrışır.

Özellik	Bagging (Random Forest)	Boosting (GBM / XGBoost)
Mekanizma	Bootstrap örnekleriyle paralel ağaçlar; çoğunluk oyu	Sıralı ağaçlar; her ağaç öncekinin hatalarını düzeltir
Variance etkisi	Büyük ölçüde azalır (bağımsız ağaçların ortalaması)	Orta azalır
Bias etkisi	Tek ağaça benzer kalır	Büyük ölçüde azalır (hata odaklı iterasyon)
Overfitting riski	Daha düşük — paralel yapı aşırı uyumu sınırlar	Yüksek — düzenleştirme (lr, max_depth) kritik
Hız	Hızlı — paralel çalışır	Yavaş — sıralı bağımlılık
Bankacılık kullanımı	Özellik önemi analizi, erken uyarı, operasyonel modeller	Behavioral scoring, fraud, tahsilat önceliklendirme

IRB modellerinde ensemble neden kullanılamaz? Basel/EBA düzenlemesi, model çıktısının yorumlanabilir ve denetlenebilir olmasını gerektirir. GBM veya Random Forest'ın 500 ağacı, "neden bu müşteriye %6.3 PD atandı?" sorusuna tutarlı bir cevap veremez. Lojistik regresyon + WoE scorecard, bu standartı sağlar. Ensemble'lar ise parallel monitoring, IFRS 9 overlay veya operasyonel modellerde yasal çerçevenin dışında kullanılabilir.

tipik hata

Yaygın yanılgı: "GBM AUC daha yüksek çıktı, o zaman GBM kullanmalıyız." Performans tek kriter değildir. Yorumlanabilirlik, stres testi uyumu, model riski yönetimi ve regülatör kabulü de belirleyicidir. IRB modelinde GBM'e geçmek teknik değil, yönetişimsel bir sorundur.

İkinci yanılgı: feature importance'ı yorumlamak. Random Forest ve GBM'in feature importance çıktıları, ortalama impurity azalması veya permutation bazlıdır. Korelasyonlu özellikler arasında önemi keyfi olarak dağıtır. "DTI en önemli değişken" sonucu, DTI'ın nedensel olduğunu söylemez — ve yüksek korelasyonlu başka değişkenler varsa önemi gerçeğin altında kalabilir.

Sıradaki adım: Ağaçlar giriş bölümüydü. Şimdi gradient boosting'in içine bakıyoruz: her iterasyonda ne öğreniyor, regularizasyon nerede devreye giriyor?

Sıradaki bölüm · Katman IX · 25

Gradient Boosting & Regularizasyon

→