Katman IV · Örnekleme, Bias & Çıkarım · 11 / 12
Bias Atlası: Görünmez Sapmalar
bu bölümün sorusu
Büyük bir model hatası bazen yanlış algoritmadan değil, eğitim verisine sessizce sızan bir sapmadan gelir. Bias görünmez çünkü verinin içinde zaten gömülüdür — modele sorduğunuzda "doğru" cevap verir; ama yanlış soruya.

dört görünmez sapma türü

Bias türleri farklı mekanizmalarla sızar ama hepsinin ortak noktası şudur: model eğitim verisinde iyi çalışır, gerçek dünyada bozulur. Ve bozulma, çoğu zaman deployment'ta fark edilir — geliştirme sürecinde değil.

Bias Türü Nasıl Sızar? Bankacılıkta Örnek Tanıma İşareti
Survivorship Başarısız olanlar veriden kaybolur; sadece "yaşayanlar" görünür Yalnızca hâlâ portföyde duran krediler; kapananlar veri dışında OOT'da beklenmedik bozulma; iyi görünen eğitim verisi
Selection Örneklem yalnızca belirli bir alt kümeden seçilir Sadece onaylananlar üzerinde model; reddedilenler yok (→ bkz. 1.1) Model kuyruk veya reddettiği segmentte başarısız
Look-ahead Tahmin anında mevcut olmayan bilgi feature'a girer Obs. window ile perf. window örtüşmesi; sonraki dönem verisi feature'da Eğitim AUC çok yüksek (%95+), OOT dramatik düşüş
Label Leakage Outcome'a ait bilgi feature listesine gizlice sızar "Temerrüt flag" feature olarak kullanılmış; outcome ile doğrudan ilişki Model neredeyse mükemmel görünüyor; gerçekte sonucu ezberlemiş
Bias'ı fark etmenin en güvenilir yolu, modelin çok iyi çalıştığı anda şüphelenmektir. AUC 0.95 iyidir — 0.99 alarm zilidir.

artifact — survivorship bias lens

Beş yıl önce açılmış 180 kredi. Bugün portföyde yalnızca 120'si var — kalanlar temerrüt, erken kapama veya aktarım nedeniyle veritabanından çıktı. Sadece "hayatta kalanları" görürsek portföy çok daha sağlıklı görünür. Gerçek tabloya geç.

interactive — survivorship bias lens
katman IV · bölüm 11
görünen kredi
120
sadece hayatta kalanlar
ort. kredi skoru
ort. kullanım oranı
Yalnızca hayatta kalanlardan öğrenen model, "iyi müşteri = yüksek skor + düşük kullanım" gibi görünen ama eksik bir kural öğrenir. Orta skorda temerrüde giden müşteriler — en önemli sinyal — görünmüyor. Bu modeli orta-risk segmentinde kullanmak sessiz bir hata üretir.

look-ahead bias: geleceği geçmiste kullanmak

Look-ahead bias, model feature'larının hesaplandığı anda gerçekte mevcut olmayan bilgiyi içermesidir. En sık görülen biçimi: observation window ile performance window'un örtüşmesi, ya da feature hesaplamasında performance dönemindeki verilerin kullanılması.

Look-ahead Bias Zaman Haritası
Gözlem penceresi (features)
Oca 2020 — Haz 2020
Performans penceresi (outcome)
Tem 2020 — Haz 2021
Hatalı feature: "son_3ay_islem_ort" — Haz 2021 tarihiyle hesaplanmış leakage
Oca 2020 — Haz 2021
⚠ Sızdırılan bölge
Ne oldu: Feature "son_3ay_islem_ort", performance window içindeki 4 aylık davranışı yansıtıyor. Bu dönemde temerrüde düşen müşterilerin işlem hacmi düştüğü için feature "temerrüdü önceden tahmin ediyor" gibi görünüyor — aslında sonuçtan besleniyordu. Eğitim AUC: 0.94. OOT AUC: 0.61.

Label leakage daha sinsi bir varyanttır: outcome değişkeninin kendisiyle yüksek korelasyonlu bir türev feature listesine girer. Örnek: temerrüt modelinde feature olarak "30_gun_gecikme_adedi_12ay" kullanılmış — bu değişken performans penceresindeki gecikmeleri sayıyor. Model outcome'u tahmin değil, ezberliyor.

Tanıma işareti: Feature önem sıralamasında (feature importance) bir değişken diğerlerini çok aşıyorsa — özellikle %40+ oranında — o değişken leakage'dan besleniyor olabilir. Validatörün sorusu: "Bu feature tahmin anında gerçekten mevcut muydu, yoksa outcome bilgisi içeriyor mu?"

tipik hata

Yaygın yanılgı: "Backtesting'de iyi çalıştı, deploy edelim." Backtesting verisi genellikle yalnızca hayatta kalanları içerir. Başarısız şirket tahvili, kapanan kredi, sonlanan ürün — bunların hiçbiri eğitim setinde yok. Model tarihin en kötü momentlerini hiç görmemiş olabilir.

İkinci yanılgı: feature listesini kontrol etmeden model kurmak. Özellikle büyük veri setlerinde, onlarca feature arasına look-ahead veya label leakage taşıyan değişken gizlenir. Her feature için sorulması gereken: "Bu değer, tahmin anında ve yalnızca önceki bilgiyle hesaplanabilir miydi?" Cevap "hayır" ise feature eğitimden çıkarılmalıdır.

Sıradaki adım: Bias'ı tanıdık. Şimdi hipotez testi ve belirsizlik dili — "modelin değişkeni anlamlı mı?" sorusunun matematiksel temeli.
Sıradaki bölüm · Katman IV · 12
Hipotez Testi & Belirsizlik Dili