dört görünmez sapma türü
Bias türleri farklı mekanizmalarla sızar ama hepsinin ortak noktası şudur: model eğitim verisinde iyi çalışır, gerçek dünyada bozulur. Ve bozulma, çoğu zaman deployment'ta fark edilir — geliştirme sürecinde değil.
| Bias Türü | Nasıl Sızar? | Bankacılıkta Örnek | Tanıma İşareti |
|---|---|---|---|
| Survivorship | Başarısız olanlar veriden kaybolur; sadece "yaşayanlar" görünür | Yalnızca hâlâ portföyde duran krediler; kapananlar veri dışında | OOT'da beklenmedik bozulma; iyi görünen eğitim verisi |
| Selection | Örneklem yalnızca belirli bir alt kümeden seçilir | Sadece onaylananlar üzerinde model; reddedilenler yok (→ bkz. 1.1) | Model kuyruk veya reddettiği segmentte başarısız |
| Look-ahead | Tahmin anında mevcut olmayan bilgi feature'a girer | Obs. window ile perf. window örtüşmesi; sonraki dönem verisi feature'da | Eğitim AUC çok yüksek (%95+), OOT dramatik düşüş |
| Label Leakage | Outcome'a ait bilgi feature listesine gizlice sızar | "Temerrüt flag" feature olarak kullanılmış; outcome ile doğrudan ilişki | Model neredeyse mükemmel görünüyor; gerçekte sonucu ezberlemiş |
artifact — survivorship bias lens
Beş yıl önce açılmış 180 kredi. Bugün portföyde yalnızca 120'si var — kalanlar temerrüt, erken kapama veya aktarım nedeniyle veritabanından çıktı. Sadece "hayatta kalanları" görürsek portföy çok daha sağlıklı görünür. Gerçek tabloya geç.
look-ahead bias: geleceği geçmiste kullanmak
Look-ahead bias, model feature'larının hesaplandığı anda gerçekte mevcut olmayan bilgiyi içermesidir. En sık görülen biçimi: observation window ile performance window'un örtüşmesi, ya da feature hesaplamasında performance dönemindeki verilerin kullanılması.
Label leakage daha sinsi bir varyanttır: outcome değişkeninin kendisiyle yüksek korelasyonlu bir türev feature listesine girer. Örnek: temerrüt modelinde feature olarak "30_gun_gecikme_adedi_12ay" kullanılmış — bu değişken performans penceresindeki gecikmeleri sayıyor. Model outcome'u tahmin değil, ezberliyor.
tipik hata
İkinci yanılgı: feature listesini kontrol etmeden model kurmak. Özellikle büyük veri setlerinde, onlarca feature arasına look-ahead veya label leakage taşıyan değişken gizlenir. Her feature için sorulması gereken: "Bu değer, tahmin anında ve yalnızca önceki bilgiyle hesaplanabilir miydi?" Cevap "hayır" ise feature eğitimden çıkarılmalıdır.