Bias Atlasi: Görünmez Sapmalar · Veri Bilimi Yol Haritasi

Katman IV · Örnekleme, Bias & Çıkarım · 11 / 12

Bias Atlası: Görünmez Sapmalar

bu bölümün sorusu

Büyük bir model hatası bazen yanlış algoritmadan değil, eğitim verisine sessizce sızan bir sapmadan gelir. Bias görünmez çünkü verinin içinde zaten gömülüdür — modele sorduğunuzda "doğru" cevap verir; ama yanlış soruya.

dört görünmez sapma türü

Bias türleri farklı mekanizmalarla sızar ama hepsinin ortak noktası şudur: model eğitim verisinde iyi çalışır, gerçek dünyada bozulur. Ve bozulma, çoğu zaman deployment'ta fark edilir — geliştirme sürecinde değil.

Bias Türü	Nasıl Sızar?	Bankacılıkta Örnek	Tanıma İşareti
Survivorship	Başarısız olanlar veriden kaybolur; sadece "yaşayanlar" görünür	Yalnızca hâlâ portföyde duran krediler; kapananlar veri dışında	OOT'da beklenmedik bozulma; iyi görünen eğitim verisi
Selection	Örneklem yalnızca belirli bir alt kümeden seçilir	Sadece onaylananlar üzerinde model; reddedilenler yok (→ bkz. 1.1)	Model kuyruk veya reddettiği segmentte başarısız
Look-ahead	Tahmin anında mevcut olmayan bilgi feature'a girer	Obs. window ile perf. window örtüşmesi; sonraki dönem verisi feature'da	Eğitim AUC çok yüksek (%95+), OOT dramatik düşüş
Label Leakage	Outcome'a ait bilgi feature listesine gizlice sızar	"Temerrüt flag" feature olarak kullanılmış; outcome ile doğrudan ilişki	Model neredeyse mükemmel görünüyor; gerçekte sonucu ezberlemiş

Bias'ı fark etmenin en güvenilir yolu, modelin çok iyi çalıştığı anda şüphelenmektir. AUC 0.95 iyidir — 0.99 alarm zilidir.

artifact — survivorship bias lens

Beş yıl önce açılmış 180 kredi. Bugün portföyde yalnızca 120'si var — kalanlar temerrüt, erken kapama veya aktarım nedeniyle veritabanından çıktı. Sadece "hayatta kalanları" görürsek portföy çok daha sağlıklı görünür. Gerçek tabloya geç.

interactive — survivorship bias lens

katman IV · bölüm 11

görünen kredi

120

sadece hayatta kalanlar

ort. kredi skoru

—

ort. kullanım oranı

—

Yalnızca hayatta kalanlardan öğrenen model, "iyi müşteri = yüksek skor + düşük kullanım" gibi görünen ama eksik bir kural öğrenir. Orta skorda temerrüde giden müşteriler — en önemli sinyal — görünmüyor. Bu modeli orta-risk segmentinde kullanmak sessiz bir hata üretir.

look-ahead bias: geleceği geçmiste kullanmak

Look-ahead bias, model feature'larının hesaplandığı anda gerçekte mevcut olmayan bilgiyi içermesidir. En sık görülen biçimi: observation window ile performance window'un örtüşmesi, ya da feature hesaplamasında performance dönemindeki verilerin kullanılması.

Look-ahead Bias Zaman Haritası

Gözlem penceresi (features)

Oca 2020 — Haz 2020

Performans penceresi (outcome)

Tem 2020 — Haz 2021

Hatalı feature: "son_3ay_islem_ort" — Haz 2021 tarihiyle hesaplanmış leakage

Oca 2020 — Haz 2021

⚠ Sızdırılan bölge

Ne oldu: Feature "son_3ay_islem_ort", performance window içindeki 4 aylık davranışı yansıtıyor. Bu dönemde temerrüde düşen müşterilerin işlem hacmi düştüğü için feature "temerrüdü önceden tahmin ediyor" gibi görünüyor — aslında sonuçtan besleniyordu. Eğitim AUC: 0.94. OOT AUC: 0.61.

Label leakage daha sinsi bir varyanttır: outcome değişkeninin kendisiyle yüksek korelasyonlu bir türev feature listesine girer. Örnek: temerrüt modelinde feature olarak "30_gun_gecikme_adedi_12ay" kullanılmış — bu değişken performans penceresindeki gecikmeleri sayıyor. Model outcome'u tahmin değil, ezberliyor.

Tanıma işareti: Feature önem sıralamasında (feature importance) bir değişken diğerlerini çok aşıyorsa — özellikle %40+ oranında — o değişken leakage'dan besleniyor olabilir. Validatörün sorusu: "Bu feature tahmin anında gerçekten mevcut muydu, yoksa outcome bilgisi içeriyor mu?"

tipik hata

Yaygın yanılgı: "Backtesting'de iyi çalıştı, deploy edelim." Backtesting verisi genellikle yalnızca hayatta kalanları içerir. Başarısız şirket tahvili, kapanan kredi, sonlanan ürün — bunların hiçbiri eğitim setinde yok. Model tarihin en kötü momentlerini hiç görmemiş olabilir.

İkinci yanılgı: feature listesini kontrol etmeden model kurmak. Özellikle büyük veri setlerinde, onlarca feature arasına look-ahead veya label leakage taşıyan değişken gizlenir. Her feature için sorulması gereken: "Bu değer, tahmin anında ve yalnızca önceki bilgiyle hesaplanabilir miydi?" Cevap "hayır" ise feature eğitimden çıkarılmalıdır.

Sıradaki adım: Bias'ı tanıdık. Şimdi hipotez testi ve belirsizlik dili — "modelin değişkeni anlamlı mı?" sorusunun matematiksel temeli.

Sıradaki bölüm · Katman IV · 12

Hipotez Testi & Belirsizlik Dili

→