Model ne öğrenir? Tahmin neden mükemmel olamaz? Ve "iyi model" aslında ne demektir? Bu soruların cevabı y = f(x) + ε denkleminin üç bileşenini anlamaktan geçer.
y = f(x) + ε: üç bileşen, bir denklem
Supervised learning'in tüm mimarisi tek bir denklemde özetlenir. Gözlemlediğimiz y, iki şeyin toplamıdır: gerçek ilişkiyi temsil eden bir fonksiyon f(x) ve hiçbir zaman ortadan kaldıramayacağımız gürültü ε.
y = f(x) + ε
yGözlemlenen hedef değişken(temerrüt, kayıp oranı, skor)
f(x)Gerçek ilişki — bilinmiyor(hiç doğrudan göremeyiz)
εİndirgenemez gürültü(model ne kadar iyi olursa olsun)
Model, f̂(x) adını verdiğimiz bir f(x) tahmini öğrenir. Öğrenme sürecinin amacı: eğitim verisi (x, y) çiftlerinden f̂'yi bulmak, öyle ki f̂ ≈ f. Ama ε her zaman orada olacak — ve model onu öğrenemez. Öğrenmeye çalışırsa ezberler.
indirgenemez hata (ε)
Müşterinin hangi günde işini kaybedeceğini hiçbir model bilemez. Makroekonomik şoklar, kişisel olaylar — bunlar y'yi f(x)'ten uzaklaştırır ama x'e yansımaz. Bu hata, mükemmel model bile olsa var olmaya devam eder.
indirgenebilir hata (f̂ - f)
f̂'nin f'den ne kadar uzak olduğu. İki nedenden kaynaklanır: model yanlış sınıfta (bias) veya tahmin kararsız (variance). İkisi birden minimize edilemez — bu bias-variance tradeoff.
Modelin performans tavanı ε tarafından belirlenir — veri miktarı, algoritma ne olursa olsun. İyi model, indirgenebilir hatayı minimize eden; gerçekçi model, indirgenemez hatanın varlığını kabul eden modeldir.
artifact — sinyal & gürültü gezgini
Mavi noktalar gözlemlerimiz (y). Gri kesikli çizgi gerçek ilişki f(x) — gerçek modellemede hiç görmeyiz. Teal çizgi öğrenilen modelimiz f̂(x). Gürültü arttıkça f̂'nin f'den uzaklaştığını izleyin.
interactive — sinyal & gürültü gezgini
katman VI · bölüm 15
Gürültü σ:0.8
Gürültü σ
0.80
ε standart sapması
Model R²
—
f̂ uyum kalitesi
f̂ - f Sapma
—
ortalama |f̂(x) − f(x)|
Gerçek modellemede f(x)'i hiç göremeyiz — yalnızca gürültülü y gözlemlerimiz var. f(x)'i gizleyin: yalnızca noktalar ve f̂ kalır. Bu, modeli değerlendirirken gerçekte içinde olduğumuz durumdur. f(x) ne kadar f̂'ye benzediğini sadece OOT performansıyla anlayabiliriz.
bankacılıkta supervised learning çerçevesi
Her kredi risk modeli bu çerçeveye oturur. x değişkenlerinin seçimi (önceki katmanlar), ε büyüklüğünün kabulü ve f̂'nin gerçekçi sınırlarının bilinmesi, modelin kurulmasından çok modelin yorumlanmasında kritiktir.
Model
x (Girdi)
y (Hedef)
ε Kaynağı
Tür
PD Modeli
DTI, DPD history, utilization, segment
Temerrüt (0/1, 12 ay)
Makro şoklar, bireysel olaylar
Sınıflandırma
LGD Modeli
Teminat oranı, ürün tipi, kıdem
Kayıp oranı [0,1]
Tasfiye süreci belirsizliği
Regresyon
EAD Modeli
Mevcut bakiye, limit, ürün
Temerrüt anındaki bakiye
Müşteri davranışı varyansı
Regresyon
Davranışsal Skор
Son 3-6 ay işlem örüntüsü
Risk skoru veya churn prob.
Kısa vadeli davranış değişimi
Sınıflandırma
ε'nun büyüklüğü ne anlama gelir? PD modellerinde gerçek bir müşterinin temerrüt edip etmeyeceği, kısmen gözlemleyemediğimiz faktörlere bağlıdır. Bu indirgenemez belirsizlik, neden PD modellerinin hiçbir zaman AUC=1 ulaşamayacağını açıklar. "Neden model %100 doğru değil?" sorusunun cevabı ε'da saklıdır.
tipik hata
Yaygın yanılgı: "Model daha fazla veri veya daha iyi algoritma ile mükemmel tahmin yapabilir." ε'nun varlığı bunu imkânsız kılar. Bir müşterinin işini kaybedeceğini, eşinden ayrılacağını veya hastalık geçireceğini x değişkenleri ne kadar zengin olursa olsun tam olarak öngöremeyiz. Model geliştirme, indirgenemez hatayı değil; indirgenebilir hatayı azaltmayı hedefler.
İkinci yanılgı: f̂'yi f ile karıştırmak. Model çıktısı gerçek değil, tahminidir. "Model %6.3 PD dedi" ifadesi "bu müşteri gerçekten %6.3 ihtimalle temerrüt eder" değil — "bu model, bu özellik seti verilmişken %6.3 tahmin üretir" demektir. f̂ ≠ f. Bu farkı kaybetmek, modele aşırı güvenin temelidir.
Sıradaki adım: Supervised learning çerçevesini koyduk. Şimdi bu çerçevenin ilk ve en temel dili: lineer regresyon. Her karmaşık model, onun varsayım ihlallerine verilen yanıttır.