Katman VI · Model Dilinin Temeli · 15 / 17
Supervised Learning Zihinsel Modeli
bu bölümün sorusu
Model ne öğrenir? Tahmin neden mükemmel olamaz? Ve "iyi model" aslında ne demektir? Bu soruların cevabı y = f(x) + ε denkleminin üç bileşenini anlamaktan geçer.

y = f(x) + ε: üç bileşen, bir denklem

Supervised learning'in tüm mimarisi tek bir denklemde özetlenir. Gözlemlediğimiz y, iki şeyin toplamıdır: gerçek ilişkiyi temsil eden bir fonksiyon f(x) ve hiçbir zaman ortadan kaldıramayacağımız gürültü ε.

y = f(x) + ε
y Gözlemlenen hedef değişken (temerrüt, kayıp oranı, skor)
f(x) Gerçek ilişki — bilinmiyor (hiç doğrudan göremeyiz)
ε İndirgenemez gürültü (model ne kadar iyi olursa olsun)

Model, f̂(x) adını verdiğimiz bir f(x) tahmini öğrenir. Öğrenme sürecinin amacı: eğitim verisi (x, y) çiftlerinden f̂'yi bulmak, öyle ki f̂ ≈ f. Ama ε her zaman orada olacak — ve model onu öğrenemez. Öğrenmeye çalışırsa ezberler.

indirgenemez hata (ε)
Müşterinin hangi günde işini kaybedeceğini hiçbir model bilemez. Makroekonomik şoklar, kişisel olaylar — bunlar y'yi f(x)'ten uzaklaştırır ama x'e yansımaz. Bu hata, mükemmel model bile olsa var olmaya devam eder.
indirgenebilir hata (f̂ - f)
f̂'nin f'den ne kadar uzak olduğu. İki nedenden kaynaklanır: model yanlış sınıfta (bias) veya tahmin kararsız (variance). İkisi birden minimize edilemez — bu bias-variance tradeoff.
Modelin performans tavanı ε tarafından belirlenir — veri miktarı, algoritma ne olursa olsun. İyi model, indirgenebilir hatayı minimize eden; gerçekçi model, indirgenemez hatanın varlığını kabul eden modeldir.

artifact — sinyal & gürültü gezgini

Mavi noktalar gözlemlerimiz (y). Gri kesikli çizgi gerçek ilişki f(x) — gerçek modellemede hiç görmeyiz. Teal çizgi öğrenilen modelimiz f̂(x). Gürültü arttıkça f̂'nin f'den uzaklaştığını izleyin.

interactive — sinyal & gürültü gezgini
katman VI · bölüm 15
Gürültü σ: 0.8
Gürültü σ
0.80
ε standart sapması
Model R²
f̂ uyum kalitesi
f̂ - f Sapma
ortalama |f̂(x) − f(x)|
Gerçek modellemede f(x)'i hiç göremeyiz — yalnızca gürültülü y gözlemlerimiz var. f(x)'i gizleyin: yalnızca noktalar ve f̂ kalır. Bu, modeli değerlendirirken gerçekte içinde olduğumuz durumdur. f(x) ne kadar f̂'ye benzediğini sadece OOT performansıyla anlayabiliriz.

bankacılıkta supervised learning çerçevesi

Her kredi risk modeli bu çerçeveye oturur. x değişkenlerinin seçimi (önceki katmanlar), ε büyüklüğünün kabulü ve f̂'nin gerçekçi sınırlarının bilinmesi, modelin kurulmasından çok modelin yorumlanmasında kritiktir.

Model x (Girdi) y (Hedef) ε Kaynağı Tür
PD Modeli DTI, DPD history, utilization, segment Temerrüt (0/1, 12 ay) Makro şoklar, bireysel olaylar Sınıflandırma
LGD Modeli Teminat oranı, ürün tipi, kıdem Kayıp oranı [0,1] Tasfiye süreci belirsizliği Regresyon
EAD Modeli Mevcut bakiye, limit, ürün Temerrüt anındaki bakiye Müşteri davranışı varyansı Regresyon
Davranışsal Skор Son 3-6 ay işlem örüntüsü Risk skoru veya churn prob. Kısa vadeli davranış değişimi Sınıflandırma
ε'nun büyüklüğü ne anlama gelir? PD modellerinde gerçek bir müşterinin temerrüt edip etmeyeceği, kısmen gözlemleyemediğimiz faktörlere bağlıdır. Bu indirgenemez belirsizlik, neden PD modellerinin hiçbir zaman AUC=1 ulaşamayacağını açıklar. "Neden model %100 doğru değil?" sorusunun cevabı ε'da saklıdır.

tipik hata

Yaygın yanılgı: "Model daha fazla veri veya daha iyi algoritma ile mükemmel tahmin yapabilir." ε'nun varlığı bunu imkânsız kılar. Bir müşterinin işini kaybedeceğini, eşinden ayrılacağını veya hastalık geçireceğini x değişkenleri ne kadar zengin olursa olsun tam olarak öngöremeyiz. Model geliştirme, indirgenemez hatayı değil; indirgenebilir hatayı azaltmayı hedefler.

İkinci yanılgı: f̂'yi f ile karıştırmak. Model çıktısı gerçek değil, tahminidir. "Model %6.3 PD dedi" ifadesi "bu müşteri gerçekten %6.3 ihtimalle temerrüt eder" değil — "bu model, bu özellik seti verilmişken %6.3 tahmin üretir" demektir. f̂ ≠ f. Bu farkı kaybetmek, modele aşırı güvenin temelidir.

Sıradaki adım: Supervised learning çerçevesini koyduk. Şimdi bu çerçevenin ilk ve en temel dili: lineer regresyon. Her karmaşık model, onun varsayım ihlallerine verilen yanıttır.
Sıradaki bölüm · Katman VI · 16
Lineer Regresyon: İlk Model Dili