Katman I · Veri Okuryazarligi · 01 / 03
Veri Nedir, Ne Degildir?
bu bölümün sorusu
Bir model egitmeden önce su soruyu sormaniz gerekir: Bu veri nereden geliyor, neyi disarida birakiyor ve kimin davranisini yansitiyor?

verinin tanimi ve sinirlari

Veri, gerçekligin kendisi degildir. Geçmiste ölçülebilmis olaylarin kalintisidir. Ölçemedign, kayit edemedigin, sistemine yansimayan her sey verinin disindadir. Bir kredi basvurusu reddedildiginde, o kisinin gerçek ödeme davranisi asla gözlemlenmez — ve model bunu hiç ögr​enemez.

Veri üretilir, bulunmaz. Veritabaninda ne görüyorsan, o bir kopyalama degil; bir seçim sürecinin ürünüdür. Hangi degiskenleri hangi granülaritede kayit ettigin, hangi zaman dilimini baz aldigin, hangi müsteri segmentini kapsadigin — bunlarin hepsi model öncesi kararlardír. Ve bu kararlar modeli kurmadan önce sekillendirmistir.

Çogu zaman en önemli soru "modeli nasil kuralim?" degil, "veriyi üreten süreci anliyoruz mu?" sorusudur.

Gözlemlenen Gerçeklik
Onaylanan müsteriler ve ödeme davranisi
Kayit altindaki olaylar ve islemler
Belirli bir dönem penceresi
Ölçülebilmis degiskenler
Gözlenemeyen Gerçeklik
Reddedilen basvurularin gerçek davranisi
Kayip event öncesi çikislar
Ölçülmemis veya kayit disinda kalan degiskenler
Gelecekteki rejim degisiklikleri
Bir veri seti, olaylarin tamami degil; geçmiste ölçülebilmis golelerdir. Model bu gölelerden gerçegi çikarmayi dener — ama hiç görmedigi bölgeyi tahmin eder.

görünemeyenin problemi: reject inference

Bankacilikta bu sorun adini açikça tasiyor: reject inference. Bir PD modeli yalnizca onaylanan basvurular üzerinde egitilirse, reddedilen segmentin kredi riski hakkinda hiçbir veri görmemis demektir.

Peki bu neden sorun? Çünkü model, ileride reddedilenlerle benzer profilli müsterileri skorlamak için kullanilacak. O segmentin gerçek temerrüt davranisini hiç ögr​enmeyen bir modelin tahminleri ne kadar güvenilir?

Bu sadece bankaciliga özgü degil. Survivorship bias, look-ahead bias, selection bias — hepsi ayni felsefi sorunun farkli yüzleridir: model egittigimiz veri, tahmin etmek istedigimiz evreni temsil etmiyor.

reject inference neden önemli?
Egitim verisi yalnizca onaylilardan olusur. Model reddedilenler hakkinda tahmin yapacak ama onlari hiç görmemistir. Bu yapisal bir körlüktür.
ne yapilabilir?
Parcelling, fuzzy augmentation, Heckman correction. Her yöntem farkli bir varsayimla "görünmeyeni tahmin etmeye" çalisir. Ama sorun temelden kalkmaz.

artifact — reject inference lens

Asagidaki grafik, bir kredi modelinin egitim verisini gösteriyor. Gelir Skoru (x ekseni) ve Borç Yükü (y ekseni) iki temel degisken. Sol bölge reddedilen, sag bölge onaylanan müsterileri temsil ediyor.

Varsayilan görünümde model yalnizca onaylilardan ögr​eniyor. "Gerçek Tabloyu Göster" dügmesine tiklayarak modelin hiç görmedigi reddedilen segmenti ortaya çikar.

interactive — reject inference lens
katman I · bölüm 01
Onaylandi — iyi müsteri
Onaylandi — temerrüt
Reddedildi — sonuç bilinmiyor (?)
Reddedildi — iyi müsteri olabilirdi
Model 33 onaylanan müsteriden ögrendi. Reddedilen bölge hakkinda hiç deneyimi yok.
Modelin çizdigi karar siniri (yatay kesikli çizgi) yalnizca onaylananlar üzerinden ögr​enilmistir. Reddedilen bölgede bu siniirin yaninda duran müsterilerin bir kismi iyi ödeyici olabilirdi — ama model bunu hiç görmedi.

bankacilik dünyasindaki karsiligi

IRB modelleri
BDDK, IRB modellerinin "representative" örneklem üzerinden kurulmasini zorunlu kilar. Reject inference bu kosulun teknik gerekçesidir.
IFRS 9 beklenen kayip
Henüz temerrüde düsmemis ama beklenen kredi kaybi hesaplanir. Gözlemlenmemis gelecek için olasiliksal düsünmek zorunludur — bu da ayni felsefi sorun.
Davranissal skorlama
Mevcut portföy üzerinde kurulan model, reddettigimiz profiller için çalistirildiginda yine ayni kör noktayla yüzlesir.
Veri sinirlarini anlamadan model kurmak, haritanin olmadigi bir yerde navigate etmek gibidir. Haritanin olmadigi yer, modelin en çok yanilacagi yerdir.

tipik hata

Yaygin yanilgi: "Veri temiz, model hazir." Ama veri yapisi hiç sorgulanmamis. Reddedilen segment yok sayilmis, observation window yanlis kurulmus, temerrüt tanimi otomatik alinmis. Model teknik olarak çalisiyor — ama neyi ölçtügünü bilmiyor.

Bir validatörün ilk sorusu "AUC nedir?" degil, "Bu model hangi veri üzerinde kuruldu, ne disarida birakti?" olmali. Çünkü disarida birakilan sey, modelin kör noktasidir. Ve kör noktasi bilinmeyen model, yanlis güven üretir.

Siradaki adim: Veriyi sinirladigini gördük. Peki ölçüm nasil yapilir — ve ölçüm tanimi modeli nasil etkiler? 1.2'de "temerrüt nedir?" sorusu üzerine.
Siradaki bölüm · Katman I · 02
Ölçüm Düsüncesi & Operasyonel Tanim