Veri Nedir, Ne Degildir? · Veri Bilimi Yol Haritasi

Katman I · Veri Okuryazarligi · 01 / 03

Veri Nedir, Ne Degildir?

bu bölümün sorusu

Bir model egitmeden önce su soruyu sormaniz gerekir: Bu veri nereden geliyor, neyi disarida birakiyor ve kimin davranisini yansitiyor?

verinin tanimi ve sinirlari

Veri, gerçekligin kendisi degildir. Geçmiste ölçülebilmis olaylarin kalintisidir. Ölçemedign, kayit edemedigin, sistemine yansimayan her sey verinin disindadir. Bir kredi basvurusu reddedildiginde, o kisinin gerçek ödeme davranisi asla gözlemlenmez — ve model bunu hiç ögrenemez.

Veri üretilir, bulunmaz. Veritabaninda ne görüyorsan, o bir kopyalama degil; bir seçim sürecinin ürünüdür. Hangi degiskenleri hangi granülaritede kayit ettigin, hangi zaman dilimini baz aldigin, hangi müsteri segmentini kapsadigin — bunlarin hepsi model öncesi kararlardír. Ve bu kararlar modeli kurmadan önce sekillendirmistir.

Çogu zaman en önemli soru "modeli nasil kuralim?" degil, "veriyi üreten süreci anliyoruz mu?" sorusudur.

Gözlemlenen Gerçeklik

Onaylanan müsteriler ve ödeme davranisi

Kayit altindaki olaylar ve islemler

Belirli bir dönem penceresi

Ölçülebilmis degiskenler

Gözlenemeyen Gerçeklik

Reddedilen basvurularin gerçek davranisi

Kayip event öncesi çikislar

Ölçülmemis veya kayit disinda kalan degiskenler

Gelecekteki rejim degisiklikleri

Bir veri seti, olaylarin tamami degil; geçmiste ölçülebilmis golelerdir. Model bu gölelerden gerçegi çikarmayi dener — ama hiç görmedigi bölgeyi tahmin eder.

görünemeyenin problemi: reject inference

Bankacilikta bu sorun adini açikça tasiyor: reject inference. Bir PD modeli yalnizca onaylanan basvurular üzerinde egitilirse, reddedilen segmentin kredi riski hakkinda hiçbir veri görmemis demektir.

Peki bu neden sorun? Çünkü model, ileride reddedilenlerle benzer profilli müsterileri skorlamak için kullanilacak. O segmentin gerçek temerrüt davranisini hiç ögrenmeyen bir modelin tahminleri ne kadar güvenilir?

Bu sadece bankaciliga özgü degil. Survivorship bias, look-ahead bias, selection bias — hepsi ayni felsefi sorunun farkli yüzleridir: model egittigimiz veri, tahmin etmek istedigimiz evreni temsil etmiyor.

reject inference neden önemli?

Egitim verisi yalnizca onaylilardan olusur. Model reddedilenler hakkinda tahmin yapacak ama onlari hiç görmemistir. Bu yapisal bir körlüktür.

ne yapilabilir?

Parcelling, fuzzy augmentation, Heckman correction. Her yöntem farkli bir varsayimla "görünmeyeni tahmin etmeye" çalisir. Ama sorun temelden kalkmaz.

artifact — reject inference lens

Asagidaki grafik, bir kredi modelinin egitim verisini gösteriyor. Gelir Skoru (x ekseni) ve Borç Yükü (y ekseni) iki temel degisken. Sol bölge reddedilen, sag bölge onaylanan müsterileri temsil ediyor.

Varsayilan görünümde model yalnizca onaylilardan ögreniyor. "Gerçek Tabloyu Göster" dügmesine tiklayarak modelin hiç görmedigi reddedilen segmenti ortaya çikar.

interactive — reject inference lens

katman I · bölüm 01

Onaylandi — iyi müsteri

Onaylandi — temerrüt

Reddedildi — sonuç bilinmiyor (?)

Reddedildi — iyi müsteri olabilirdi

Model 33 onaylanan müsteriden ögrendi. Reddedilen bölge hakkinda hiç deneyimi yok.

Modelin çizdigi karar siniri (yatay kesikli çizgi) yalnizca onaylananlar üzerinden ögrenilmistir. Reddedilen bölgede bu siniirin yaninda duran müsterilerin bir kismi iyi ödeyici olabilirdi — ama model bunu hiç görmedi.

bankacilik dünyasindaki karsiligi

IRB modelleri

BDDK, IRB modellerinin "representative" örneklem üzerinden kurulmasini zorunlu kilar. Reject inference bu kosulun teknik gerekçesidir.

IFRS 9 beklenen kayip

Henüz temerrüde düsmemis ama beklenen kredi kaybi hesaplanir. Gözlemlenmemis gelecek için olasiliksal düsünmek zorunludur — bu da ayni felsefi sorun.

Davranissal skorlama

Mevcut portföy üzerinde kurulan model, reddettigimiz profiller için çalistirildiginda yine ayni kör noktayla yüzlesir.

Veri sinirlarini anlamadan model kurmak, haritanin olmadigi bir yerde navigate etmek gibidir. Haritanin olmadigi yer, modelin en çok yanilacagi yerdir.

tipik hata

Yaygin yanilgi: "Veri temiz, model hazir." Ama veri yapisi hiç sorgulanmamis. Reddedilen segment yok sayilmis, observation window yanlis kurulmus, temerrüt tanimi otomatik alinmis. Model teknik olarak çalisiyor — ama neyi ölçtügünü bilmiyor.

Bir validatörün ilk sorusu "AUC nedir?" degil, "Bu model hangi veri üzerinde kuruldu, ne disarida birakti?" olmali. Çünkü disarida birakilan sey, modelin kör noktasidir. Ve kör noktasi bilinmeyen model, yanlis güven üretir.

Siradaki adim: Veriyi sinirladigini gördük. Peki ölçüm nasil yapilir — ve ölçüm tanimi modeli nasil etkiler? 1.2'de "temerrüt nedir?" sorusu üzerine.

Siradaki bölüm · Katman I · 02

Ölçüm Düsüncesi & Operasyonel Tanim

→