popülasyon, örneklem ve çıkarım sınırları
Popülasyon, modelin tahmin etmek istediği tüm birim kümesidir — tüm mevcut ve potansiyel müşteriler, tüm olası işlemler, tüm geleceğin kredi başvurucuları. Örneklem ise bu popülasyondan gözlemlenebilendir. Banka modellemeleri çoğunlukla onaylanan, var olan, takip edilen müşteriler üzerine kurulur. Popülasyon bundan çok daha geniştir.
İstatistiksel çıkarım, örneklemden popülasyon hakkında yargıya varmaktır. Bu yargılar kesin değil, olasılıksaldır. Örneklemin büyüklüğü ve temsil niteliği bu yargıların güvenilirliğini belirler. Büyük örneklem çıkarımı hassaslaştırır ama yanlı örneklem büyük olduğunda bile yanlış sonuç üretir.
artifact — örnekleme dağılımı simülatörü
Log-normal gelir dağılımına sahip 50.000 müşterilik bir popülasyon. Gerçek ortalama gelir ~5.750₺. Her butona basıldığında yeni örneklem alınıyor ve örneklem ortalaması gri çizgi olarak işaretleniyor.
Örneklem büyüklüğünü (n) değiştirin: büyük n ile noktalar gerçek ortalama etrafında sıkı kümeler. Küçük n ile büyük sapma oluşur. Bu "örnekleme değişkenliği" — çıkarımın sınırını belirleyen şey.
bankacılıkta "temsil eden örneklem" neden zorlu?
IRB modelleri için düzenleyici çerçeve, modelin eğitildiği verinin "kullanım amacına uygun portföyü temsil etmesi" gerektiğini şart koşar. Bu kağıtta basit görünür; pratikte ciddi zorluklara yol açar.
| Temsil Sorusu | Bankacılıkta Pratik Karşılığı | Risk |
|---|---|---|
| Zaman temsili | 2015-2018 verisiyle kurulan model, 2024'ü temsil ediyor mu? Farklı faiz ortamı, farklı müşteri profili. | PD kalibrasyonu bozuk; OOT zayıf |
| Ürün temsili | Tüketici kredisi modeliyle konut veya taşıt kredisi skoru. Farklı davranış, farklı risk dinamiği. | Segment bazlı ayrımcalık kaybı |
| Başvuru temsili | Yalnızca onaylananlar üzerinde kurulu model; reddedilenlerin nasıl davranacağı bilinmiyor. (Bkz. 1.1 Reject Inference) | Selection bias; yanlı PD tahmini |
| Coğrafya / segment temsili | İstanbul ağırlıklı veriyle Anadolu kuyruğuna uygulanan model. Davranış farklılıkları yakalanmamış. | Segment bazında kalibrasyon hatası |
tipik hata
İkinci yanılgı: örneklem ortalamasını popülasyon ortalaması gibi kullanmak — belirsizlik aralığı olmadan. "Portföydeki ortalama PD %4.2'dir" yerine doğru ifade: "Gözlem penceresi baz alındığında PD tahmini %4.2, ancak ±0.3 standart hata bandı var." Nokta tahmin, tahminin etrafındaki belirsizliği saklar.