Populasyon, Orneklem & Cikarim · Veri Bilimi Yol Haritasi

Katman IV · Örnekleme, Bias & Çıkarım · 10 / 12

Popülasyon, Örneklem & Çıkarım

bu bölümün sorusu

Elimizdeki veri popülasyonun tamamı değil — bir parçasıdır. O parçadan bütün hakkında ne söyleyebiliriz, ne söyleyemeyiz? Ve "temsil" neden sadece boyut meselesi değildir?

popülasyon, örneklem ve çıkarım sınırları

Popülasyon, modelin tahmin etmek istediği tüm birim kümesidir — tüm mevcut ve potansiyel müşteriler, tüm olası işlemler, tüm geleceğin kredi başvurucuları. Örneklem ise bu popülasyondan gözlemlenebilendir. Banka modellemeleri çoğunlukla onaylanan, var olan, takip edilen müşteriler üzerine kurulur. Popülasyon bundan çok daha geniştir.

İstatistiksel çıkarım, örneklemden popülasyon hakkında yargıya varmaktır. Bu yargılar kesin değil, olasılıksaldır. Örneklemin büyüklüğü ve temsil niteliği bu yargıların güvenilirliğini belirler. Büyük örneklem çıkarımı hassaslaştırır ama yanlı örneklem büyük olduğunda bile yanlış sonuç üretir.

büyük örneklem ≠ temsil eden örneklem

1936 ABD seçim anketi: 10 milyon kişi soruldu ama yalnızca araba ve telefon sahipleri. Roosevelt seçimi kazandı — büyük örneklem tamamen yanıldı. Boyut değil, temsil kalitesi önemlidir.

merkezi limit teoremi: neden büyük n işe yarar

Popülasyon dağılımı ne olursa olsun, büyük örneklemlerin ortalamaları normal dağılıma yaklaşır. Bu "örnekleme dağılımı" veya "standart hata" kavramının temelidir.

Örneklem büyüdükçe tahmin hassaslaşır — ama yanlı örneklem büyüdükçe sadece yanlış sonuca daha emin hale gelirsiniz.

artifact — örnekleme dağılımı simülatörü

Log-normal gelir dağılımına sahip 50.000 müşterilik bir popülasyon. Gerçek ortalama gelir ~5.750₺. Her butona basıldığında yeni örneklem alınıyor ve örneklem ortalaması gri çizgi olarak işaretleniyor.

Örneklem büyüklüğünü (n) değiştirin: büyük n ile noktalar gerçek ortalama etrafında sıkı kümeler. Küçük n ile büyük sapma oluşur. Bu "örnekleme değişkenliği" — çıkarımın sınırını belirleyen şey.

interactive — örnekleme dağılımı simülatörü

katman IV · bölüm 10

Örneklem büyüklüğü (n) 20

örneklem büyüklüğü

her örneklem

alınan örneklem

toplam

gözlenen std hata

—

örneklem ortalamaları

teorik std hata

—

σ / √n

Gözlenen standart hata ile teorik standart hata (σ/√n) birbirine yaklaşırken, CLT devreye girer: örneklem ortalamaları normal dağılım şeklinde kümeler. Bu, popülasyon dağılımının ne olduğundan bağımsızdır — log-normal gelir verisi için bile ortalamaların dağılımı normale yaklaşır.

bankacılıkta "temsil eden örneklem" neden zorlu?

IRB modelleri için düzenleyici çerçeve, modelin eğitildiği verinin "kullanım amacına uygun portföyü temsil etmesi" gerektiğini şart koşar. Bu kağıtta basit görünür; pratikte ciddi zorluklara yol açar.

Temsil Sorusu	Bankacılıkta Pratik Karşılığı	Risk
Zaman temsili	2015-2018 verisiyle kurulan model, 2024'ü temsil ediyor mu? Farklı faiz ortamı, farklı müşteri profili.	PD kalibrasyonu bozuk; OOT zayıf
Ürün temsili	Tüketici kredisi modeliyle konut veya taşıt kredisi skoru. Farklı davranış, farklı risk dinamiği.	Segment bazlı ayrımcalık kaybı
Başvuru temsili	Yalnızca onaylananlar üzerinde kurulu model; reddedilenlerin nasıl davranacağı bilinmiyor. (Bkz. 1.1 Reject Inference)	Selection bias; yanlı PD tahmini
Coğrafya / segment temsili	İstanbul ağırlıklı veriyle Anadolu kuyruğuna uygulanan model. Davranış farklılıkları yakalanmamış.	Segment bazında kalibrasyon hatası

Out-of-Time (OOT) validasyonu neden zorunlu? Tam olarak bu temsil sorusundan dolayı. Modeli eğittiğin veriyle test edersen, örneklemle örneklemi karşılaştırıyorsundur — iyimser bir sonuç garantilenmiştir. OOT, modelin farklı bir zaman diliminde (ve dolayısıyla farklı bir popülasyon kesitinde) nasıl davrandığını ölçer.

tipik hata

Yaygın yanılgı: "Eğitim setimizde 200.000 gözlem var, çok yeterli." Boyut temsili garanti etmez. Eğitim seti 2008-2012 arası kriz dönemini kapsıyorsa, normal dönemde PD aşırı tahmin edilir. 2015-2019 genişleme dönemini kapsıyorsa, krizde model çöker. Veri büyüklüğü değil, veri kalitesi ve dönemi önemlidir.

İkinci yanılgı: örneklem ortalamasını popülasyon ortalaması gibi kullanmak — belirsizlik aralığı olmadan. "Portföydeki ortalama PD %4.2'dir" yerine doğru ifade: "Gözlem penceresi baz alındığında PD tahmini %4.2, ancak ±0.3 standart hata bandı var." Nokta tahmin, tahminin etrafındaki belirsizliği saklar.

Sıradaki adım: Temsil sorununu anladık. Ama örneklemin en tehlikeli yanı boyutu değil, gizli sapmalarıdır. Katman IV devam ediyor — bias atlasına geçiyoruz.

Sıradaki bölüm · Katman IV · 11

Bias Atlası: Görünmez Sapmalar

→