dağılım ailesi neden önemli?
Her dağılım ailesi, belirli bir veri üretme sürecinin matematiksel yansımasıdır. Normal dağılım, bağımsız küçük etkilerin toplandığı süreçlerden doğar (Merkezi Limit Teoremi). Log-normal, çarpımsal büyüme süreçlerinden — örneğin yıllık %X büyüyen gelirden. Exponential, hafızasız bekleme sürelerinden. Bu aileleri bilmek, "veriyi üreten süreci anlamak" demektir.
Pratik sonucu şudur: Yanlış dağılım varsayımı altında kurulan model sistematik hata üretir. Log-normal dağılımlı bir gelir değişkenini dönüşümsüz bir lineer modele sokmak, düşük gelirli segmentin tahmin kalitesini kalıcı olarak düşürür. Dağılım ailesi, özellik mühendisliğinin başladığı yerdir.
| Dağılım | Neden bu dağılım ortaya çıkar? | Bankacılık değişkeni | Modelleme notu |
|---|---|---|---|
| Normal | Bağımsız küçük etkilerin toplamı (CLT) | Skor değişimleri, getiri yaklaşımları | Nadir kusursuz görülür; çarpıklık ve kalın kuyruklara dikkat |
| Log-normal | Çarpımsal büyüme süreçleri (gelir artışı, fiyat hareketi) | Gelir, kredi tutarı, EAD, konut fiyatı | log(X) dönüşümü → normal. Lineer modelde log kullan |
| Exponential | Hafızasız bekleme süresi (Poisson süreçleri) | Temerrüde düşme zamanı, DPD kuyruğu | Survival analizi için doğal başlangıç; Cox ile genişletilir |
| Beta | [0,1] üzerinde esnek şekil; Bayesian prior için doğal | LGD, recovery rate, PD prior, kullanım oranı | Zero-inflated veya bimodal LGD için mixture model gerekebilir |
| Binomial | Bağımsız ikili denemelerin sayısı | n müşteride k temerrüt; varsayılan bağımsızlık dikkat ister | Portföy bağımlılığında kopula ile genişletilir |
artifact — distribution explorer
Dağılım ailesini ve parametrelerini değiştirin. PDF eğrisinin şeklinin nasıl değiştiğini, hangi bankacılık değişkenini temsil ettiğini ve hangi modelleme çıkarımını taşıdığını izleyin.
kuyruk riski: normal dağılımın tehlikeli yanı
Normal dağılım, aşırı uçları (kuyruğu) gerçekte olduğundan çok daha hafif modeller. Gerçek finansal verinin kuyruğu genellikle daha kalındır — yani çok düşük veya çok yüksek değerlere "beklenenin" çok ötesinde sıklıkla rastlanır. Bu özelliğe kalın kuyruk (fat tail / heavy tail) denir.
2008 krizinin model başarısızlıklarının büyük bölümü bu yanılgıdan kaynaklandı: VaR modelleri normal dağılım varsayımıyla kurulmuştu; olasılığı "neredeyse sıfır" hesaplanan olaylar üst üste gerçekleşti. Normal dağılımda "6 sigma olay" milyonlarca yılda bir beklenir — gerçekte çok daha sık olur.
tipik hata
İkinci hata: LGD'yi normal dağılım varsayımıyla modellemek. LGD bimodal bir yapıdadır — ya çok düşük (%0'a yakın, teminatlı ve tam tahsil) ya da çok yüksek (%60–100, teminatsız veya tasfiye). Ortasındaki değerler nispeten seyrektir. Bu yapıyı görmeden kurulan LGD modeli, en kritik segmentlerde — tam kayıp ve tam tahsil — en çok yanılır.
Bir validatörün sorusu: "Bu değişken için hangi dağılım ailesi varsayıldı, bu varsayım test edildi mi, ve yanlışsa modelin hangi bölgesini etkiliyor?"