Katman VI · Model Dilinin Temeli · 16 / 17
Lineer Regresyon: İlk Model Dili
bu bölümün sorusu
Neden lineer regresyon öğrenmek zorundayız? Çünkü her karmaşık model, lineer regresyonun bir varsayımını ihlal etmesine verilen yanıttır. Temeli anlamak, ileri tekniklerin mantığını açar.

ols: en küçük kareler yöntemi

Lineer regresyon, y = β₀ + β₁x + ε modelini verilere uydurur. OLS (Ordinary Least Squares), bu uydurma işlemi için kullanılan standarttır: artıkların karelerinin toplamını minimize eden β₀ ve β₁ değerlerini bulur.

Artık (residual), her gözlem için gerçek y ile modelin tahmin ettiği ŷ arasındaki farktır: eᵢ = yᵢ − ŷᵢ. OLS, Σeᵢ² değerini minimize eder. "Neden karesi?" sorusu önemlidir: negatif ve pozitif artıkların birbirini iptal etmemesi, büyük hataları orantısız cezalandırmak (outlier'ları modeli bozmaktan korumak ama onları da hesaba katmak).

Katsayı yorumu: β₁, x'de 1 birimlik artışın y'yi ortalama kaç birim değiştirdiğini söyler — diğer değişkenler sabit tutulduğunda. Bu "diğerleri sabit" şartı, çoklu regresyonda özellikle kritiktir.

Lineer regresyon, veri noktalarına en "yakın geçen" doğruyu bulmaz — karesel uzaklıkları minimize eden doğruyu bulur. İkisi çoğu zaman aynı görünür, ama matematiksel tanım kareseldir.

artifact — regresyon labı: ols playground

Teminat oranı (x) ile LGD (y) ilişkisi. β₀ (sabit) ve β₁ (eğim) kaydırıcılarını ayarlayın, Toplam Kare Hata'nın nasıl değiştiğini izleyin. Sonra "OLS Çözümü" ile minimize eden noktaya atlayın.

interactive — regresyon labı / OLS playground
katman VI · bölüm 16
β₀ (sabit) 80.0
β₁ (eğim) 0.0
Kaydırıcıları değiştirin — SSR değişimini izleyin
β₀ (sabit)
80.0
intercept
β₁ (eğim)
0.0
slope
SSR (Kare Hata)
minimize edilecek
açıklanan varyans
R² = 1 − (SSR / SST). SSR: modelinizin artıklarının kareler toplamı. SST: y'nin ortalamasından sapmasının kareler toplamı (sadece sabit kullanılsaydı oluşacak hata). R² = 0.70 → x, y varyansının %70'ini açıklıyor demektir. R² yorumu doğrudur ama R² yüksekliği modelin "iyi" olduğunu garanti etmez — overfitting ve kalibrasyon sorunları göz ardı edilemez.

dört varsayım: her biri ihlal edilirse ne olur?

OLS tahmincisinin "en iyi doğrusal sapmasız tahminleyici" (BLUE) olması için dört Gauss-Markov varsayımının sağlanması gerekir. Bankacılık verisinde en az birinin ihlali neredeyse kaçınılmazdır — önemli olan ihlali fark etmek ve modeli buna göre adapte etmektir.

İhlal: Eğri ilişki
1 — lineerlik
Varsayım: y ile x arasında doğrusal ilişki var.
İhlal: Artık saçılım grafiğinde belirgin bir eğri örüntü. Bankada: Gelir ile LGD non-lineer ilişkili. Çözüm: log dönüşümü, polinom terim, non-lineer model.
İhlal: Zaman serisi
2 — bağımsızlık
Varsayım: Artıklar birbirinden bağımsız (otokorelasyon yok).
İhlal: Durbin-Watson istatistiği. Bankada: Aynı müşteriden çoklu gözlem — panel verinin doğal sonucu. Çözüm: Clustered standart hatalar, mixed model.
İhlal: Bant genişleme
3 — homoskedastisite
Varsayım: Artık varyansı x boyunca sabit (heteroskedastisite yok).
İhlal: Artık vs fitted plot'ta huni şekli. Bankada: Yüksek EAD kredilerde LGD daha değişken. Çözüm: WLS, robust standart hatalar.
Büyük n'de esnek
4 — normallik
Varsayım: Artıklar normal dağılır (güven aralığı ve hipotez testi için).
İhlal: QQ plot ile görülür. Bankada: LGD bimodal, artıklar non-normal. Büyük örneklemde CLT sayesinde tahmin hâlâ geçerli ama testler dikkat ister.

tipik hata

Yaygın yanılgı: "R² yüksek, model iyi." R², yalnızca y varyansının ne kadarının x tarafından açıklandığını söyler. Kalibrasyonu ölçmez, tahmin sapmasını ölçmez, OOT performansını göstermez. LGD modelinde R²=0.75 etkileyici görünebilir ama modelin portföy düzeyinde sistematik sapması olabilir.

İkinci yanılgı: artıkları incelememek. OLS'nin sihri, artıklar gerçekten random bir gürültü gibi davrandığında çalışır. Artık saçılım grafiği (residuals vs fitted), model kalitesinin en bilgilendirici görünümüdür — ama çoğu zaman ihmal edilir. Validasyonun sorgulaması: "Artık analizi yapıldı mı, sonuçları belgelendi mi?"

Sıradaki adım: Lineer regresyon ikili çıktılar için yeterli değil. y ∈ {0,1} olduğunda — temerrüt modeli gibi — lojistik regresyon sahneye çıkar. Sigmoid neden bu işi yapar?
Sıradaki bölüm · Katman VI · 17
Lojistik Regresyon & Maximum Likelihood