Lineer Regresyon: Ilk Model Dili · Veri Bilimi Yol Haritasi

Katman VI · Model Dilinin Temeli · 16 / 17

Lineer Regresyon: İlk Model Dili

bu bölümün sorusu

Neden lineer regresyon öğrenmek zorundayız? Çünkü her karmaşık model, lineer regresyonun bir varsayımını ihlal etmesine verilen yanıttır. Temeli anlamak, ileri tekniklerin mantığını açar.

ols: en küçük kareler yöntemi

Lineer regresyon, y = β₀ + β₁x + ε modelini verilere uydurur. OLS (Ordinary Least Squares), bu uydurma işlemi için kullanılan standarttır: artıkların karelerinin toplamını minimize eden β₀ ve β₁ değerlerini bulur.

Artık (residual), her gözlem için gerçek y ile modelin tahmin ettiği ŷ arasındaki farktır: eᵢ = yᵢ − ŷᵢ. OLS, Σeᵢ² değerini minimize eder. "Neden karesi?" sorusu önemlidir: negatif ve pozitif artıkların birbirini iptal etmemesi, büyük hataları orantısız cezalandırmak (outlier'ları modeli bozmaktan korumak ama onları da hesaba katmak).

Katsayı yorumu: β₁, x'de 1 birimlik artışın y'yi ortalama kaç birim değiştirdiğini söyler — diğer değişkenler sabit tutulduğunda. Bu "diğerleri sabit" şartı, çoklu regresyonda özellikle kritiktir.

Lineer regresyon, veri noktalarına en "yakın geçen" doğruyu bulmaz — karesel uzaklıkları minimize eden doğruyu bulur. İkisi çoğu zaman aynı görünür, ama matematiksel tanım kareseldir.

artifact — regresyon labı: ols playground

Teminat oranı (x) ile LGD (y) ilişkisi. β₀ (sabit) ve β₁ (eğim) kaydırıcılarını ayarlayın, Toplam Kare Hata'nın nasıl değiştiğini izleyin. Sonra "OLS Çözümü" ile minimize eden noktaya atlayın.

interactive — regresyon labı / OLS playground

katman VI · bölüm 16

β₀ (sabit) 80.0

β₁ (eğim) 0.0

Kaydırıcıları değiştirin — SSR değişimini izleyin

β₀ (sabit)

80.0

intercept

β₁ (eğim)

0.0

slope

SSR (Kare Hata)

—

minimize edilecek

R²

—

açıklanan varyans

R² = 1 − (SSR / SST). SSR: modelinizin artıklarının kareler toplamı. SST: y'nin ortalamasından sapmasının kareler toplamı (sadece sabit kullanılsaydı oluşacak hata). R² = 0.70 → x, y varyansının %70'ini açıklıyor demektir. R² yorumu doğrudur ama R² yüksekliği modelin "iyi" olduğunu garanti etmez — overfitting ve kalibrasyon sorunları göz ardı edilemez.

dört varsayım: her biri ihlal edilirse ne olur?

OLS tahmincisinin "en iyi doğrusal sapmasız tahminleyici" (BLUE) olması için dört Gauss-Markov varsayımının sağlanması gerekir. Bankacılık verisinde en az birinin ihlali neredeyse kaçınılmazdır — önemli olan ihlali fark etmek ve modeli buna göre adapte etmektir.

İhlal: Eğri ilişki

1 — lineerlik

Varsayım: y ile x arasında doğrusal ilişki var.
İhlal: Artık saçılım grafiğinde belirgin bir eğri örüntü. Bankada: Gelir ile LGD non-lineer ilişkili. Çözüm: log dönüşümü, polinom terim, non-lineer model.

İhlal: Zaman serisi

2 — bağımsızlık

Varsayım: Artıklar birbirinden bağımsız (otokorelasyon yok).
İhlal: Durbin-Watson istatistiği. Bankada: Aynı müşteriden çoklu gözlem — panel verinin doğal sonucu. Çözüm: Clustered standart hatalar, mixed model.

İhlal: Bant genişleme

3 — homoskedastisite

Varsayım: Artık varyansı x boyunca sabit (heteroskedastisite yok).
İhlal: Artık vs fitted plot'ta huni şekli. Bankada: Yüksek EAD kredilerde LGD daha değişken. Çözüm: WLS, robust standart hatalar.

Büyük n'de esnek

4 — normallik

Varsayım: Artıklar normal dağılır (güven aralığı ve hipotez testi için).
İhlal: QQ plot ile görülür. Bankada: LGD bimodal, artıklar non-normal. Büyük örneklemde CLT sayesinde tahmin hâlâ geçerli ama testler dikkat ister.

tipik hata

Yaygın yanılgı: "R² yüksek, model iyi." R², yalnızca y varyansının ne kadarının x tarafından açıklandığını söyler. Kalibrasyonu ölçmez, tahmin sapmasını ölçmez, OOT performansını göstermez. LGD modelinde R²=0.75 etkileyici görünebilir ama modelin portföy düzeyinde sistematik sapması olabilir.

İkinci yanılgı: artıkları incelememek. OLS'nin sihri, artıklar gerçekten random bir gürültü gibi davrandığında çalışır. Artık saçılım grafiği (residuals vs fitted), model kalitesinin en bilgilendirici görünümüdür — ama çoğu zaman ihmal edilir. Validasyonun sorgulaması: "Artık analizi yapıldı mı, sonuçları belgelendi mi?"

Sıradaki adım: Lineer regresyon ikili çıktılar için yeterli değil. y ∈ {0,1} olduğunda — temerrüt modeli gibi — lojistik regresyon sahneye çıkar. Sigmoid neden bu işi yapar?

Sıradaki bölüm · Katman VI · 17

Lojistik Regresyon & Maximum Likelihood

→