Lojistik Regresyon & Maximum Likelihood · Veri Bilimi Yol Haritasi

Katman VI · Model Dilinin Temeli · 17 / 17

Lojistik Regresyon & Maximum Likelihood

bu bölümün sorusu

y ∈ {0,1} olduğunda lineer regresyon dışına çıkılmaz, yeniden çerçevelenir. Sigmoid olasılığı [0,1]'e hapsetmez — onu doğrusal uzaydan olasılık uzayına taşır. Bu taşıma neden PD modelinin matematiksel omurgasıdır?

sigmoid: lineer girdiden olasılık çıktısı

Lineer regresyon, β₀ + β₁x tahminini üretir — bu değer teorik olarak −∞'dan +∞'a uzanır. Ama olasılık [0,1] aralığında olmalıdır. Sigmoid fonksiyonu bu köprüyü kurar: her gerçel sayıyı 0 ile 1 arasına iter, simetrik bir S-eğrisi üzerinde.

Sigmoid (Lojistik) Fonksiyon

σ(z) = 1 / (1 + e⁻𝑧) z = β₀ + β₁x

z = 0 → P = 0.5 | z → +∞ → P → 1 | z → −∞ → P → 0

Logit dönüşümü, sigmoid'in tersini alır: log(p / (1−p)) = β₀ + β₁x. Solda "log-odds" — log olasılık oranı. Bu dönüşüm sayesinde, olasılıklar log-odds uzayında lineer hareket eder ve model bir lineer denklem olarak kalır.

β₁ yorumu: x'te 1 birimlik artış, log-odds'u β₁ kadar değiştirir. Odds oranı e^β₁ olur. Örneğin β₁ = 0.5 ise: her 1 birimlik DTI artışında temerrüt odds'u ~%65 artar (e^0.5 ≈ 1.65).

Sigmoid, sonsuz büyük bir sayıyı 0 ile 1 arasına hapseden bir sihirdir. Logit ise bu hapsin tersini yapar — [0,1]'den sonsuz bir ekrana açar. İkisi birbirinin aynaları — ve PD modelinin iki yüzüdür.

artifact — lojistik eğri: sigmoid etkileşimi

Risk skoru yükseldikçe temerrüt olasılığı artıyor. β₀ eğriyi yatay kaydırır (karar sınırı). β₁ eğrinin dikliğini belirler — büyük β₁ = net ayrım. "MLE Çözümü" ile veriye en uygun sigmoid'i bulun.

interactive — lojistik eğri / sigmoid slider

katman VI · bölüm 17

Temerrüt (y=1)

İyi ödeyici (y=0)

P(temerrüt|x) — model

P=0.5 referans

β₀ (sabit) 0.0

β₁ (eğim) 0.0

β₀ ve β₁ sıfır → P = 0.5 her yerde (bilgisiz model)

β₀

0.0

intercept

β₁

0.0

slope (log-odds)

Log-Lik

—

maximize edilecek

Karar Sınırı

—

P=0.5 noktası

β₁ büyüdükçe sigmoid daha dikleşir — model daha "kararlı" ayrım yapar. β₁ = 0 ise sigmoid yatık bir çizgiye dönüşür: model hiçbir ayrım yapmıyordur. Yasal PD modellerinde monotonluk kısıtı, β₁ işaretinin kontrol edilmesini de içerir: daha yüksek risk skoru → daha yüksek P(default).

maximum likelihood: olasılıksal öğrenmenin dili

OLS, kare hataları minimize eder. MLE ise farklı bir soru sorar: "Hangi β değerleri, gözlemlediğimiz veriyi en yüksek olasılıkla üretirdi?" İkili çıktı için bu daha doğal bir çerçevedir.

Log-Likelihood (Maksimize Edilecek)

ℓ(β) = ∑ [yᵢ log(σ(z)) + (1−yᵢ) log(1−σ(z))]

Her doğru tahmin log-lik'i artırır. Yanlış tahmin düşürür. β, bu toplamı maksimize eder.

Logistic regression'ın closed-form çözümü yoktur — OLS'nin aksine. Gradient descent, IRLS (Iteratively Reweighted Least Squares) veya Newton-Raphson ile iteratif olarak bulunur. Modern istatistik yazılımları (statsmodels, SAS, R) bu optimizasyonu arka planda yapar.

Cross-entropy loss ile bağlantısı: Neural network eğitiminde kullanılan "binary cross-entropy loss" = −log-likelihood. Logistic regression ve tek katmanlı bir sigmoid sinir ağı matematiksel olarak tamamen aynıdır. Fark: isim, framework ve ölçek.

Yasal modellerde MLE ve katsayı güveni: MLE sadece β tahmini değil, aynı zamanda standart hataları ve Wald istatistiklerini üretir. Bu, her katsayının anlamlılığını test etmeye yarar. Düzenleyici dokümantasyonda "katsayı anlamlı mı?" sorusu, MLE'nin standart hata hesabından doğrudan gelir.

tipik hata

Yaygın yanılgı: "Lojistik regresyon bir sınıflandırma algoritmasıdır." Teknik olarak yanlış — lojistik regresyon olasılık tahmin edicisidir. Çıktısı P(y=1|x). Sınıflandırma kararı (0 veya 1) için bir eşik değeri (cut-off) seçmeniz gerekir — bu model değil, iş kararıdır. "Model temerrüt eşiği %50 dediyse..." diye başlayan cümle çoğu zaman hatalıdır.

İkinci yanılgı: β₁'i "etki büyüklüğü" olarak okumak. β₁ log-odds değişimidir — 0.5 değeri "tahmin %50 artar" demez. Odds oranına çevrilmesi gerekir: e^0.5 ≈ 1.65. "Bu özellik 1 birim artınca temerrüt olasılığı %65 çarpıcı artar" — bu doğru okuma. Doğrudan olasılık değişimi için marginal etki hesaplanmalı.

Katman VI tamamlandı. Lineer ve lojistik regresyon — model dilinin temelini koyduk. Katman VII'de bu çıktıyı karara dönüştürmek var: skor, olasılık, eşik ve confusion matrix.

Sıradaki bölüm · Katman VII · 18

Skor, Olasılık, Karar: Üç Farklı Katman

→