Korelasyon ≠ Nedensellik · Veri Bilimi Yol Haritasi

Katman V · İliski, Nedensellik & Feature · 13 / 14

Korelasyon ≠ Nedensellik

bu bölümün sorusu

Kredi limit artışı alan müşterilerin temerrüt oranı daha düşük. Peki limit artışı temerrüdü mü azaltıyor — yoksa iyi müşteriler mi hem limit alıyor hem az temerrüt ediyor? İkisi çok farklı iki eylem planı gerektirir.

neden birlikte değişmek yeterli değildir

Korelasyon iki değişkenin birlikte değiştiğini söyler. Nedensellik ise bunun neden olduğunu. Bu fark, modeli nasıl yorumlayacağınızı ve ne tür kararlar alacağınızı temelden değiştirir.

Üç farklı "korelasyon" türü vardır — hepsinin görünümü aynıdır ama arka planı tamamen farklıdır:

Gerçek nedensellik: X → Y. X değiştiğinde Y değişir. Müdahale etmek anlamlıdır. Kredi limiti düşürülünce bu müşterinin davranışı değişir.

Ortak neden (confounding): Z hem X'i hem Y'yi etkiler. X ile Y korelasyonlu görünür ama aralarında nedensel bağ yoktur. Kredi skoru (Z) hem limiti (X) hem temerrüdü (Y) etkiler. Limiti değiştirirseniz temerrüt değişmez.

Ters nedensellik: Y → X gibi görünen şey aslında X ← Y. Yüksek temerrüt oranı olan portföylere daha yüksek faiz uygulanıyor — faiz temerrüdü "artırmıyor", temerrüt eğilimi faizi artırıyor.

Korelasyon, nedenselliğin en ucuz taklididir. Birlikte değişmek, birlikte var olmak değildir — ve bu farkı görmeden kurulan model, müdahale ettiğinde sizi yanıltır.

artifact — confounding revealer (simpson paradoksu)

Portföyde limit artışı olan müşterilerin temerrüt oranı %12, olmayanların %26. "Limit artışı temerrüdü azaltıyor" mu? Risk skoru kontrol ekle butonuna tıklayın ve gerçeği görün.

interactive — confounding revealer

katman V · bölüm 13

limit artışı var

%12

temerrüt oranı

limit artışı yok

%26

temerrüt oranı

nedensel etki

−14 pp

görünür ama yanıltıcı

Limit artışı, düşük temerrüt oranıyla korelasyonlu görünüyor — ama bu ilişkinin arkasında risk skoru var. İyi müşteriler (yüksek skor) hem limit alıyor hem az temerrüt ediyor. Limit artışının kendisi temerrüdü etkilemiyor.

üç nedensel yapı: confounding, mediator, collider

Yönlendirilmiş Asiklik Graflar (DAG), değişkenler arasındaki nedensel ilişkilerin haritasını çizer. Üç temel yapı var — her biri farklı bir hata üretir ve farklı bir kontrol stratejisi gerektirir.

Confounding (Ortak Neden)

Sorun: X-Y korelasyonu gerçek gibi görünür ama Z kontrolünde kaybolur. Çözüm: Z'yi modele ekle veya randomize et.

Mediator (Aracı)

Sorun: M'yi kontrol edince X'in etkisi kaybolur — ama M aslında X'in etkisini taşıyor. Dikkat: Mediatorü bloke etmek X'in toplam etkisini gizler.

Collider (Çarpışma)

Sorun: C'yi kontrol edince (sadece onaylıları analiz) X ve Y arasında yanlış bir korelasyon oluşur. Örnek: Reject inference tam da budur.

Modelleme pratiğinde: Confounding'i kontrol etmek modeli iyileştirir. Mediatorü kontrol etmek X'in etkisini gizler. Collider'ı kontrol etmek olmayan bir ilişki yaratır. Üçü benzer görünür — ama reçete tam tersidir. Bu farkı sormadan değişken eklemek model kalitesini bozabilir.

tipik hata

En yaygın yanılgı: "Modelde feature önemliyse, onu artırmak/azaltmak hedefe ulaşmamızı sağlar." Feature önemli = model o feature'dan öğreniyor demektir. Ama öğrenilen ilişki nedensel mi, confounding'e mi bağlı? Kredi limiti artışı modelde önemli görünebilir — ama bu nedensel kontrol üretmez.

Validasyon bağlamında: "Bu değişken modelin tanımlayıcısı olmak için doğru mu?" sorusu, sadece korelasyon veya istatistiksel anlamlılıkla cevaplanamaz. Arka planda veriyi üreten süreç — hangi değişkenin hangisini etkilediği — bilinmeden değişken seçimi kör bir süreçtir.

Sıradaki adım: Korelasyondan nedenselliği ayırt etmeyi öğrendik. Şimdi doğru değişkeni üretmenin sanatı — feature engineering ve WoE/IV.

Sıradaki bölüm · Katman V · 14

Causal Thinking, Feature Engineering & DGP

→