Nedensel Çıkarım & A/B Testi · Veri Bilimi Yol Haritasi

Katman X · Yorumlanabilirlik vs Tahmin Gücü · 28 / 29

Nedensel Çıkarım & A/B Testi

bu bölümün sorusu

Faiz indirimi yapıldı, temerrütler azaldı. Nedensellik mi, korelasyon mu? Model korelasyonu gösterir — ama "müdahale işe yaradı" demek için istatistiksel olarak tasarlanmış deney gerekir. Peki ya randomizasyon mümkün değilse?

karşıolgusal problem: aynı kişiyi iki kez gözlemleyemeyiz

Nedensel çıkarımın temel zorluğu şudur: limit artışı verilen müşterinin limit artışı almamış hali yoktur. Bu iki durumu aynı anda gözlemleyemeyiz — birini seçmek diğerini ortadan kaldırır. Karşıolgusal (counterfactual) gözlemlenemez; tahmin edilmek zorundadır.

Rastgele Kontrollü Deney (RCT), bu problemi gruplar arasında rastgele atama yaparak çözer. Müşteriler rastgele atandığında, tedavi ve kontrol grupları — gözlenebilen ve gözlenemeyen tüm özellikler bakımından — başlangıçta eşit dağılım gösterir. Bu, ortalama tedavi etkisini (ATE) hesaplamayı mümkün kılar: ATE = E[Y | Tedavi] − E[Y | Kontrol].

A/B testi, RCT'nin dijital/operasyonel adıdır. Bankacılıkta: faiz oranı deneyleri, limit artışı politikaları, erken ödeme hatırlatma müdahaleleri, dijital onay akışı testleri. İyi tasarlanmış deney, "bu politika işe yarıyor mu?" sorusunun tek güvenilir yanıtıdır.

Model korelasyon üretir — hangi özelliğin temerrütle birlikte değiştiğini. Deney nedenselliği test eder — hangi müdahalenin temerrüdü değiştirdiğini. İkisini karıştırmak, doğru sorunu yanlış araçla çözmek demektir.

artifact 1 — A/B testi güç & örneklem hesabı

Kontrol grubu default oranı ve tespit etmek istediğiniz minimum etki büyüklüğünü ayarlayın. İki dağılımın örtüşmesi (amber bölge) azaldıkça test gücü artar — ama gerekli örneklem de büyür. Küçük etkileri tespit etmek neden bu kadar pahalıdır?

interactive — A/B testi güç & örneklem hesabı

katman X · bölüm 28

Kontrol DR (p₀) %8

Minimum etki (Δp) %2

Kontrol DR

p₀

Tedavi DR Hedef

p₁ = p₀ − Δp

Gerekli n (grup)

—

α=0.05, güç=%80

Toplam Müşteri

—

her iki grup birlikte

Niçin bu kadar büyük örneklem? Default olayları nadir (düşük p₀) ve Δp küçük olduğunda, gürültüden sinyali ayırt etmek zordur. CLT'ye göre standart hata σ/√n ile azalır — n büyümeden güç artmaz. Bu, "bir ay deney yeterli" yanılgısının matematiksel açıklamasıdır.

randomizasyon mümkün değilse: gözlemsel nedensel çıkarım

Bankacılıkta her soruyu RCT ile cevaplayamayız. Regülatör kısıtı, etik sınırlar veya operasyonel maliyet, randomizasyona engel olabilir. Bu durumda gözlemsel veriden nedensel çıkarım yapmak için tasarlanmış yöntemler devreye girer.

Propensity Score Matching (PSM): Tedavi grubundaki her bireye, gözlemlenen değişkenler bakımından benzer bir kontrol grubu bireyi eşleştirilir. Eğilim skoru (propensity score) = P(tedavi | X). Gözlemlenemeyen confounders için hâlâ savunmasız.

Regression Discontinuity (RDD): Bir kesim noktası etrafında keskin bir kural varsa (kredi skoru < 650 → reddedildi), bu eşik yakınındaki müşteriler doğal kontrol ve tedavi grubu oluşturur. Bankalarda sık rastlanan: puan bazlı otomatik karar sistemleri.

artifact 2 — fark-in-fark (DiD) görselleştirici

Fark-in-Fark (DiD), "paralel trend" varsayımı altında gözlemsel veriden tedavi etkisini tahmin eder. Müdahale olmasa iki grup aynı trendi izlerdi. DiD tahmini: (Tedavi Sonrası − Tedavi Öncesi) − (Kontrol Sonrası − Kontrol Öncesi).

İki senaryo: Paralel Trend — varsayım sağlanıyor, DiD geçerli. Iraksan Trend — varsayım ihlali, DiD tahmini yanlı. Kural: müdahaleden önce trendler paralelmiş görünmeli.

interactive — DiD görselleştirici

katman X · bölüm 28

Yöntem

DiD

kullanılan çerçeve

Tahmini Etki

—

DiD / ATE tahmini

Paralel Trend

—

varsayım durumu

Güvenilirlik

—

yorum

Bankacılık DiD örneği: Bir bölgedeki şubeler faiz oranını düşürdü (tedavi), diğerleri sabit tuttu (kontrol). Pre-period'da iki bölgenin temerrüt trendi paralel miydi? Eğer evetse, müdahalenin temerrüt üzerindeki nedensel etkisi DiD ile tahmin edilebilir. "Paralel trend" testi yapmak zorunludur.

tipik hata

Yaygın yanılgı: "A/B testine başladık, p < 0.05 olunca durduracağız." Bu "peeking" problemi — sürekli bakılırsa rastgele Tip I hata kaçınılmaz. Örneklem büyüklüğü deneyden önce belirlenmeli, deneyi tamamlanana kadar nihai analiz yapılmamalı. Erken durdurma için Sequential Testing veya Bayesian A/B kullanılmalı.

İkinci yanılgı: DiD'in paralel trend varsayımını test etmemek. Pre-period'da tedavi ve kontrol gruplarının trendleri paralel değilse, DiD tahmini biased. Varsayımı test etmek için pre-period'u ikiye bölüp "placebo DiD" çalıştırılır. Sıfırdan farklı placebo etki = varsayım ihlali.

Sıradaki adım: Katman X'in son bölümü — fairness ve etik AI çerçevesi.

Sıradaki bölüm · Katman X · 29

Fairness, Bias & Etik AI

→