Veri Bilimi Yol Haritasi · Mehmet Yigili

Veri Bilimi & Modelleme

Veri Bilimi Yol Haritasi

Kod yazmayı degil, veriyle düsünmeyi ögretmek için. Kredi riski, model validasyonu ve karar sistemleri dünyasina analistik bir bakis açisiyla giris — analistten model düsünürüne.

interaktif bölüm

XII

katman

20+

artifact

Bu yol haritasi bir bootcamp müfredati degildir. Python, pandas veya sklearn listesi yoktur. Amaç, modeli anlamak, sorgulamak ve risklerini görmek için gereken zihinsel mimariyi kurmaktir. Sira önemlidir — her katman bir öncekinin eksikliginden dogan yeni bir sorudur.

katman I Veri Okuryazarligi & Ölçüm Düsüncesi

"Veri nedir, ne degildir?"

Her seyin basladigi yer. Veriyi "verili" degil, "üretilmis" görmek bu katmanin tek hedefidir.

Veri Nedir, Ne Degildir?

Veri, gerçekligin degil; ölçtügümüzün izidir. Reddedilen müsteri, kayip event, gözlenemeyen kullanici — bunlar verinin disindadir. Reject Inference Lens ile egitim setinin kör noktasini kesf et.

reject inference selection bias veri tanimi

→

Ölçüm Düsüncesi & Operasyonel Tanim

Model kurulmadan önce, model kurulacak seyin ne oldugunu tanimlamak gerekir. "Temerrüt nedir?" sorusu felsefi degil; matematiktir. Definition Sensitivity Simulator ile tanim degistiginde bad rate nasil degisir?

operasyonel tanim temerrüt / bad rate ölçüm geçerliligi

→

Veri Türleri, Granülarite & Zaman Boyutu

Snapshot mi, panel mi? Point-in-time mi, through-the-cycle mi? Observation window ile performance window farki. Kredi modellerinde zamani yanlis kesmek modelin tamamini çürütür.

panel veri PIT / TTC observation window

→

katman II Tanimlayici Istatistik & Dagilim Sezgisi

"Verinin sesi nasil dinlenir?"

Ortalama görmekten dagilim okumaya geçis. Tek sayi her zaman yanlis anlatir.

Ortalama Yalan Söyler: Merkez & Yayilim

Ortalama gelir %40 artti — ama kimse daha iyi hissetmiyorsa? Merkezi egilim, yayilim ve dagilim sekli. Mean Trap Simulator ile ortalama ve medyanin nasil ayristigi izle.

ortalama / medyan distribüsyon kuyruk riski

→

Dagilim Aileleri & Bankada Karsiligi

Gelir neden log-normal, temerrüt süresi neden exponential, LGD neden beta? Dagilim ailelerini bankacilik verisiyle eslestir. Distribution Explorer ile parametreleri degistir, dagilimlari izle.

log-normal beta dagilimi LGD / PD dagilimi

→

Aykiri Deger ile Sinyal Farki

Fraud datasinda aykiri deger kötü veri degil, iyi sinyal olabilir. Outlier temizlemek her zaman dogru degildir. Ne zaman dogru, ne zaman modelin gözünü kör eder?

outlier fraud sinyali temizleme yanilgisi

→

katman III Olasilik & Belirsizlik Sezgisi

"Belirsizlik nasil ölçülür?"

Dagilimlari gördük; ama bir sonraki noktayi söyleyebiliyor muyuz? Belirsizligi matematikselletirmek bu katmanin isi.

Olasilik Nedir? Frequentist vs Bayesian

"%5 PD" ne demek? Frequentist: geçmiste 100'den 5'i batti. Bayesian: prior bilgim + portföy verisi. Iki okulun farki neden model validasyonunda kritik?

frequentist Bayesian PD yorumu

→

Kosullu Olasilik & Bayes Refleksi

P(temerrüt | düsük gelir) ≠ P(düsük gelir | temerrüt). Bu refleks oturmadan validasyon yapmak imkânsiz. Conditional Probability Console ile farki hisset.

kosullu olasilik Bayes teoremi validasyon refleksi

→

Beklenen Deger, Risk & Bilesişik Olaylar

Bankaciligin motoru: EL = PD × LGD × EAD. Portföy bagimsizlik varsayimi tutmazsa ne olur? Bilesik risk ve korelasyonun patlayici etkisi. Kopula sezgisi.

EL = PD × LGD × EAD beklenen deger kopula sezgisi

→

katman IV Örnekleme, Bias & Çikarim

"Parça hakkinda bütüne ne söylenebilir?"

Elimizdeki veri popülasyonun tamami degil. Örneklemden popülasyona geçisin disiplin gerektirdigini ögren.

Popülasyon, Örneklem & Çikarim

Modeli egittigin veri gelecekteki müsteri tabanini temsil ediyor mu? IRB modellerinde "representative" kosulunun arkasindaki istatistik. Sample vs Population Simulator.

representative IRB kosullari çikarim siniri

→

Bias Atlasi: Görünmez Sapmalar

Selection, survivorship, look-ahead, temporal bias. Hepsi banka modelleme dünyasinda sessizce öldüren sapmalar. Her birini tani, nasil sizdigi gör. Bias Lens Simulator.

selection bias look-ahead bias survivorship

→

Hipotez Testi & Belirsizlik Dili

Modelin degiskeni anlamli mi? Tip 1 / Tip 2 hata. P-value ne söyler, ne söylemez? Güven araligi ile nokta tahmin farki — yönetim sunumlarinda kritik olan bu.

hipotez testi güven araligi p-value yanilgisi

→

katman V Iliski, Nedensellik & Feature Düsüncesi

"Birlikte degismek ayni sebepten mi gelir?"

Korelasyon görmek kolaydir; sebep-sonuç iliskisine emin olmak çok daha zordur.

Korelasyon ≠ Nedensellik

Kredi limit artisi temerrüdü "azaltiyor" gibi görünebilir — aslinda selection effect. Confounding, mediator, collider. Correlation Mirage ile yanilsamayi kesf et.

korelasyon nedensellik confounding

→

Causal Thinking, Feature Engineering & DGP

Veriyi üreten süreci anlamadan feature üretmek körü körüne kürektir. WoE/IV bu felsefenin yasal modeldeki dilidir. Data Generating Process sezgisi ile dogru degisken nasil bulunur?

feature engineering WoE / IV DGP

→

katman VI Model Dilinin Temeli

"Model gerçekligi nasil konusur?"

Ilk model dili: regresyon ailesi. Her karmasik model, bu dilin varsayim ihlallerine verilen yanitir.

Supervised Learning Zihinsel Modeli

y = f(x) + ε. Bu denklemi anlamayanlar modelin neyi ögredigini de anlayamazlar. Giris, çikis, hata, genelleme: kavramsal harita.

supervised learning y = f(x) + ε genelleme

→

Lineer Regresyon: Ilk Model Dili

Her karmasik model lineer regresyonun varsayim ihlaline verilen yanitir. Regresyon çizgisini sürükle, artiklari gör. Regression Line Playground + Residual Pattern Viewer.

OLS artiklar / residuals varsayim ihlali

→

Lojistik Regresyon & Maximum Likelihood

Olasiligi (−∞, +∞) eksenine çevirmek. Sigmoid neden bu isi yapar? MLE neden ögrenimenin dogal dilidir? Logistic Curve Slider ile katsayinin etkisini görselltir.

logit / sigmoid MLE PD modeli temeli

→

katman VII Siniflandirma, Skor & Esik

"Olasiligi karara nasil çeviririz?"

Modelin çiktisi sayidir. Karari insan verir. Bu iki katmanin karistirilmasi modellemenin en yaygin hatasidir.

Skor, Olasilik, Karar: Üç Farkli Katman

Skor = siralama, olasilik = kalibrasyon, karar = esik. Bu üç katmani karistirmak modelleme dünyasinin en yaygin hatasidir. Her birinin farkli bir soruya cevap verdigini anla.

skor vs olasilik kalibrasyon karar esigi

→

Discrimination: ROC, AUC, KS, Gini

Bu metriklerin hepsinin ölçtügü sey siralama basarisidir — kalibrasyonu ölçmez. AUC 0.85 iyi mi? Kime göre? ROC/AUC Visualizer + KS Curve ile görsellesir.

AUC / Gini KS istatistigi IRB discriminasyon

→

Kalibrasyon & Cut-off Düsüncesi

PD %5 dedigin zaman gerçekten %5 mi batiyor? AUC iyi, kalibrasyon bozuk olabilir — ikisi ayni anda mümkün. Cut-off belirleme teknik degil, is kararidir. Threshold Decision Console.

PD kalibrasyonu Hosmer-Lemeshow cut-off / onay orani

→

katman VIII Performans, Genelleme & Validasyon

"Modelin dürüstlügü nasil ölçülür?"

Iyi skor ezberleme isareti olabilir. Genelleme, modeli yaratan degil; modeliyle yüzlesen birinin sorusudur.

Train / Validation / Test & Veri Sizintisi

Veri sizintisi modellemenin en sik ezberle geçilen prensibi. Bankada zamani yanlis kesmek leakage üretir. OOT split neden zorunlu?

data leakage OOT split test disiplini

→

Overfitting, Underfitting & Regularizasyon

Basit model kör, karmasik model ezberci. Bias-variance tradeoff görselletirmesi. Ridge ve Lasso neden var? Lasso'nun yasal modelde degisken seçimine katkisi.

overfitting bias-variance L1 / L2

→

Cross-Validation & OOT Validasyon

Banka verisinde zamani yok saymak ölümcüldür. K-fold ne zaman yanlis? Walk-forward CV. OOT validation sonucu kötüyse model yasamaz.

cross-validation OOT performansi zamana göre kirilim

→

katman IX Nonlineer Dünya: Agaçlar & Ensemble

"Karmasik örüntü nasil ögrenilir?"

Lineer dünya yetmiyor. Agaçlar farkli bir ögrenimi dili — bireysel degil, kolektif akil.

Karar Agaci: Bölünme Sezgisi

Agaç nasil soru sorar? Information gain, Gini impurity, entropy. Decision Tree Splitter ile her dallanma noktasini olutur, bilgi kazancini canli hesapla.

karar agaci information gain bölünme mantigi

→

Random Forest: Kolektif Akil

Çoklu zayif ögreniciden güçlü tahmin. Bagging ve variance reduction sezgisi. Neden tek agaçtan çok daha iyi? Feature importance random forest'in yan ürünüdür.

random forest bagging feature importance

→

Gradient Boosting & XGBoost: Hatadan Ögrenmek

Ardisik agaçlar önceki modelin hatasini ögrenir. Boosting ile bagging farki. XGBoost, LightGBM, CatBoost neden farkli? Yönetsel modellerin fiili standardi.

XGBoost gradient boosting yönetsel model

→

katman X Yorumlanabilirlik vs Tahmin Gücü

"Hangi modelde, hangi tarafa egiliriz?"

Bu roadmap'in en kritik gerilimi. Teknik tercih degil; yönetisimsel karar. Validatör burada durmak zorundadir.

Iki Dünya: Yasal vs Yönetsel Modeller

Neden IRB modeli logit, neden davranissal skorlama XGBoost? Bu teknik bir tercih degil; yönetisimsel bir karardır. Iki dünyanin gerilimiyle yüzles.

yasal model yönetsel model regülasyon

→

Yasal Model Disiplini: WoE, IV, Monotonluk

WoE neden hâlâ kullaniliyor? IV neyi ölçer? Monotonluk kisitinin matematiksel sonuçlari. Yasal modelin perde arkasi: basitlik degil, savunulabilirlik.

WoE / IV monotonluk EBA / BDDK

→

Açiklanabilirlik Araçlari: SHAP, LIME, PDP

SHAP yasal model degisken seçiminde neden hatali, yönetsel modelin açiklamasinda neden degerli? SHAP Storyboard ile ayni kararin iki dile çevirisi.

SHAP LIME / PDP SHAP yanilgisi

→

katman XI Zaman, Drift & Monitoring

"Model neden yaslanir?"

Model bugün iyi çalisiyor. Yarin? Model biyolojik bir varlik gibidir — dogaar, gelisir, yaslanir.

Point-in-Time vs Through-the-Cycle

PD'nin iki yüzü. PIT ekonomik döngüyü izler, TTC düzlestirir. IFRS 9 hangisini istiyor, IRB hangisini? Forward-looking adjustment'in kaynagi burada.

PIT / TTC IFRS 9 sermaye / karsilik

→

PSI, Drift & Kavram Kaymasi

Model kötülesmeden önce veri kötülesir. Population Stability Index nedir, ne söyler? Covariate drift, concept drift, performance drift. Drift Timeline.

PSI drift türleri kavram kaymasi

→

Monitoring Çerçevesi & Lifetime PD

Ne, ne siklikla, hangi esikle izlenir? IFRS 9 lifetime PD: zamani modele içermek. Bayesian güncelleme sezgisi. Monitoring Control Panel.

lifetime PD monitoring çerçevesi Bayesian güncelleme

→

katman XII Karar, Isletme & Yönetisim

"Tahminden kurumsal karara nasil geçilir?"

Modeli matematiksel degil, kurumsal varlik olarak görmek. Validasyon disiplini bütün katmanlarin üst soyutlamasidir.

Tahminden Karara: Model Risk, Adillik & Yönetisim

Skor karar vermez; yönetir. Beklenen kayip tabanlí karar, onay stratejisi, portföy etkisi. Adillik ve ayrimcilik riski. SR 11-7 ve üç savunma hatti.

model risk SR 11-7 adillik / bias

→

Validasyon Sentezi: Analistten Model Düsünürüne

Bu bölüm özet degil; bir bakis açisidir. Validatör neyi sorgular, hangi sirada, neden? 12 katmanin validasyon diline çevirisi. Validation Question Generator.

validasyon sentezi model denetimi sorgulama disiplini

→

Her bölüm bagimsiz bir interaktif modüldür. Slider, canvas ve görsel artifact içerir. Önerilen sirayi takip edin — her katman bir öncekinin eksikliginden dogan yeni bir sorudur.