Aykırı değer, modelin kör noktası olabilir — ya gözlemlediği şeyin en değerli parçasını, ya da yanlış okuduğu bir gürültüyü temsil eder. İkisi aynı sayıda görünür; biri hata, diğeri sinyal.
üç farklı aykırı değer türü
Bir değer "outlier" olarak etiketlenmesi, onun ne olduğunu söylemez. Yüksek bir gelir değeri mi veri giriş hatasıdır, gerçek bir milyoner mi, yoksa sahte bir veri kaydı mı? Bağlam olmadan bu soruyu cevaplayamazsınız. Ve cevaplamadan kaldırmak, modeli iyileştirmez — çoğu zaman bozar.
Aykırı değerlerin üç farklı türü vardır ve her biri farklı bir karar gerektirir:
Hata Aykırısı
araştır, düzelt veya kaldır
Veri giriş hatası, sistem arızası, birim karışıklığı. Kaynağında doğrulanmalı. Kaldırmak genellikle doğru — ama önce gerekçe belgelenmeli.
Ekstrem Ama Gerçek
incele, etkisini ölç
Nadir ama gerçek bir değer. Yüksek gelirli gerçek müşteri, beklenmedik büyük işlem. Modeldeki etkisi ölçülmeli; kaldırma kararı empirik olmalı.
Sinyal Aykırısı
koru — bu bilginin kendisi
Anormalliğin kendisi bilgidir. Fraud datasında uç işlem, kredi baskısındaki ani kullanım artışı. Kaldırmak sinyali bastırır.
artifact — outlier karar labı
Üç senaryo, her biri farklı bir karar gerektirir. Senaryoyu seçin, ardından "outlier dahil" ve "outlier hariç" durumlarını karşılaştırın.
interactive — outlier decision lab
katman II · bölüm 06
veri noktası
—
model notu
—
karar
—
—
Aykırı değeri kaldırmak bir temizlik değil, bir hipotezdir. "Bu değer hata" diyorsunuz — bu iddia kanıtlanmadıkça kaldırma kararı modeli değil sizi yanıltır.
bağlam her şeyi belirler
Aynı "anormal yüksek işlem tutarı" değeri iki farklı modelde tamamen farklı anlam taşır. Gelir modelinde yanlış girilen bir sıfır olabilir — kaldırmak doğrudur. Fraud modelinde ise kaldırmak, sistemin tam olarak yakalaması gereken sinyali köreltmektir.
Bu yüzden outlier kararları alan bazında verilmez, değişken ve model amacı bazında verilir. "Bu veri setinde outlier'ları temizle" komutu, modeli kuran kişinin bağlamı anlamadığını gösterir. Validatörün sorusu: "Bu aykırı değer kaldırıldı mı — ve neden?"
LGD özel durumu: LGD dağılımında %0 ve %100'e yakın değerler istatistiksel "outlier" görünür ama yapının ta kendisidir. Teminatlı kredilerde tam tahsilat (%0 LGD) ve teminatsız tasfiyede tam kayıp (%100 LGD) gerçek ve sık görülen sonuçlardır. Bunları "uç değer" diye temizlemek, LGD modelini en kritik segmentlerde kör yapar.
tipik hata
Her iki yönde de hata yapılır. "Veri temizleme = outlier kaldırma" refleksi, fraud ve anomaly detection modellerini köreltir. Ama "outlier kaldırmayız" katılığı da veri giriş hatalarının modele girmesine izin verir. Doğru refleks: her outlier için sormak — "bu bir hata mı, aşırı ama gerçek bir değer mi, yoksa sinyalin ta kendisi mi?"
Validasyon perspektifinden: model dokümantasyonunda outlier handling başlığı açıkça ele alınmamışsa, bu kırmızı bayraktır. Hangi değişkenlerde, hangi kural ile, kaç gözlemin elendiği belgelenmemiş bir model, tekrarlanabilir değildir.
Katman II tamamlandı. Veriyi okumayı öğrendik — merkezi, yayılımı, dağılım ailesini ve aykırıları. Katman III'te belirsizliği matematikselleştiriyoruz: olasılık, Bayes refleksi ve beklenen değer.