Uçtan Uca Veri Bilimi: Kurumların Görmezden Geldiği Kritik Başarı Faktörü
Veri toplamadan görselleştirmeye, analizden karara kadar tüm süreç profesyonel bir yaklaşım gerektirir. Sadece bir aşamada eksiklik bile milyonlarca lira maliyete yol açar
Emre Bostanoğlu
Veri Bilimci • Uzman İstatistikçi
🎧 Podcast Olarak Dinle
Bu blog yazısı profesyonel seslendirme ile podcast formatında da mevcut
Spotify'da canlı dinle - Gelişmiş dinleme deneyimi
Hareket halindeyken veya rahatça dinlemek için ideal
Giriş: Rakamlardaki Yanılsama
Toplantı odasında bir sunum izliyorsunuz. Ekranda tablolar, grafikler, renkli görseller... Satış rakamları derlenmiş, hasta başvuru sayıları toplanmış, bütçe kalemleri özetlenmiş. Her şey düzenli görünür. Sayılar var, yüzdeler hesaplanmış, trendler çizilmiş.
Ama bir veri bilimci gözüyle bakıldığında başka bir tablo çıkar ortaya: Bu rakamlar istatistiksel olarak anlamlı mı? Kullanılan ölçek türü doğru mu? Dağılım varsayımları kontrol edilmiş mi? En önemlisi, bu görsellerin arkasında matematiksel bir temel var mı, yoksa sadece sayıların yan yana dizilmesi mi?
Çoğu durumda cevap: Hayır.
Ve işte gerçek problem burada başlar. Çünkü veri görünürlüğü ile veri bilimi arasında dağlar kadar fark vardır. Veri bilimci olmadan yürütülen veri çalışmaları, kurumları iki yönden vurur: Bir yanda yanlış kararlar, diğer yanda ise görmezden gelinen zaman ve emek israfı.
İstatistik ve veri bilimi teknik bir süreçtir. Sadece yazılım bilgisi ya da araç kullanımı değil, matematiksel temeller, olasılık teorisi, örnekleme yöntemleri ve istatistiksel çıkarım gerektiren profesyonel bir disiplindir. Bu alan hafife alındığında, kurumlar milyonlarca lira maliyetle karşılaşır.
Patinaj ve Gerçekleşmeyen Katma Değer
Sürekli Başa Dönüş Sendromu
Bir kamu hastanesinde yaşanan küçük bir hikaye: Kalite birimi, hasta memnuniyet verilerini toplamaya başlar. İlk ay Excel'de bir tablo oluşturulur. İkinci ay, farklı bir personel başka bir formatta aynı verileri derler. Üçüncü ayda ilk personel işe döner ve "bu formatı anlayamıyorum" der, yeniden düzenler.
Altı ay sonra üst yönetim bir analiz ister. Veriler birleştirilemez. Altı aylık emek, sıfır çıktı. Yeniden başlanır.
Neden Olur?
Çünkü başlangıçta şu sorular sorulmaz:
- • Bu veri hangi analize hizmet edecek?
- • Hangi değişkenler birbirleriyle ilişkilendirilmeli?
- • Veri yapısı ileride genişlemeye uygun mu?
- • Toplanan veri, istatistiksel testler için yeterli mi?
Veri bilimci, ilk günden veri mimarisi kurar. Diğer personeller ise genellikle o an neye ihtiyaç varsa onu toplar. Fark burada ortaya çıkar: Birincisi kümülatif değer üretir, ikincisi sürekli sıfırdan başlar.
Gereksiz İş Üretimi: Doğru Soru Sorulmaması
Özel sektörden bir örnek: Pazarlama departmanı, müşteri veri tabanını Excel'de yönetir. Her kampanya öncesi, birisi manuel olarak müşterileri "aktif/pasif" diye ayırır. 3 saatlik iş, ayda 4 kere tekrarlanır.
Veri bilimci devreye girer. Sorar: "Aktif müşteri tanımınız ne?" Cevap: "Son 3 ayda alışveriş yapan."
Basit bir SQL sorgusu yazılır, otomatikleştirilir. 3 saatlik iş, 3 saniyeye düşer. Ama asıl kazanç başka yerdedir: Veri bilimci, o müşteri segmentasyonunun istatistiksel olarak anlamlı olmadığını gösterir. RFM (Recency, Frequency, Monetary) analizi ile gerçek müşteri profilleri çıkarılır.
Sonuç: Sadece zaman kazanılmaz, daha doğru kararlar alınır.
Halüsinasyon Etkisi: Var Olmayan Kalıpları Görmek
İnsan beyni, rastgele verilerde bile bir anlamlı kalıp bulmaya çalışır. Buna "veri halüsinasyonu" diyebiliriz. Bu durum iş dünyasında çok pahalıya mal olur.
Bir hastane yöneticisi, "Pazartesi günleri acil başvuruları artıyor" der. Veriye bakar, gerçekten de son 4 Pazartesi yüksek. Hemen ekstra personel planlaması yapar.
Veri bilimci devreye girer, 6 aylık veriyi detaylı analiz eder:
- Pazartesi ortalaması: 147 hasta
- Diğer günler ortalaması: 142 hasta
- İstatistiksel test sonucu: Bu fark anlamlı değil, sadece rastgele dalgalanma
- Sonuç: Pazartesi özel bir gün değil. Personel artırımı gereksiz maliyet.
Ama hikaye bitmez. Veri bilimci, zaman içinde veriye bakarak gerçek kalıbı bulur: Ayın ilk haftası (hangi gün olursa olsun) başvurular %22 artıyor. Çünkü kronik hastalarda maaş günü sonrası ilaç alım dönemi başlar.
Fark: Birincisi Pazartesi'ye personel yığar (yanlış), ikincisi ayın ilk haftasına planlama yapar (doğru).
Veri Analizi Türleri: Her Birinin Farklı Bir Amacı Var
Çoğu kurum "veri analizi" dediğinde aslında ne istediğini bilmez. Oysa veri analizi 4 farklı türde yapılır ve her birinin farklı bir amacı, farklı bir yöntemi vardır. Yanlış türde analiz yapmak, doğru soruya yanlış araçla cevap aramak gibidir.
1. Tanımlayıcı (Descriptive) Analiz: Ne Oldu?
Amaç: Geçmiş verileri özetlemek, ne olduğunu anlamak.
Örnek: "Geçen ay 1.500 ürün sattık, en çok satılan kategori elektronik ürünler, ortalama sipariş tutarı 450 TL."
Fonksiyon: Raporlama, geçmiş performans izleme, genel durum kontrolü. En temel seviye.
2. Keşifsel (Exploratory) Analiz: Neden Oldu?
Amaç: Verideki ilişkileri, kalıpları ve nedenleri keşfetmek.
Örnek: "Neden Ağustos ayında satışlar düştü? Hangi bölgede, hangi kategoride düştü? Fiyat mı, stok mu, kampanya eksikliği mi?"
Fonksiyon: Kök neden analizi, segmentasyon, anomali tespiti. Strateji geliştirmeye temel oluşturur.
3. Tahminsel (Predictive) Analiz: Ne Olacak?
Amaç: Geçmiş verilerden yola çıkarak geleceği tahmin etmek.
Örnek: "Önümüzdeki 3 ay hangi müşteriler satın alma yapacak? Yeni kampanya hangi ürün kategorisinde daha etkili olacak? Stok talebi ne olacak?"
Fonksiyon: Talep tahmini, risk değerlendirmesi, müşteri davranışı tahmini. Proaktif karar alma.
4. Öngörüsel (Prescriptive) Analiz: Ne Yapmalıyız?
Amaç: Sadece ne olacağını değil, ne yapılması gerektiğini önermek.
Örnek: "Stok seviyesini artırmalı mıyız? Hangi müşteri segmentine hangi kampanyayı gönderelim? Fiyatı ne kadar ayarlarsak kar maksimum olur?"
Fonksiyon: Optimizasyon, simülasyon, karar destek sistemleri. En ileri seviye, en yüksek katma değer.
Gerçek: Çoğu kurum tanımlayıcı analizde takılı kalır. "Geçen ay ne oldu" raporları yapar, ama "neden oldu" ve "ne yapmalıyız" sorularına cevap bulamaz. Veri bilimci olmadan bu geçiş yapılamaz.
Veri Türleri - Teoriden Uygulamaya
Ölçek Türü Hatası: Sessiz Facia
Veri biliminin temel taşlarından biri ölçeklendirme teorisidir. Ama pratikte çoğu kişi bu farkı bilmez.
Küçük bir hastane örneği: Kalite birimi, hasta şikayetlerini kategorize eder:
- Temizlik
- Yemek
- İletişim
- Bekleme süresi
Birisi gelir, her kategori için şikayet sayısını toplar, sonra "ortalama şikayet kategorisi 2.3" hesabını yapar.
Problem
Bu kategoriler nominaldir. 1+2+3+4 / 4 = 2.5 işlemi tamamen anlamsızdır. Sanki "elma + portakal + muz / 3 = ?" hesabı yapmaya benzer.
Doğru yaklaşım: Her kategori için ayrı frekans analizi. Hangi kategoride yoğunlaşma var? Chi-square testi ile anlamlılık. Pareto analizi ile öncelik.
Ordinal Tuzak: Aralıkların Eşit Olmadığı Dünya
Bir özel hastane, doktor performansını değerlendirir. Skala: 1-Yetersiz, 2-Gelişmeli, 3-Yeterli, 4-İyi, 5-Mükemmel.
İnsan kaynakları, ortalama alır: "Dr. Ayşe: 4.2, Dr. Mehmet: 3.8"
Sorun: 4 ile 5 arasındaki fark, 2 ile 3 arasındaki farkla aynı değildir. "İyi" ile "Mükemmel" arasındaki mesafe, "Gelişmeli" ile "Yeterli" arasındakinden çok daha büyük olabilir.
Veri bilimci, medyan kullanır, dağılımı inceler:
Dr. Ayşe
- %60 mükemmel
- %40 iyi
- Tutarlı performans
Dr. Mehmet
- %40 mükemmel
- %20 iyi
- %30 gelişmeli
- %10 yetersiz
- Dalgalı performans
Gerçek yorum: Ayşe tutarlı yüksek performans, Mehmet polarize değerlendirmelere sahip. Ortalama bu farkı gizler.
Eksik Veri - Görünmeyenin Maliyeti
Yanlış Çözüm: Sil Gitsin
Bir firma, müşteri anketinde 1000 kişiye ulaşır. 300'ü gelir sorusunu boş bırakır.
Klasik yaklaşım: "Boş olanları sildik, 700 kişiyle devam ettik."
Veri bilimci sorar: "Neden 300 kişi boş bıraktı?"
Detaylı analiz gösterir: Gelir sorusunu boş bırakanların %80'i düşük eğitim seviyesinde. Yani, eksik veri rastgele değil, sistematik.
Bu 300 kişiyi silmek, analizin düşük gelir grubunu görmezden gelmesi anlamına gelir. Sonuç: Yanlış müşteri profili, yanlış pazarlama stratejisi.
Doğru yaklaşım: Önce eksik verilerin neden boş olduğunu anla. Gelir sorusunu neden boş bıraktılar? Düşük gelirli oldukları için mi utandılar? Bu 300 kişiyi direkt silmek yerine, ya eksik değerleri akıllıca doldur, ya da bu grubu ayrı bir kategori olarak değerlendir ve "gelir bilgisi paylaşmayanlar" diye raporla.
Küçük Bir Sağlık Hikayesi
Bir aile sağlığı merkezinde diyabet takibi yapılır. 500 hastanın 150'sinin son 6 aydaki HbA1c değeri yok.
Asistan, bu 150 kişiyi analizden çıkarır. Sonuç: "Hastaların %73'ü kontrolde."
Veri bilimci, eksik veri profilini inceler: Bu 150 kişi, randevulara gelmeyen, takipsiz kalan hasta grubu. Muhtemelen kontrolsüz diyabetikler.
Gerçek tablo: Hastaların sadece %51'i kontrolde. %22'lik fark, müdahale programı gerektirir. Ama bu ancak eksik veri doğru analiz edilince görülür.
Confounding - Görünen Gerçek Değildir
Simpson's Paradox: Toplam Yalan Söyler
Kamu sektöründe küçük bir örnek: İki hastanede ameliyat başarı oranları karşılaştırılır.
| Hastane A | Hastane B | |
|---|---|---|
| Genel Başarı: | 76% | 81% |
"Hastane B daha başarılı" diye rapor yazılır.
Ama veri bilimci, vakaları zorluk derecesine göre ayırır:
Basit Vakalar
- Hastane A: 94% (47/50)
- Hastane B: 89% (178/200)
- → A daha iyi
Komplike Vakalar
- Hastane A: 68% (102/150)
- Hastane B: 62% (31/50)
- → A daha iyi
Nasıl olur? Hastane A, daha fazla komplike vaka alır. Bu, genel oranı düşürür ama kaliteyi göstermez.
Öğreti: Toplu rakamlara bakarak karar verme. Genel ortalamanın altında neler olduğunu mutlaka incele. Her alt grubun kendi hikayesi vardır; tümünü tek bir rakamla özetlemek yanıltıcıdır.
Korelasyon vs Nedensellik: En Pahalı Hata
Bir ilkokulda gözlem: "Ayakkabı numarası büyük olan çocuklar, matematik testlerinde daha başarılı."
Yanlış yorum: "Büyük ayakkabı giymek matematik başarısını artırır!"
Gerçek neden: Ayakkabı numarası büyük olan çocuklar daha büyük yaşlardadır. Yaş ilerledikçe matematik seviyesi de artar. Ayakkabı numarası ile matematik başarısı arasında bir ilişki (korelasyon) var ama biri diğerinin nedeni değil. İkisi de yaşla ilgili.
Gerçek Hayattan Bir Örnek
Bir hastane, yoğun bakımda yatan hastaların düzenli doktor viziti sayısını inceler. Şu sonuca varır: "Doktor viziti sayısı arttıkça, hasta ölüm riski artıyor!"
Hatalı karar: "Doktor vizitlerini azaltalım."
Problem: Ağır hasta olanlar daha sık doktor viziti alır. Ölüm riski yüksekliği doktor vizitinden değil, zaten kritik durumda olmalarından kaynaklanır. İlişki var ama nedensellik ters yönde: Hasta ağır olduğu için doktora gidiyor, doktora gittiği için hasta olmuyor.
Veri bilimci ne yapar: Aynı ağırlıktaki hastaları karşılaştırır. Böylece hastalık şiddetini sabit tutup, gerçek etkiyi izole eder. Sonuç: Doktor vizitleri aslında hayat kurtarır, sadece ağır hastalarda yeterli gelmiyor.
Özet: İki şey birlikte hareket ediyorsa (korelasyon var), bu biri diğerini tetikliyor demek değildir. Üçüncü bir faktör her ikisini de etkileyebilir, ya da ilişki tamamen tesadüfi olabilir.
Veri Görselleştirme: Grafik Çizmek Yetmez, Teknik Bilgi Şarttır
Bir toplantıda PowerPoint açıyorsunuz. İçinde pasta grafikler, sütun grafikleri, çizgi grafikler var. Renkli, gösterişli. Ama yanlış.
Veri Bilimci Olmadan Görselleştirme: Yanıltıcı ve Tehlikeli
Bir firma, aylık satış verilerini grafik yapar. Excel'de güzel bir sütun grafiği çizer. Yönetim bakar: "Harika, satışlar artıyor!" Der ve stratejik yatırım kararı alır.
Problem: Grafik, Y eksenini 0'dan başlatmamış, 50'den başlatmış. Böylece %5'lik küçük bir artış, devasa bir yükseliş gibi görünüyor. Ayrıca mevsimsellik göz ardı edilmiş. Aslında aynı ay geçen yıla göre %12 düşük.
Sonuç: Firma, düşüş trendinde olmasına rağmen "büyüme var" diye yatırım yapar. 6 ay sonra mali sıkıntıya girer.
Veri Bilimci ile Görselleştirme: Doğru, Anlamlı, Karşılaştırılabilir
Veri bilimci aynı veriye bakar ve şunları yapar:
Veri Bilimci Yaklaşımı
- ✓ Y eksenini 0'dan başlatır (oranı bozulmasını önler)
- ✓ Mevsimselliği normalize eder (geçen yıl aynı ay ile karşılaştırır)
- ✓ Trend çizgisi ekler (genel yön net görülür)
- ✓ Güven aralığı gösterir (belirsizlik şeffaf olur)
- ✓ Outlier'ları işaretler (anormal değerler net)
Veri Bilimci Olmadan
- ✗ Eksen manipülasyonu (küçük farklar abartılır)
- ✗ Mevsimsellik göz ardı edilir
- ✗ Grafik türü yanlış seçilir (pasta grafik sürekli veri için kullanılır)
- ✗ Karşılaştırma referansı yok
- ✗ İstatistiksel anlamlılık test edilmez
Görselleştirme Teknikleri: Her Veri Türü İçin Farklı Grafik
Veri bilimci, hangi grafik türünün ne zaman kullanılacağını bilir:
- Zaman serisi verileri: Çizgi grafik (trend net görünür)
- Kategorik karşılaştırma: Sütun grafik (gruplar net ayrılır)
- Dağılım analizi: Histogram, kutu grafik (veri dağılımı anlaşılır)
- İlişki analizi: Scatter plot (korelasyon görülür)
- Oran gösterimi: Pasta grafik (SADECE toplam 100% ise ve kategori sayısı az ise)
Gerçek Örnek: Bir hastane, hasta memnuniyet anketini pasta grafikle gösterir: %40 memnun, %35 kararsız, %25 memnun değil. Ama bu veri zaman içinde nasıl değişti? Veri bilimci zaman serisi çizgi grafik yapar ve görür: Son 6 ayda memnuniyet sürekli düşüyor. Pasta grafik bu trendi göstermez. Statik bir anlık fotoğraftır, hikayeyi anlatmaz.
Veri Bilimci Gözüyle Görselleştirmenin Avantajları
Veri bilimci, görselleştirmeyi sadece "güzel grafik" olarak görmez. Görselleştirme, veriyi anlamanın ve iletmenin bilimsel bir yöntemidir.
1. Doğruluk
Eksen, ölçek, referans doğru. Yanıltıcı unsur yok.
2. Bağlam
Geçmiş trend, karşılaştırma referansı, mevsimsellik dahil.
3. Anlamlılık
İstatistiksel test sonuçları gösterilir. Rastgele dalgalanma ayrılır.
Özet: Grafik çizmek kolaydır. Ama doğru, anlamlı ve yanıltıcı olmayan görselleştirme yapmak veri bilimi uzmanlığı gerektirir. Excel herkesin elinde, ama doğru kullanımı herkes bilmez.
Uçtan Uca Veri Bilimi - Temelsiz Bina Olmaz
İlk Günden Mimari Şarttır
Veri mimarisi, binanın temeli gibidir. Yanlış atılırsa, üste ne inşa edilirse edilsin, yapı sağlam durmaz.
Özel sektörden bir örnek: Bir startup, müşteri verilerini Excel'de tutmaya başlar. 6 ay sonra 5000 müşteri, her şey yolunda. 18 ay sonra 80.000 müşteri, Excel açılmaz hale gelir. Acil CRM yazılımı alınır. Ama veriler birbirine karışık, tutarsız formatlar, mükerrer kayıtlar...
8 ay süren veri temizliği ve göç süreci. Bu sürede analitik kapasiteleri sıfır. Rekabet kaybı, müşteri kayıpları.
Veri bilimci baştan olsaydı: İlk günden doğru veritabanı yapısı, normalizasyon, veri validasyonu. Büyüme sorunsuz olurdu.
Gereksiz İş Döngüsü
Bir kamu kurumu, aylık rapor hazırlar. Her ay, birisi Excel'de manuel olarak tabloları birleştirir, grafikleri çizer. 2 gün sürer.
Veri bilimci gelir, pipeline kurar. Veriler otomatik akar, grafikler kendiliğinden güncellenir. 2 günlük iş, 5 dakikaya düşer.
Asıl Değer Başka Yerdedir
- • Artık geriye dönük analiz yapmak kolaydır
- • Trendler görülebilir
- • Anomaliler otomatik tespit edilir
- • Tahminsel modeller çalışır
Öncesi: Sadece "ne oldu" raporu
Sonrası: "Ne olacak, ne yapmalıyız" analitiği
Patinaj Döngüsünü Kırmak
Veri bilimci olmadan çalışan ekipler, genellikle şu döngüye girer:
Veri Bilimci Olmadan
- Veri topla (yanlış yapıda)
- Analiz dene
- "Bu verilerle olmaz" de
- Yeniden veri topla
- 1'e dön
Bu döngü, aylar, hatta yıllar sürebilir. Kümülatif ilerleme olmaz.
Veri Bilimci ile
- Sorunu tanımla
- Gerekli veriyi tasarla
- Doğru şekilde topla
- Analiz yap
- Karar desteği ver
- Sürekli izle ve iyileştir
Her adım bir sonraki için temel oluşturur. Kümülatif değer birikir.
İstatistiksel Anlamsızlık: Sayılar Yalan Söylediğinde
Yeterince Büyük mü, Yoksa Sadece Farklı mı?
Bir hastane, iki tedavi yöntemini karşılaştırır:
- Tedavi A: 100 hastadan 67'si iyileşti → %67
- Tedavi B: 100 hastadan 61'i iyileşti → %61
Yönetim: "Tedavi A daha iyi, ona geçelim."
Veri bilimci, istatistiksel test yapar (chi-square):
- p-value = 0.36
- %95 güven aralığı: [-6%, +18%]
Yorum: Gözlenen fark, rastgele dalgalanma olabilir. İstatistiksel olarak anlamlı değil. Daha büyük örneklem gerekli.
Ama hikaye daha derin: Veri bilimci, hasta profillerini inceler. Tedavi A grubunda daha genç hastalar var. Yaşa göre stratifikasyon yapınca gerçek tablo çıkar: Her yaş grubunda tedaviler eşit, sadece hasta dağılımı farklı.
Küçük Örneklem, Büyük İddialar
Bir firma, yeni bir özelliği test eder. 20 kullanıcıya gösterir, 18'i beğenir. "%90 beğeni oranı!" diye duyuru yapar.
Veri bilimci, güven aralığı hesaplar: [68% - 99%]. Yani gerçek oran %70 bile olabilir.
50.000 kullanıcıya açılır. Gerçek oran: %71. Beklenti karşılanmaz, hayal kırıklığı.
Öğreti: Küçük örneklemler, büyük belirsizlik taşır. Statistical power olmadan karar verilmez.
Sonuç - Veri Bilimci Bir Lüks Değil, Temeldir
İstatistik ve veri bilimi, teknik uzmanlık gerektiren profesyonel bir disiplindir. Sadece yazılım bilgisi veya "data analisti" unvanı yeterli değildir. Olasılık teorisi, hipotez testleri, regresyon analizi, örnekleme teknikleri, veri yapıları ve istatistiksel çıkarım gibi matematiksel temellerde uzmanlaşmış profesyoneller gerektirir.
Veri bilimi, sadece "modelleme" değildir. Algoritmalar, sadece buz dağının görünen kısmıdır. Asıl değer, sistematik düşünme ve bilimsel metodolojidedir. Bu teknik altyapı olmadan kurumlar, verilerini doğru değerlendiremez, yanıltıcı sonuçlar çıkarır ve stratejik kararlarını yanlış temeller üzerine kurar.
Veri Bilimci
- ✓ Doğru soruları sorar
- ✓ Veriyi baştan doğru tasarlar
- ✓ İstatistiksel anlamlılığı kontrol eder
- ✓ Yanıltıcı kalıpları ayıklar
- ✓ Patinaj döngülerini kırar
- ✓ Kümülatif değer üretir
Veri Bilimci Olmadan
- ✗ Veriler toplanır ama kullanılamaz
- ✗ Grafikler çizilir ama yanıltıcıdır
- ✗ Kararlar alınır ama yanlıştır
- ✗ Emek harcanır ama israf edilir
- ✗ Kirli veriler karar vericileri yanıltır
- ✗ Analitik değerlendirme eksik kalır
- ✗ Şeffaf veri bilimi kaosa dönüşür
- ✗ Uzun vadeli karşılaştırma imkansız olur
Veri Bilimci Olmadan Yaşanan Diğer Sorunlar
Veri Temizliği İhmal Edilir, Kirli Veriler Yönetimi Yanıltır
Bir firma, müşteri yaş verilerini toplar. Veri setinde "150 yaş", "-5 yaş", "999 yaş" gibi saçma değerler var. Veri bilimci olmadığı için kimse bunları görmez. Excel ortalamayı hesaplar: 42.7 yaş.
Gerçek: Kirli veriler ortalamayı bozmuş, aslında gerçek ortalama 34 yaş. Firma 40'lı yaşlara göre ürün tasarlıyor, ama asıl müşteri kitlesi 30'lu yaşlarda. Sonuç: Yanlış pazarlama, kayıp satışlar.
Az Örneklemde Uç Değer Manipülasyonu
Bir belediye, 10 kişilik vatandaş memnuniyet anketi yapar. 9 kişi "memnun değilim" (1 puan), 1 kişi "çok memnunum" (10 puan). Ortalama: 1.9 puan.
Manipülasyon: Biri "10 puan veren 1 kişiyi yok sayarsak, ortalama 1 olur, çok kötü görünür. Ama 1 puan verenlerin 3'ünü çıkarırsak ortalama 2.8'e yükselir" der. Hangi rakamı raporlayacaklarına göre insanları seçerek çıkarırlar.
Gerçek: 10 kişilik örneklem zaten istatistiksel olarak anlamsız. 1 kişinin etkisi aşırı büyük. Veri bilimci der: "Önce yeterli örneklem toplayın. Az örneklemde tek bir uç değer tüm sonucu değiştirir, bu yüzden nominal (kategori bazlı) verilerde özellikle tehlikelidir."
Veri Sistemleri Sürekli Değişir, Karşılaştırma Olanağı Bozulur
Bir kurum, her yıl personel performans verisi toplar. Ama her sene farklı bir yönetici farklı bir Excel şablonu kullanır. 2023'te "Mükemmel/İyi/Orta/Kötü" ölçeği var. 2024'te "1-10 puan sistemi" var. 2025'te "A-B-C-D-F harf notu" var.
Sonuç: "Son 3 yılda performans artış var mı?" sorusuna cevap verilemez. Veriler karşılaştırılamaz. Eğilimler görülmez. Stratejik kararlar havada kalır.
Veri bilimci olsaydı: İlk günden standart bir yapı kurardı. Veri şeması sabitlenirdi. Yıllar içinde tutarlı ölçümler alınırdı. Trendler net görülür, karşılaştırmalar anlamlı olurdu.
Gayet Şeffaf Olan Veri Bilimi Bir Kaos ve Gizeme Dönüşür
Veri bilimi doğru yapıldığında son derece şeffaftır. Her adım açıklanabilir, her analiz tekrar edilebilir, her karar gerekçelidir. Ama veri bilimci olmadığında:
Veri Bilimci Olmadan
- • "Bu rakamlar nereden geldi?" → Kimse bilmez
- • "Neden bu karar alındı?" → "Excel öyle dedi"
- • "Analizi tekrar edebilir miyiz?" → Hayır, Excel dosyası kayıp
- • "Hangi varsayımlar yapıldı?" → Hiçbir dokümantasyon yok
Veri bilimi bir sihir ve gizem haline gelir. Şeffaflık kaybolur.
Veri Bilimci ile
- ✓ Her analiz adımı kod olarak saklanır
- ✓ Varsayımlar açıkça yazılır
- ✓ Sonuçlar tekrar edilebilir
- ✓ Kararların gerekçesi net
Şeffaflık ve güven sağlanır. Herkes neyin nasıl yapıldığını anlar.
Analitik Değerlendirme Yapılamaz
İstatistikçi ya da veri bilimci olmadan kurumlarda genellikle sadece betimsel (descriptive) raporlar yapılır: "Geçen ay satışlar %12 arttı." Bu bir tespit. Ama analitik değerlendirme şunu sorar:
- • %12 artış anlamlı mı, yoksa rastgele dalgalanma mı?
- • Hangi ürün kategorileri artışı sağladı?
- • Hangi müşteri segmentleri büyüdü?
- • Mevsimsel bir etki mi var?
- • Gelecek ay ne beklemeliyiz?
Özet: Veri bilimci olmadan kurumlar sürekli "ne oldu" sorusuna cevap verir ama asıl önemlisi olan "neden oldu" ve "ne olacak" sorularına cevap veremez. Reaktif kalır, proaktif olamaz.
Son Bir Hikaye
İki firma aynı pazara girer. Birincisi veri bilimci istihdam eder, ilk 6 ayda sistem kurar. İkincisi "lüks" diye görmez, Excel'le devam eder.
18 ay sonra: Birincisi tahminsel analitikle %30 büyür, müşteri churn'unu %40 azaltır. İkincisi hala "geçen ay ne oldu" raporlarına bakar.
Birincisi, veri bilimciye ödediğinin 8 katı değer üretmiştir. İkincisi, veri bilimci olmamanın maliyetini ödemeye devam eder.
Soru şu değildir: "Veri bilimciye mi ihtiyacımız var?"
Soru şudur: "Veri bilimci olmadan kaç yıl daha patinaj yapmaya devam edebiliriz?"
Unutmayın
- En pahalı veri, kullanılamayan veridir.
- En büyük israf, yanlış temele harcanan zamandır.
- En tehlikeli karar, halüsinasyona dayanan karardır.
Veri bilimi, bu üç tuzaktan kaçınmanın tek yoludur.