3. veri madenciliğinde kullanılan programlar

advertisement
1. VERİ MADENCİLİĞİNE GİRİŞ
1.1 Veri Madenciliği Nedir?
Bilgisayar sistemleri, her geçen gün ucuzlaması ve güçlerinin giderek artması
nedeniyle yaşamın her alanına hızla girmektedir. İşlemcilerin hızlanması, disk
kapasitelerinin artması, bilgisayar ağlarındaki ilerleme sonucu her bir bilgisayarın başka
bilgisayarlardaki verilere ulaşması olanağı, bilgisayarların çok büyük miktardaki verileri
saklayabilmesine ve daha kısa sürede işleyebilmesine olanak sağlamaktadır.
Teknolojinin büyük hızla gelişmesi sonucu bu şekilde durmadan büyüyen ve
işlenmediği sürece değersiz gibi görünen veri yığınları oluşmaktadır. Bu veri yığınlarını,
içlerinde altın madenleri bulunan dağlara benzetmek mümkündür. Bu madenlere ulaşmak
için kullanılan yöntem ise,
temelinde istatistik uygulamaları
yatan “VERİ
MADENCİLİĞİDİR”.
Veri madenciliği en basit tanımı ile çok büyük miktardaki ham veriler içinden amaca
uygun modellerin ortaya çıkarılması işlemidir. Başka bir tabirle karmaşık ve düzensiz
veriler içindeki modellerin ortaya çıkarıp bunları karar verme ve eylem planını
gerçekleştirmek için kullanma sürecidir.
Veri içersindeki gizli bilgilerin açığa çıkarılması ve verinin karar destek tabanlı
bilgiye dönüştürülmesi süreci.
Verileri kaydetmek, yalnızca maden yataklarının yerlerini tespit etmektir. Bu
veriler operasyonel amaçlarla kullanılırsa (satış rakamları ile ilgili raporlar hazırlamak,
muhasebe işlemlerini yürütmek gibi) müşteri ilişkileri açısından bir çöp olmaktan ileriye
gidemezler. Veri çöplüğünden kurtulup değerli bir veri madenine sahip olmak için
elimizdeki bu bilgileri değerlendirmemiz şarttır.
Bir altın madeninde kazı yapacak olsanız, altını çıkarmak için ekonomik değeri
olmayan bir sürü madde içerisinden altını çıkartmanız, ve çıkardığınız bu altını işleyerek
ona değer katmanız gerecektir. Bir veri madeninde değerli bilgiler ararken de durum pek
farklı değil, gerekli bilgiyi çıkarıp, daha sonrasında da bu bilgiyi işlemek için stratejiler
uygulamazsak sonuca ulaşmamız mümkün değil
Veri madenciliği tanımlarda öne çıkan noktalar şunlardır:
Veri Madenciliği;
1- Büyük ve karmaşık verilerle çalışır.
2- Her türlü veriyi kullanarak çözümler üretebilir.
3- İstatistik, yapay zeka, makine öğrenmesi, Veri tabanlarında bilgi keşfi, bilgisayar
bilimi, yapı tanıma vb. gibi disiplinlerden faydalanır.
4- Daha önceden bilinmeyen, doğrulanabilir, etkinleştirilebilir enformasyon arar.
5- Otomatik veya yarı otomatik olarak çalışan çözüm araçları kullanır.
6- Birçok endüstride kullanılmaktadır.
7- Sorunlara göre değişen çözüm araçları vardır.
-1-
8- Hızla büyümekte olan bir sektördür.
1.2 Veri Madenciliğinin Tarihçesi
İnsanoğlu geçmişten bugüne her zaman verileri yorumlayıp bilgi edinmeye çalışmıştır ve
bunun için çeşitli donanımlar oluşturmuştur. Bu donanımlar bilginin taşınmasını
sağlamıştır. Zamanla her alanda bilgi toplanmaya başlanmış ve kronolojik olarak gelişimi
aşağıdaki çizelgede özetlenmiştir.
(Çizelge aldana 2000’den alınmıştır)
1.3 Veri madenciliğine neden ihtiyaç duyulmuştur?
Günümüzde bankacılık, sigorta ve borsa gibi birçok alandaki bütün bilgiler
bilgisayar sistemleri sayesinde çeşitli veri tabanlarına kaydedilmektedir. Bütün bunlara bir
de uydulardan elde edilen veriler katıldığından, ulaşılan veri hacminin inanılmaz boyutlara
vardığı açık bir gerçektir. Veri madenciliği,eldeki yapısız veriden,anlamlı ve kullanışlı
bilgiyi çıkarmaya yönelik çalışmalarının bütünü olmuştur.Sonuç olarak yıllar ilerledikçe
ortaya çıkan veri yığınlarına bir düzen verme,başka bir anlamda potansiyel olarak
kullanışlı bilgi haline getirme amacıyla Veri Madenciliği ortaya çıkmıştır.
1.4 Veri madenciliğinin kullanıldığı sahalar
Satış ve Pazarlama: Müşteri sınıflandırma, hedef müşteri belirleme
Bankacılık: Kredi onaylama
Sigortacılık: Poliçe onaylama
Borsa
Üretim ve planlama
Sistem yönetimi ve yardım masası
Eğitim
Taşımacılık-Ulaşım
Konaklama
-2-
1.5 Veri Madenciliğinin Faydaları
Veri madenciliği rekabetin oldukça güçlendiği piyasalarda, firmaların konumlarını
sağlamlaştırmak adına birtakım değerlerinin yönetilmesinde büyük rol oynamaktadır. Bu
değerlerin başında müşteri bilgileri gelmektedir.
Maddeler halinde veri madenciliğinin faydalarından bahsetmek gerekirse..
 Müşterilerin elde tutulmasına yardımcı olur.
 Müşteri profilinin ortaya çıkarılmasını sağlar, bu sayede müşteri davranışlarının
anlaşılmasını sağlar.
 Müşteri kazanımı için yapılan harcamaları düşürür.
 Yüksek kazanç getirecek müşterilerin hedeflenmesine yardımcı olur.


Yapılan araştırmalarda daha kolay yöntemler kullanılması ile yapılan harcamalar
minimize edilmiş olur. Araştırma maliyeti kullanılan istatistiksel yöntemlerle
hissedilir derecede düşürülür.
Sigortacılık, bankacılık ve telekomünikasyon alanlarında geçmiş veriler kullanılarak
sahtekarlık yapanlar için bir model oluşturma ve benzer davranışlar gösterenleri
belirleme konusunda veri madenciliğinin önemli rollerinin olduğunu söyleyebiliriz.
Örnek; Araba sigortası, sağlık sigortası, kredi kartı başvurusu yapanların geçmiş
alışkanlıklarının incelenerek başvurunun kabul edilmesi veya reddedilmesi gibi.
1.6 Veri Madenciliğindeki Problemler
Veri madenciliği girdi olarak ham veriyi sağlamak üzere veri tabanlarına dayanır.
Bu da veri tabanlarının dinamik, eksiksiz, yeterli sayıda ve net veri içermemesi
durumunda sorunlar doğurur. Sınıflandırmak gerekirse başlıca sorunlar şunlardır:



Sınırlı bilgi
Veri tabanı boyutu
Aykırı ve eksik veriler
 Sınırlı Bilgi: Veri tabanları genel olarak basit öğrenme işlerini sağlayan özellik veya
nitelikleri sunmak gibi amaçlar için hazırlanmışlardır. Bu yüzden, öğrenme görevini
kolaylaştıracak bazı özellikler bulunmayabilir. Örneğin, hasta veri tabanı kırmızı kan
hücreli hasta bilgilerini barındırmıyorsa hasta veri tabanından sıtma teşhisi
yapılamaz.
 Veri tabanı boyutu: Veri tabanı boyutları inanılmaz bir hızla artmaktadır. Veri tabanı
algoritması çok sayıda küçük örneklemi ele alabilecek biçimde geliştirilmiştir. Aynı
algoritmaların yüzlerce kat büyük örneklemlerde kullanılabilmesi için çok dikkat
gerekmektedir. Örneklemin büyük olması, tahminlerin doğruluğu açısından bir
avantaj olsa da dikkatsizlikten kaynaklanacak hatalar göz ardı edilemez.
 Aykırı veri: Veri girişi veya veri toplanması sırasında oluşan sistem dışı hatalara
gürültü adı verilir. Verilerde ne kadar çok gürültü varsa o derece güvenilir sonuçlara
ulaşmak zorlaşacaktır. Bu gürültüler geleceğe dair tahminlerin doğruluğunun
azalmasına neden olur. Gürültülü verilerden kurtulmak için yanlış, çok fazla ya da
çok küçük araştırmalara dair tutarsız bilgiler yerine anlamlı, özümsenmiş bilgiler
kullanılmalıdır. Gürültülü verilerin teşhis edilmesi amacıyla histogram, kümeleme
analizi ve regresyon kullanılır.
-3-

Eksik veri: Veri kümesinin büyüklüğünden ya da doğasından kaynaklanmaktadır.
Eksik veriler olduğunda yapılması gerekenler şunlardır:



Eksik veri içeren kayıt veya kayıtlar çıkarılabilir.
Değişkenin ortalaması eksik verilerin yerine kullanılabilir.
Var olan verilere dayalı olarak en uygun değer kullanılabilir.
Eksik veriler, yapılacak olan istatistiksel analizlerde önemli problemler
yaratmaktadır. Çünkü istatistiksel analizler ve bu analizlerin yapılmasına olanak veren
ilgili paket programlar, verilerin tümünün var olduğu durumlar için geliştirilmiştir. Bu
analizler, eksik veri içeren veri setlerine uygulandıklarında istatistiklerin geçerliliğini
düşürmektedir.
2. VERİ TABANINDA BİLGİ KEŞFİ SÜRECİ
2.1 Veri Tabanı Kavramı
Veri tabanında bilgi keşfi, verilerin doğru, faydalı ve anlaşılır modeller ve kalıplar
elde etmede kullanılan özel bir süreçtir.
Veri tabanı, sistematik erişim imkanı olan, yönetilebilir, güncellenebilir, taşınabilir,
birbirleri arasında tanımlı ilişkiler bulunabilen bilgiler kümesidir. Belirli bir amaca yönelik
düzen verilmiş kayıt ve dosyaların tümüdür.
Örneğin; Bilgisayarınızda düzenlenmiş arkadaş adresleri. Belirli bir sıraya göre
topladığınız mektuplarınız birer veri tabanıdır.
Veri tabanının genel özellikleri





Veritabanları, gerçek dünyanın belli bir açısını temsil eden daha küçük bir
dünyadır.
Veritabanı mantıksal çerçevede birbiriyle tutarlı bir veri topluluğudur. Bu
haliyle rasgele toplanmış yani belirli bir sıralama veya gruplama yapılmamış
bilgilere veritabanı demek doğru değildir.
Veritabanı önceden belirlenmiş bir amaca hizmet etmek üzere tasarlanır ve
yapılır.
Veritabanı, herhangi bir büyüklükte ve karmaşıklıkta olabilir.
Veritabanı elle veya bilgisayar ile oluşturulup idare edilebilir.
Veri tabanın faydaları









Herhangi bir evrak saklamaya gerek kalmaz.
Makineler bilgileri daha çabuk güncelleştirebilirler. Bu nedenle çok daha hızlı
olur.
Yalnızca istediğimiz bilgiye istediğimiz zaman ve istediğimiz gibi ulaşabiliriz.
Verilerin merkezi kontrolü sağlanır.
Veri tekrarı azalır.
Tutarsız (hatalı) bilgiler önlenir.
Verinin paylaşımı sağlanır.
Bütünlük sağlanır.
Genel veya özel raporlar alınabilir.
-4-
İyi bir veri tabanının özellikleri



Veriler hızlı ve kolay girilebilmeli.
Güvenli bir şekilde saklanmalı.
İstenildiği şekilde ve kolay sorgulanmalı.
Veri tabanlarında bilgi keşfi; verilerden
 Doğru
 Yeni
 Faydalı
 Anlaşılır
modeller ve kalıplar elde etmede kullanılan özel bir süreçtir.
Bu tanımdaki “özel bir süreç” ifadesinden de anlaşılacağı gibi Veri Tabanlarında
Bilgi Keşfi Süreci(VTBK), karmaşık bir işlemdir. “Model elde etmek” ile kastedilen ise,
verilere model uydurmak, verilerden yapı ortaya çıkarmak veya genel bir ifadeyle, veri
kümesine yüksek dereceli açıklama getirmektir
“Süreç” ise, VTBK’nin birçok adımdan ve çeşitli iterasyonlardan oluştuğunu
göstermektedir. Bilgi keşfinin belirli bir güven düzeyinde, yeni veriler için geçerli olması,
süreç sonunda elde edilen bilginin ise, iş konusunda çeşitli avantajlara olanak sağlayacak
şekilde faydalı ve anlaşılır olması gerekmektedir.
Problemin
tanımlanması
Verilerin
hazırlanması
Veri madenciliği
Modelin
kurulması ve
değerlendirilmesi
Modelin izlenmesi
Modelin kullanılması
Şekil 1
Veri madenciliği buradaki modelin kurulması ve modelin değerlendirilmesi
aşamalarından meydana gelmektedir.
Geleneksel sorgu veya raporlama araçlarının veri yığınları karşısında yetersiz kalması,
Veri Tabanlarında Bilgi Keşfi-VTBK adı altında, sürekli ve yeni arayışlara neden
olmaktadır. Şekil 1 de görülen VTBK süreci içerisinde, modelin kurulması ve
değerlendirilmesi aşamalarından meydana gelen Veri Madenciliği (Data Mining) en
önemli kesimi oluşturmaktadır.
-5-

Veri tabanlarında bilgi keşfi işlemleri, son yıllarda veri tabanına sahip
çevrelerde büyük ilgi toplamaktadır. Bunlara örnek olarak büyük marketler,
bankalar, sosyal güvenlik kuruluşları gösterilebilir. Bu tür büyük veri
tabanlarında amaç, bu büyük veri kümelerini analiz edip, faydalı kalıplara ve
bilgilere ulaşmaktır.
2.2 Veri tabanında bilgi keşfi sürecinin evreleri





Problemin tanımlanması
Verilerin Hazırlanması,
Modelin Kurulması ve Değerlendirilmesi,
Modelin Kullanılması,
Modelin İzlenmesi
2.2.1 Problemin Tanımlanması
Veri madenciliği çalışmalarında başarılı olmanın ilk şartı, uygulamanın işletmenin
hangi amacı için yapılacağının açık bir şekilde tanımlanmasıdır. İlgili işletmenin amacı
ve problemi üzerine odaklanılmış ve bunlar açık bir dille ifade edilmiş olmalı, elde
edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği tanımlanmalıdır. Ayrıca yanlış
tahminlerde katlanılacak olan maliyetlere ve doğru tahminlerde kazanılacak faydalara
ilişkin tahminlere de bu aşamada yer verilmelidir.
2.2.2 Verilerin Hazırlanması
Modelin kurulması aşamasında ortaya çıkacak sorunlar, bu aşamaya sık sık geri
dönülmesine ve verilerin yeniden düzenlenmesine neden olacaktır. Bu durum verilerin
hazırlanması ve modelin kurulması aşamaları için, bir analistin veri keşfi sürecinin toplamı
içerisinde enerji ve zamanının % 50 - % 85’ini harcamasına neden olmaktadır.
Verilerin hazırlanması aşaması şu aşamalardan meydana gelmektedir;





Toplama,
Değer biçme,
Birleştirme ve temizleme,
Örneklem seçimi,
Dönüştürme,
a) Toplama
Tanımlanan problem için gerekli olduğu düşünülen verilerin ve bu verilerin
toplanacağı veri kaynaklarının belirlenmesi adımıdır.
Verilerin
toplanmasında
kuruluşun kendi veri kaynaklarının dışında, nüfus sayımı, hava durumu, merkez
bankası kara listesi gibi veri tabanlarından veya veri pazarlayan kuruluşların veri
tabanlarından faydalanılabilir.
b) Değer Biçme
Veri madenciliğinde kullanılacak verilerin farklı kaynaklardan toplanması, doğal olarak
veri uyumsuzluklarına neden olacaktır.
-6-
Bu uyumsuzluklardan başlıcaları ;



Farklı zamanlara ait olmaları,
Kodlama farklılıkları (örneğin bir veri tabanında cinsiyet özelliğinin e/k, diğer
bir veri tabanında 0/1 olarak kodlanması),
Farklı ölçü birimleridir.
Ayrıca verilerin nasıl, nerede ve hangi koşullar altında toplandığı da önem
taşımaktadır.
Bu nedenlerle, iyi sonuç alınacak modeller ancak iyi verilerin üzerine
kurulabileceği için, toplanan verilerin ne ölçüde uyumlu oldukları bu adımda incelenerek
değerlendirilmelidir.
c) Birleştirme ve Temizleme
Bu adımda farklı kaynaklardan toplanan verilerde bulunan ve bir önceki adımda
belirlenen sorunlar mümkün olduğu ölçüde giderilerek veriler tek bir veri tabanında
toplanır. Ancak basit yöntemlerle ve baştan savma olarak yapılacak sorun giderme
işlemlerinin,
ileriki
aşamalarda
daha
büyük
sorunların
kaynağı
olacağı
unutulmamalıdır.
d) Örneklem Seçimi
Bu adımda kurulacak modele bağlı olarak veri seçimi yapılır. Örneğin tahmin edici bir
model için, bu adım bağımlı ve bağımsız değişkenlerin ve modelin eğitiminde kullanılacak
veri kümesinin seçilmesi anlamını taşımaktadır. Sıra numarası kimlik numarası gibi
anlamlı olmayan değişkenler çıkarılmalıdır. Yanlış veri girişinden veya bir kereye özgü
olaylardan oluşan veri kümeleri çıkarılır. Modelde kullanılan veri tabanı çok büyük ise
uygun bir örnekleme yöntemi kullanılır.
e)Dönüştürme
Veriler arasında dönüşüm yapılır.
Örneğin; Kredi riskinin tahmini için geliştirilen bir modelde, borç/gelir gibi önceden
hesaplanmış bir oran yerine, ayrı ayrı borç ve gelir verilerinin kullanılması tercih edilebilir.
Ayrıca modelde kullanılan algoritma, verilerin gösteriminde önemli rol oynayacaktır.
Örneğin bir uygulamada bir yapay sinir ağı algoritmasının kullanılması durumunda
kategorik değişken değerlerinin evet/hayır olması; bir karar ağacı algoritmasının
kullanılması durumunda ise örneğin gelir değişken değerlerinin yüksek/orta/düşük olarak
gruplanmış olması modelin etkinliğini artıracaktır.
2.2.3 Modelin Kurulması ve Değerlendirilmesi
Tanımlanan problem için en uygun modelin bulunabilmesi, olabildiğince çok sayıda
modelin kurularak denenmesi ile mümkündür. Bu nedenle veri hazırlama ve model kurma
aşamaları, en iyi olduğu düşünülen modele varılıncaya kadar yinelenen bir süreçtir.
Veri madenciliği modelleri


Sınıflama (Classification) ve Regresyon (Regression),
Kümeleme (Clustering),
-7-

Birliktelik Kuralları (Association
(Sequential Patterns),
Rules)
ve
Ardışık
Zamanlı
Örüntüler
2.2.4 Modelin Kullanılması
Kurulan ve geçerliliği kabul edilen model doğrudan bir uygulama olabileceği gibi, bir
başka uygulamanın alt parçası olarak kullanılabilir. Kurulan modeller risk analizi, kredi
değerlendirme,
dolandırıcılık
tespiti
gibi
işletme
uygulamalarında
doğrudan
kullanılabileceği gibi, promosyon planlaması çalışmasına eklenebilir veya tahmin edilen
üretim düzeyleri yeniden sipariş miktarının altına düştüğünde, otomatik olarak sipariş
verilmesini sağlayacak bir uygulamanın içine eklenebilir.
2.2.5 Modelin İzlenmesi
Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde
ortaya çıkan değişiklikler, kurulan modellerin sürekli olarak izlenmesini ve gerekiyorsa
yeniden düzenlenmesini gerektirecektir. Tahmin edilen ve gözlenen değişkenler
arasındaki farklılığı gösteren grafikler model sonuçlarının izlenmesinde kullanılan yararlı
bir yöntemdir.
3. VERİ MADENCİLİĞİNDE KULLANILAN PROGRAMLAR


SPSS
 CLEMENTİNE
SAS
 ENTERPRİSE MİNER
Günümüzde en çok kullanılan veri madenciliği programlarının başında büyük çapta
istatistik programları olan SAS ve SPSS gelmektedir.
SPSS
Merkezi Chicago’da bulunan SPSS 1967 yılından bu yana verilerdeki gizli bilgileri
keşfetme ve stratejik karar desteği sağlama yönünde ileri analitik çözümler sunmaktadır.
SPSS’in veri madenciliği metadolojisi olarak kabul ettiği CRISP DM (cross ındustry
standart processing for data mining) %50’nin üzerinde bir kullanıma sahiptir. Internet
kayıtlarına ve elde edilen verilere gelişmiş veri madenciliği teknikleri uygulayarak,
kullanıcılar ile birebir ilişki kurmayı sağlayacak öngörüler elde edilebilir. Bu aşamada
SPSS çözümlerine, teknolojilerine ve danışmanlığına başvurarak, güvenilir sonuçlar elde
etme yolunda bir adım atmış oluruz. SPSS veri madenciliği çalışmalarına kendi yeteneğini
ve tecrübesini getirerek, öğrenme süresini azaltacak, çalışmalara en hızlı şekilde
başlamamızı sağlayacaktır.
ÖRNEK 1: Hollanda’da bulunan IGNATIUS Hastanesi ise tedavi sürelerinin ve belirli
bir sürede tedavi ihtiyacı olan kişi sayısının ve her bir hasta için tedavi süresinin tahmin
edilmesi yönünde uygulamalar geliştirmiş ve yaptığı analizler sonucunda elde ettiği bilgi
ile hastane kadro ve kaynak ihtiyaçlarının doğru belirlenmesini sağlamış ve geçmiş hasta
verilerinden elde ettiği bilgi ile kalp hastalıklarında bypass ameliyatlarının riskini
minimuma indirmeyi başarmıştır.
-8-
ÖRNEK 2:HSBC Amerika, SPSS veri madenciliği çözümleri ile yaptığı çalışmada
müşteri ihtiyaçlarını ve davranışlarını tespit etmiş ve doğru müşteriye doğru önerilerle
giderek pazarlama maliyetlerinde %30’luk bir azalma sağlarken, satışlarını %50
artırmıştır. Edinilen deneyim ve başarı ile öğrenen bir organizasyon olma ve bilgiye dayalı
yeni bir çalışma stratejisi benimsemiştir. Banco Espírito Santo (BES) SPSS’ in veri
madenciliği çözümleri sayesinde, kendisi ile çalışmayı bırakmaya meyilli müşteri profilini
tanımlayabilmiştir. Stratejik planlama ekibi, bu müşteri profilini canlı tutan, kaybetmeden
önce geri kazanmaya ve müşteriyi memnun etmeye yönelik modeller geliştirmiştir. Sonuç
olarak, müşterinin hareketlerinden fayda yaratma kabiliyeti edinerek, müşteri kaybını
%15-20 azaltmış, karlılıklarını %10-20 arttırmışlardır.
CLEMENTİNE
SPSS veri madenciliği çözümü, CLEMENTİNE istatistik ve yapay zeka kökenli
algoritmaları bir arada sunan, veri ambarlarına yaptığınız yatırımların geri dönüşü
noktasında kritik bir çözümdür. CLEMENTİNE, uygulama kolaylıkları, açık yapısı ve açık
metadolojisi ile ülkemizde ve dünyada veri madenciliği uygulamalarında tercih edilirliği en
yüksek olan çözümdür.
ÖRNEK 3: Amerika’nın en büyük kablosuz iletişim sağlayıcısı olan VERİZON
kaybetme olasılığı yüksek olan müşterilerini ve müşteri kaybına neden olan faktörleri
belirleme amaçlı bir Veri Madenciliği çalışması yapmıştır. 28 milyon müşterisi olan
VERİZON’un en büyük sorunu müşterilerinin %40’nın aylık konuşma sürelerinin düşük
olması ve müşteri başına elde edilen aylık gelirin 50$ dan az olmasıdır. Şirket bünyesinde
toplanan verilerden faturalama sistem kayıtları, müşterilerin arama ve konuşma detay
kayıtları, uygulanan fiyat planı verileri kullanılmıştır.
SPSS CLEMENTİNE ile gerçekleştirilen çalışma sonucunda verideki gizli bilgiler açığa
çıkarılmış, müşteriler davranışlarına göre gruplandırılmıştır. Belli kanallarda müşteri
kaybının daha fazla olduğu görülmüş, az kullanım, kontrat tarihinin bitmiş olması,
kullanılan cep telefonunun eski model olması önemli etkenler olarak belirlenmiştir. İlk
çalışmada verilerin modellenmesi, modeller baz alınarak bir strateji belirlenmesi ve
kampanya oluşturulması, elde edilen veriler ışığında modellerin güncellenmesi ve yeni
stratejiler oluşturulması şeklinde 6 aylık bir süreç yaşanmıştır. İlk aşamada dahi edinilen
kazanımlar, müşteri kaybını engelleme, pazarlama maliyetlerini azaltma, müşteri
karlılığını artırma olarak bakıldığında yapılan yatırımın geri dönüşümü sağlanmıştır.
SAS (Statistical Analysis Software)
SAS’ın dünya çapında 112 ülkede 44000’i aşkın kullanıcısı bulunmaktadır. En son
versiyonu 9.1.3 2007 yılının son aylarında piyasaya sunulmuştur. Kullanımı SPSS
programına göre biraz daha zordur. SAS programında komut yazmak gerekir. Veriler
üzerinde gerekli istatistik tekniklerini kullanarak tahmini sonuçlar verir. SAS Araştırma,
Kamu ,Perakende, Sigorta, Bankacılık, Medya, Eğitim ve Telekomünikasyon sektörlerinde
kullanılmaktadır.
ÖRNEK 4: Fiyat endekslerinin hesaplanması, işgücü ve istihdam endeksleri, hane halkı
bütçe anketleri, gelir dağılımı, yoksulluk çalışmaları, dış ticaret istatistikleri gibi birçok
çalışmada SAS çözümlerinden yaralanan TÜİK ‘2003 yılı Hane Halkı Bütçe Anketi’
çalışmasını bu sistem aracılığıyla tamamlamıştır.
-9-
Enterprise miner
Şirketlerin çok büyük veri yığınlarından kritik bilgileri elde etmelerini sağlayan Veri
Madenciliği çözümlerinde dünyada önemli bir yere sahip olan SAS, veri üzerinde değil,
bilgi üzerinde düşünme ve strateji geliştirme avantajını bir adım öteye taşıyarak SAS
Enterprise Miner 5.1’ i geliştirmiştir. Regresyon, sınıflama, istatistiksel analiz gibi
fonksiyonları içerir. İstatistiksel analiz araçlarının çeşitliliği en önemli özelliğidir.
ÖRNEK 5: Garanti Bankası müşterilerine sunduğu hizmetleri daha iyi bir noktaya
taşımak amacıyla SAS’ın veri madenciliği ürününü tercih etmiştir. Müşterilerin finansal
davranış modelleri ile ilgili detaylı bilgi elde etmeyi hedefleyen Garanti, böylelikle daha
etkin müşteri ilişkileri yönetimi çalışmaları yapabilecektir.
4. VERİ MADENCİLİĞİ MODELLERİ
Veri madenciliğinde kullanılan modeller, tahmin edici ve tanımlayıcı olmak üzere iki
ana başlık altında incelenmektedir.
4.1. Tahmin edici modeller:
Sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve kurulan bu
modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç değerlerin tahmin
edilmesi amaçlanmaktadır. Tahmin edici modeller sınıflama ve regresyon yöntemleridir.
4.1.1 Sınıflama ve Regresyon Modelleri:
Mevcut verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan ve veri
madenciliği teknikleri içerisinde en yaygın kullanıma sahip olan sınıflama ve regresyon
modelleri arasındaki temel fark, tahmin edilen bağımlı değişkenin kategorik veya
süreklilik gösteren bir değere sahip olmasıdır. Ancak çok terimli lojistik regresyon
(multinomial logistic regression) gibi kategorik değerlerin de tahmin edilmesine olanak
sağlayan teknik00000000000lerle, her iki model giderek birbirine yaklaşmakta ve bunun
bir sonucu olarak aynı tekniklerden yararlanılması mümkün olmaktadır.
Sınıflama ve regresyon modellerinde kullanılan başlıca teknikler;
◊
◊
◊
◊
◊
Karar Ağaçları,
Yapay Sinir Ağları,
Naive Bayes,
Bulanık Mantık,
Bellek Temelli Nedenleme
Karar Ağaçları
Karar ağaçları veri madenciliğinde en sık kullanılan yöntemlerin başında
gelmektedir. Bunun başlıca sebepleri ucuz olması, yorumlamalarının oldukça kolay olması
ve veritabanı sistemleri ile entegre edilebilmeleridir. Karar ağaçları düğümler ve dallardan
oluşan, anlaşılması oldukça kolay olan bir tekniktir. Karar ağacında bulunan her bir dalın
belirli bir olasılığı mevcuttur. Bu sayede son dallardan köke veya istediğimiz yere ulaşana
dek olasılıkları hesaplamamız mümkündür.
- 10 -
Karar ağaçları ile ilgili bir örnek verecek olursak; Siz bir şirket yöneticisisiniz ve
elinizde şirkete dair yüklü bir miktar para var. Bu parayı sizden en yüksek getiriyi
sağlayacak şekilde faiz veya senet alarak değerlendirmeniz isteniyor. İsterseniz bir
danışmandan yardım alabilir isterseniz kendiniz karar verebilirsiniz. Olasılıkları çıkartacak
olursak; ilk olarak danışmana başvuralım. Danışman size senet al veya faize yatır
seçeneklerini sunacaktır. Bu seçeneklerde kendi aralarında başarılı veya başarısız olarak
ikiye ayrılacaktır. İlk etapta finans ile ilgili yeterli bilgiye sahip olmadığımız düşünülerek
danışmana başvurmak mantıklı gelecektir. Ama bu seçenek sonucunda danışmana da bir
miktar ödeme yapmamız gerekecektir. Diğer yandan danışmanlık hizmeti almazsınız ve
kendiniz karar verirsiniz. Hisse senedi karlı olacak (karlı olmasına karşın faize yatır veya
senet al) veya hisse senedi zararlı olacaktır. Bahsettiğimiz bu olayların karar ağacı
aşağıdaki şekilde olacaktır.
Yapay Sinir Ağları
Yapay sinir ağları(YSA) insan beyninin sinir sistemine ve çalışma prensibine
dayanan elektriksel bir modeldir. Bir anlamda insan beyninin ufak bir kopyası gibidir.
İnsan beyninin öğrenme yoluyla yeni bilgiler üretebilme, keşfedebilme, düşünme ve
gözlemlemeye yönelik yeteneklerini, yardım almadan yapabilen sistemler geliştirmek için
tasarlanmışlardır. Yapay Sinir ağı ile hesaplamalarda istenilen dönüşüm için, adım adım
yürütülen bir yöntem gerekmez. Sinir ağı ilişkilendirmeyi yapan iç kuralları kendi üretir ve
bu kuralları, bunların sonuçlarını örneklerle karşılaştırarak düzenler.Deneme ve yanılma
- 11 -
ile , ağ kendi kendine işi nasıl yapması gerektiğini öğretir.YSA'larda bilgi saklama,verilen
eğitim özelliğini kullanarak eğitim örnekleri ile yapılır.Sinirsel hesaplama, algoritmik
programlamaya bir seçenek oluşturan,temel olarak yeni ve farklı bir bilgi işleme olayıdır.
Uygulama imkanının olduğu her yerde, tamamen yeni bilgi işleme yetenekleri
geliştirebilir. Bu sayede de geliştirme harcamaları ile geliştirme süresi büyük ölçüde
azalır.
Bir yapay sinir ağı belirli bir amaç için oluşturulur ve insanlar gibi örnekler
sayesinde öğrenir. Yapay sinir ağları tekrarlanan girdiler sayesinde kendi yapısını ve
ağırlığını değiştirir. Yapay sinir ağları aynen canlıların sinir sistemi gibi adapte olabilen bir
yapıya sahiptir.
Naive Bayes;
Naive Bayes algoritmasında her kriterin sonuca olan etkilerinin olasılık olarak
hesaplanması temeline dayanmaktadır.
ÖRNEK 6: Elimizde tenis maçının oynanıp oynanmamasına dair bir bilgi olduğunu
düşünelim. Ancak bu bilgiye göre tenis maçının oynanması veya oynanmaması durumu
kaydedilirken o anki hava durumu, sıcaklık, nem ve rüzgar durumu bilgileri de alınmış
olsun. Biz bu bilgileri değerlendirdiğimizde varsayılan tahmin yöntemleri ile hava bugün
rüzgarlı tenis maçı bugün oynanmaz şeklinde kararları farkında olmasak da veririz. Ancak
veri madenciliği bu kararların tüm kriterlerin etkisi ile verildiği bir yaklaşımdır. Dolayısıyla
biz ileride öğrettiğimiz sisteme bugün hava güneşli, sıcak, nemli ve rüzgar yok şeklinde
bir bilgiyi verdiğimizde sistem eğitildiği daha önce gerçekleşmiş istatistiklerden
faydalanarak tenis maçının oynanma ve oynanmama ihtimalini hesaplar ve bize tahminini
bildirir.
ÖRNEK 7: Sağlık sektöründe bir kişinin tahlil sonuçlarının değerlendirilerek bir hastalığa
yakalanmış olup olmama olasılığının değerlendirilmesinde de sıkça kullanılmaktadır.
Bulanık Mantık;
Belirsizliklerin anlatımı ve belirsizliklerle çalışılabilmesi için kurulmuş katı bir
matematik düzen olarak tanımlanabilir. Bilindiği gibi istatistikte ve olasılık kuramında,
belirsizliklerle değil kesinliklerle çalışılır ama insanın yaşadığı ortam daha çok
belirsizliklerle doludur. Bu yüzden insanoğlunun sonuç çıkarabilme yeteneğini
anlayabilmek için belirsizliklerle çalışmak gereklidir. Bulanık mantığın uygulama alanları
çok geniştir. Sağladığı en büyük fayda ise "insana özgü tecrübe ile öğrenme" olayının
kolayca modellenebilmesi ve belirsiz kavramların bile matematiksel olarak ifade
edilebilmesine olanak tanımasıdır. Bu nedenle lineer olmayan sistemlere yaklaşım
yapabilmek için özellikle uygundur. Bulanık mantık konusunda yapılan araştırmalar
Japonya'da oldukça fazladır. Özellikle fuzzy process controller olarak isimlendirilen özel
amaçlı bulanık mantık mikroişlemci çipi' nin üretilmesine çalışılmaktadır. Bu teknoloji
fotoğraf makineleri, çamaşır makineleri, klimalar ve otomatik iletim hatları gibi
uygulamalarda kullanılmaktadır. Bundan başka uzay araştırmaları ve havacılık
endüstrisinde de kullanılmaktadır. TAI'de araştırma gelişme kısmında bulanık mantık
konusunda çalışmalar yapılmaktadır.
Bellek Tabanlı Yöntemler;
Bellek tabanlı veya örnek tabanlı bu yöntemler istatistikte 1950’li yıllarda önerilmiş
olmasına rağmen o yıllarda gerektirdiği hesaplama ve bellek yüzünden kullanılamamış
ama günümüzde bilgisayarların ucuzlaması ve kapasitelerinin artmasıyla, özellikle de çok
- 12 -
işlemcili sistemlerin yaygınlaşmasıyla, kullanılabilir olmuştur. Bu yönteme en iyi örnek en
yakın k komşu algoritmasıdır. En yakın komşu yaklaşımı, x noktasının sınıfını, x noktasına
en yakın olan noktanın sınıfı olarak belirleme yaklaşımıdır. Sınıfı belirlenen nokta ile
komşu nokta aynı sınıfa ait değiller ise hata söz konusudur. Bu yaklaşım sadece en yakın
komşu ile sınıflandırma yapar, önceden sınıflandırılmış diğer noktaları önemsemez.
4.2 Tanımlayıcı modeller
Tanımlayıcı modellerde; ise karar vermeye rehberlik etmede kullanılabilecek mevcut
verilerdeki örüntülerin tanımlanması sağlanmaktadır. Tanımlayıcı modeller kümeleme ve
birliktelik kurallarıdır.
4.2.1 Kümeleme Yöntemi
Nesneleri benzerleriyle gruplama sürecine kümeleme denir. “Kümeleme analizi,
temel amacı nesneleri (birim) sahip oldukları karakteristik özellikleri baz alarak
gruplamak olan çok değişkenli teknikler grubudur” (Hair vd,1995). Elimizdeki veriler
yardımıyla analiz yaparken, verimli ve güvenilir analiz yapma açısından kümeleme analizi
oldukça büyük bir önem taşımaktadır. Örneğin Türkiye’deki şehirlerin profilini çıkarmak
üzere bir araştırma yapıyorsunuz. Tarıma dayalı bir gelir sistemi olan bir şehri, geliri
sanayiye dayalı olan şehirlerle kıyaslamak ne kadar güvenilir sonuçlar verir tartışılır. Aynı
şekilde nüfusu milyonlarla ölçülen şehirleri nüfusu yüz binler olan şehirlerle kıyaslamakta
yanlıştır. Belirlediğimiz kriterlere göre benzer özellik gösteren şehirler bir gruba toplanır
ve kendi aralarında analiz yapılır. Söz gelimi Hakkari’ yi Ankara ile kıyaslamak yerine
profili benzer olabilecek Siirt, Batman, Muş vb. şehirlerle kıyaslamak çok daha güvenilir
sonuçlar elde etmemizi sağlayacaktır.
- 13 -
Kümeler oluşturulurken, kümenin içinde yer alan nesneler arası benzerliği en
büyük, kümeler arası benzerliği ise en küçük olacak şekilde yapmamız gerekir. Benzer bir
ifade ile kümeleme analizinin amacı, var olan verileri içsel olarak homojen, kümeler arası
heterojen olarak ayırmaktır. Kümeleme analizi genellikle market araştırmaları, gen
araştırmaları gibi konularda sıklıkla kullanılır. Bu veriler arasında nitelik bakımından ilginç
korelasyonlar(ilişkiler, benzerlikler) elde edebiliriz. Örneğin tıp alanında benzer özelliklere
sahip genleri aynı küme içine alabiliriz.
Literatürde pek çok kümeleme algoritması bulunmaktadır. Kullanılacak olan
kümeleme algoritmasının seçimi, veri tipine ve amaca bağlıdır.
En iyi bilinen ve en çok kullanılan kümeleme yöntemi, bölme yöntemidir.
Bölme Yöntemi:
Bölme yöntemlerinde, n veri tabanındaki nesne sayısı ve k oluşturulacak küme
sayısı olarak kabul edilir. Bölme algoritması n adet nesneyi, k adet kümeye böler (k n) .
Kümeler tarafsız bölme kriteri olarak nitelendirilen bir kritere uygun oluşturulduğu için
aynı kümedeki nesneler birbirlerine benzerken, farklı kümedeki nesnelerden farklıdırlar.
Bölme yöntemlerinde kullanılan en yaygın metot ise k-means yöntemidir.
K-means yöntemi,
İlk önce n adet nesneden rasgele k adet nesne seçer ve bu nesnelerin her biri, bir
kümenin merkezini veya orta noktasını temsil eder. Geriye kalan nesnelerden her biri
kendisine en yakın olan küme merkezine göre kümelere dağılırlar. Yani bir nesne hangi
kümenin merkezine daha yakın ise o kümeye yerleşir.
Ardından her küme için ortalama hesaplanır ve hesaplanan bu değer o kümenin
yeni merkezi olur. Bu işlem tüm nesneler kümelere yerleşinceye kadar devam eder.
- 14 -
Söylenenleri şekille pekiştirelim;
4.2.2 Birliktelik Kuralı
Birliktelik kuralları, büyük veri kümeleri arasında birliktelik ilişkileri bulurlar.
Toplanan ve depolanan verinin her geçen gün gittikçe büyümesi yüzünden, şirketler
veritabanlarındaki birliktelik kurallarını ortaya çıkarmak istemektedirler. Büyük
miktardaki mesleki işlem kayıtlarından ilginç birliktelik ilişkilerini keşfetmek, şirketlerin
karar alma işlemlerini daha verimli hale getirmektedir.
Birliktelik kurallarının kullanıldığı en tipik örnek market sepeti uygulamasıdır. Bu
işlem, müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri bularak
müşterilerin satın alma alışkanlıklarını analiz eder. Bu tip birlikteliklerin keşfedilmesi,
müşterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarır ve market yöneticileri
de bu bilgi ışığında daha etki satış stratejileri geliştirebilirler.
Örneğin bir müşteri süt satın alıyorsa, aynı alışverişte sütün yanında ekmek alma
olasılığı nedir? Bu tip bir bilgi ışığında rafları düzenleyen market yöneticileri ürünlerindeki
satış oranını arttırabilirler. Örneğin bir marketin müşterilerinin süt ile birlikte ekmek satın
alan oranı yüksekse, market yöneticileri süt ile ekmek raflarını yan yana koyarak ekmek
satışlarını arttırabilirler.
Örneğin; bir A ürününü satın alan müşteriler aynı zamanda B ürününü da satın
alıyorlarsa, bu durum Birliktelik Kuralı ile gösterilir.
5
VERİ MADENCİLİĞİNDEKİ ÖNEMLİ UYGULAMALAR
Yaygın olarak kullanılan iki önemli veri madenciliği uygulaması;
1)Sepet Analizi ve Birliktelik Kuralları
2) Kredi Skor Hesabı
- 15 -
5.1 Sepet Analizi ve Birliktelik Kuralları
Süpermarketlerde ve perakende sektöründeki alışveriş hareketleri boyunca
müşterilerin aldığı mallara ilişkin çok büyük miktarda veri toplanmaktadır. Bu toplanan
veri doğrultusunda müşteri hareketlerine ilişkin veritabanlarına uygulanan birliktelik
kuralları sonucunda alışveriş yapan müşterilere ait bilgiler gün ışığına çıkarılabilmektedir.
Bu bilgiler hangi müşterinin hangi ürünleri aldığı, hangi ürünleri birlikte tercih ettiği gibi
sonuçları içermektedir.
Birliktelik kuralları geçmiş tarihli hareketleri analiz etmek için karar destek
sistemlerinde stratejik karar verme aşamasında örüntüleri ve ilişkileri bulmada, verilen
kararların kalitesini arttırmada izlenen bir yaklaşımdır. Birliktelik kuralları eş zamanlı
olarak gerçekleşen ilişkilerin tanımlanmasında kullanılır. Birliktelik kurallarının
amacı, kullanıcı tarafından belirlenen minimum olasılık ve koşullu olasılık değerlerini
sağlayan kuralların bulunmasıdır. Keşfedilen örüntüler örneklemde sıklıkla birlikte geçen
nitelik değerleri arasındaki ilişkiyi gösterir.
Birliktelik kuralıyla ilgili;



Şampuan ve saç kremi satın alınan satış hareketlerinin %20’sinde saç jölesi de
satın alınmıştır.
Büyük bir süpermarketin en basit fatura kayıtları incelendiğinde, tıraş bıçağı alan
müşterilerin %56 sının kalem pil de aldığı ortaya çıkmıştır. Buna dayanarak firma,
tıraş bıçağı ve kalem pil reyonlarını bir araya getirmek suretiyle kalem pil
satışlarını %14 arttırmıştır. Ürünler ve satışları arasındaki bu ilişkilerin
belirlenmesiyle, satış stratejileri değiştirilip kazancın artırılması mümkündür.
Merkezi Adana’da olan Groseri marketin Mersin Pozcu şubesine ait 2 Ocak 2006 ve
9 Ocak 2006 arasında yer alan 8 günlük veriler kullanılmıştır. Bu 8 günlük
hareketin sonucunda 8687 fiş hareketi toplanmıştır. Elde edilen verilere göre:

- Zeytin alan müşterilerin %70,11 inin peynir aldığı,
- Yeşillik alan müşterilerin %59,56 sının sebze de aldığı,
- Zeytin ve sütü birlikte alan müşterilerin %77,83 ü peynirde almıştır.

Gazetelerde en çok okunan sayfalara göre reklam dağılımının yapılması gibi
örnekler verilebilir.
Birliktelik kurallarının çıkarımı;
a)Katalog tasarımı,
b)Müşterilerin satın alma alışkanlıklarına göre ürünlerin sınıflandırılması,
c)Mağaza ürün yerleşim planı gibi pek çok uygulama alanında kullanılabilir. Buna örnek
olarak bir süpermarketin yerleşim planı verilebilir;
- 16 -
Süpermarketlerin giriş kısmındaki alanlar ve ileriye doğru ilerleyen koridorlar
cironun yüksek elde edildiği yerlerdendir. Çünkü algıda seçicilik ilk girişte başlamaktadır
ve bu süpermarketlerin değerli kısmı olarak nitelendirilir. Buna göre yeni yerleşim düzeni
giriş ve sağdan başlamalı, en fazla ciro yapabilecek ve sepet analizine göre ilişkili ürünler
yerleştirilmelidir. Bu yolla müşteri tatmini ve karlılık açısından optimum noktaya
ulaşılabilinir.
Birliktelik kuralları analizi problemi ilk olarak Agrawal, Imielinski ve Swami
tarafından 1993 yılında ele alınmıştır. Yorumlar bulunan olasılık ve koşullu olasılık
değerleri üzerinden yapılmıştır.
Birliktelik kurallarının kullanıldığı en tipik örnek ise sepet analizi uygulamasıdır.
Bu işlem, müşterilerin yaptıkları alışverişlerdeki ürünler(nesneler) arasındaki birliktelikleri
bularak müşterilerin satın alma alışkanlıklarını çözümler. Bu tip birlikteliklerin
keşfedilmesi, müşterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarır ve
market yöneticileri de bu bilgi ışığında raf düzenlerini belirleyerek, ürün paketlerini
hazırlayarak satış oranlarını artırabilir ve etkili satış stratejileri geliştirebilirler.
Sepet analizinde (basket analysis) müşterilerin beraber satın aldığı malların
analizi yapılır. Buradaki amaç mallar arasındaki pozitif veya negatif korelasyonları
bulmaktır. Örneğin çocuk bezi alan müşterilerin %30 u bira da satın alır. Burada, çocuk
bezi alan müşterilerin mama da satın alacağını veya bira satın alanların cips de alacağını
tahmin edebiliriz ama ancak otomatik bir analiz bütün olasılıkları göz önüne alır ve kolay
düşünülemeyecek, örneğin çocuk bezi ve bira arasındaki bağıntıları da bulur.(Hafta
sonunu evde geçireceğini düşünen baba çocuğu için çocuk bezi, kendisi içinde bira satın
alır.)
Bir alışveriş sırasında veya birbirini izleyen alışverişlerde müşterinin hangi mal
veya hizmetleri satın almaya eğilimli olduğunun belirlenmesi, müşteriye daha fazla
ürünün satılmasını sağlama yollarından biridir. Örneğin; internet üzerinden kitap satan
Amazon şirketi (http://www.amazon.com) BookMatcher adlı programıyla müşterilerine
okudukları ve sevdikleri kitaplara göre satın almaları için kitap tavsiye etmektedir.
Sepet analizinde mallar arasındaki bağıntı 2 farklı yöntemle hesaplanır:
 Olasılık ve Koşullu Olasılık Değerleri
 Korelasyon ve Kovaryans
5.1.1 Olasılık ve Koşullu Olasılık Değerleri
Elimizdeki veride mallar için sadece satın alındı/alınmadı bilgisi varsa olasılık ve
koşullu olasılık değerlerine bakılır. Olasılık değeri, veride bağıntının ne kadar sık
olduğunu, koşullu olasılık değeri de X malını almış bir kişinin hangi olasılıkla Y malını
alacağını ifade eder. Bağıntının önemli olabilmesi için her iki değerin de olabildiğince
büyük olması gerekir.
X ve Y farklı ürünler olmak üzere,
Olasılık: P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı / Toplam müşteri
sayısı
P(X/Y)=P(X ve Y)/P(Y)= X ve Y mallarını satın almış müşteri sayısı / Y malını satın
almış müşteri sayısı
Burada, X ürünü için olasılık tüm alışverişler içinde X ürünün oranıdır.
- 17 -
X , X ürünü içeren alışverişlerin sayısını, D yapılan tüm alışverişlerin sayısını göstermek
üzere;
Olasılık (X) =
X
D
olarak ifade edilir.
X ve Y ürünleri için olasılık,
X.Y X ve Y ürünlerini birlikte içeren alışveriş sayısı
olmak üzere;
Olasılık ( X  Y ) =
X.Y
D
olarak ifade edilir.
X ve Y ürünleri için koşullu olasılık ise;
Koşullu Olasılık [ P(Y/X)] =
XY
X
olarak ifade edilir.
Örneğin bir A ürününü satın alan müşteriler aynı zamanda B ürününü da satın
alıyorlarsa, bu durum A => B [olasılık= %2, koşullu olasılık= %60] şeklinde verilmiş
olsun. Birliktelik Kuralı için %2 oranındaki bir olasılık değeri, analiz edilen tüm
alışverişlerden %2'sinde A ile B ürünlerinin birlikte satıldığını belirtir. %60 oranındaki
koşullu olasılık değeri ise A ürününü satın alan müşterilerinin %60'ının aynı alışverişte B
ürününü de satın aldığını ortaya koyar. Kullanıcı tarafından minimum destek esik değeri
ve minimum güven eşik değeri belirlenir ve bu değerleri aşan birliktelik kuralları dikkate
alınır.
5.1.2 Korelasyon ve Kovaryans
Elimizde malların müşteri tarafından ne kadar tüketildiği, ne kadar beğenildiği
ile ilgili bilgi varsa o zaman bağıntı daha iyi hesaplanabilir. Örneğin süpermarkette
müşterinin aylık toplam X malı kullanma miktarı hesaplanabilir. Amazon’un
BookMatcher programı okuyuculara okudukları her kitap için 1 ile 5 arasında bir beğeni
notu vermelerini ister. Bu durumda X ve Y nümerik veriler olduğundan X ile Y’nin
korelasyonu hesaplanabilir:
Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y))
X ile Y’nin kovaryansı birbirlerine göre doğrusal olarak nasıl değer aldıklarını
belirtir:
Cov(X,Y)=E[(X-mX) (Y-mY)]
mX X’lerin ortalaması, std(X)’de standart sapmasıdır. Örneğimizde m X X
malının ortalama olarak ne kadar beğenildiğini, std(X) de beğenilerin bu ortalama
etrafında ne kadar değişken olduğunu gösterir.
Eğer X’i sevenler genelde Y’yi de sevdiyse hem X, hem de Y değeri
ortalamadan daha yüksek olacak ve Cov(X,Y)>0 olacaktır. Aynı şekilde X ve Y beraber
beğenilmiyorsa her iki değer de ortalamadan küçük olacak ve yine Cov(X,Y)>0 olacaktır.
Eğer X’i beğenenler Y’yi beğenmediyse (veya aksi takdirde) değerlerden biri ortalamadan
yüksek, diğeri ortalamadan düşük olacak ve Cov(X,Y)<0 olacaktır. Corr(X,Y)’de
Cov(X,Y)’nin –1 ile 1 arasında standart sapmalara göre normalize edilmiş halidir.
- 18 -
Corr(X,Y) değerinin 0 olması X ile Y arasında (doğrusal) bağlantı olmadığını, negatif değer
ters, pozitif değer de doğrudan bağıntı olduğunu gösterir.
Bu şekilde olası bütün mallar arasında korelasyon bilgileri varsa X’i kullanan ve
seven kişiye tavsiye edilecek Y müşterinin kullanmadığı diğer bütün mallar arasında X ile
korelasyonu en fazla ve olabildiğince 1’e yakın olan mal olmalıdır.
5.1.3 Apriori Algoritması
Birliktelik kuralları madenciliğinin iki önemli kısmı vardır. İlk olarak geniş nesne
kümeleri oluşturulur ve ikinci evrede kurallar üretilir. Geniş nesne kümeleri çeşitli
algoritmalar kullanılarak daha küçük nesne kümelerine indirgenirler. Bu amaçla kullanılan
algoritmalardan en yaygını apriori algoritmasıdır. Şekilde bu algoritmanın uygulanması
gösterilmiştir. (Veriler bir güzellik merkezinin veri tabanından alınmış ve algoritma
uygulanmıştır.)
Apriori Algoritmasının Uygulanması
D
Fiş No
1
2
3
4
Nesneler
1,3,4
2,3,5
1,2,3,5
2,5
A2
Barkod
1,2
1,3
1,5
2,3
2,5
3,5
Olasılık
0,25
0,5
0,25
0,5
0,75
0,5
A1
Barkod
1
2
3
4
5
Olasılık
0,5
0,75
0,75
0,25
0,75
B2
Barkod
1,3
2,3
2,5
3,5
Olasılık
0,5
0,5
0,75
0,5
B1
Barkod
1
2
3
5
Olasılık
0,5
0,75
0,75
0,75
A3
Barkod
2,3,5
Olasılık
0,5
B3
Barkod
2,3,5
Olasılık
0,5
D ile gösterilen 4 adet alışveriş işlemi olduğunu düşünürsek, Apriori algoritması şu
şekilde çalışır: İlk olarak A1’de gösterildiği gibi her ürünün ayrı ayrı olasılık değerleri
hesaplanır. A1’de belirlenen olasılık değerlerinden minimum olasılık değerinin üzerinde
olanlar seçilerek B1 oluşturulur. B1’deki nesnelerin ikili kombinasyonlarının olasılık
değerleri hesaplanarak A2 oluşturulur. A2’de belirlenen olasılık değerlerinden de
minimum olasılık değerinin üzerinde olanlar seçilir (B2). Algoritma benzer şekilde
uygulanarak analiz edilmek istenilen ürün kombinasyonu sayısına göre nesne kümeleri
oluşturulur. Belirlenen nesne kümeleri neticesinde birliktelik kurallarının uygulanmasına
geçilebilir. Örnek olarak;
Bir güzellik merkezinden elde edilen veriler 2005 yılının ilk üç ayına ait olup 3282
fiş hareketi içermektedir. Güzellik merkezinde 9000 çeşit ürün seçeneği bulunmaktadır.
Elde edilen veriler çeşitli aşamalardan geçer. Sonuçta 3282 fiş harekete ve 9000 çeşit
ürün üzerinden çıkarılmıştır. Bu fiş hareketleri içerisinden elde edilen birliktelik
kurallarının bazıları, bu kuralların olasılık ve koşullu olasılık değerleri ile birlikte aşağıda
özetlenmiştir. (Bu analizde bize yol gösterecek ölçü birimleri olasılık ve koşullu olasılık
değerleridir.)
- 19 -
Birliktelik Kuralları, Olasılık ve Koşullu Olasılık Değerleri
BİRLİKTE
ALINAN
ÜRÜNLERİN KODLARI
556  555
557  555
557  556
557  (555 ve 556)
558  (555 ve 556)
OLASILIK DEĞERİ
%3,47
%3,11
%3,32
%0,79
%0,46
KOŞULLU
DEĞERİ
%24,89
%22,82
%24,39
%5,82
%6,44
OLASILIK
Bu sonuçlara göre;
i.
556 ve 555 nolu ürünlerin toplam fiş hareketlerinde birlikte bulunma olasılığı
%3,47’dir. 556 nolu ürünü alan bir müşterinin %24,89 olasılıkla 555 nolu ürünü
de aldığı söylenebilir.
ii.
557 ve 555 nolu ürünlerin toplam fiş hareketlerinde birlikte bulunma olasılığı
%3,11’dir. 557 nolu ürünü alan bir müşterinin %22,82 olasılıkla 555 nolu ürünü
de aldığı söylenebilir.
iii.
557 ve 556 nolu ürünlerin toplam fiş hareketlerinde birlikte bulunma olasılığı
%3,32’dir. 557 nolu ürünü alan bir müşterinin %24,39 olasılıkla 556 nolu ürünü
de aldığı söylenebilir.
iv.
557 nolu ürünün, 555 ve 556 nolu ürünler ile toplam fiş hareketlerinde birlikte
bulunma olasılığı %0,79’dur. 557 nolu ürünü alan bir müşterinin %5,82 olasılıkla
555 ve 556 nolu ürünleri de aldığı söylenebilir.
v.
558 nolu ürünün, 555 ve 556 nolu ürünler ile toplam fiş hareketlerinde birlikte
bulunma olasılığı %0,46’dır. 558 nolu ürünü alan bir müşterinin %6,44 olasılıkla
555 ve 556 nolu ürünleri de aldığı söylenebilir.
Bu çalışma geniş içerikli bir müşteri profili çıkarma projesinin ilk adımını
oluşturmaktadır. Çalışmanın bir sonraki adımında güzellik merkezi müşterilerine ait
özellikler (yaş, cinsiyet vs.) ve alışverişlere ait diğer özellikler (alışveriş miktarı, alışveriş
saati, promosyonlar, indirimler vs.) de analize katılarak müşterilerin alışveriş profilini elde
etmek planlanmaktadır.
Apriori algoritması için bir başka örnek aşağıda verilmiştir:
Marketten Yapılan Alışveriş Bilgilerini İçeren D Veritabanı
- 20 -
Bir marketten yapılan alışverişlerin bilgilerini içeren D veritabanı görülmektedir. Bu
veritabanında yapılan alışverişlerin numaraları ANO sütununda görülmektedir. Her
alışverişte
satın
alınan
ürünler
de
Ürün
No
sütununda
görülmektedir.
Apriori
algoritmasında takip edilen basamaklar aşağıda gösterilmektedir.
1- Algoritmanın ilk adımında, her ürün tek basına bulunduğu C1 kümesinin elemanıdır.
Algoritma, her ürünün sayısını bulmak için tüm alışverişleri tarar ve elde
edilen sonuçlar Şekil'de Destek Sayısı (o malı içeren alışveriş sayısı) sütununda
görülmektedir. Tablo 'da görülebileceği gibi D'de I1 ürününden 6 adet, 12 ürününden 7
adet, 13 ürününden 6 adet, 14 ürününden 2 adet ve 15 ürününden de 2 adet satıldığı
görülmektedir.
2- Minimum alışveriş destek sayısının (o malı içeren alışveriş sayısı )2 olduğu varsayılırsa,
tek baslarına sık tekrarlanan ürünler L1 kümesinde görülmektedir. C1 kümesindeki tüm
ürünlerin destek sayısı, minimum destek eşik değeri olan 2'den fazla olduğu için C1 tüm
ürünler sık tekrarlanan ürün olarak değerlendirilir ve L1 kümesine aktarılır.
3- Hangi ürünlerin ikili olarak sık tekrarlandığını belirlemek için L1 kümesindeki
ürünlerin ikili kombinasyonları bulunarak C2 kümesi oluşturulur.
4- C2 kümesindeki ürünlerin destek sayılarını bulmak amacıyla D taranır ve bulunan
değerler destek sayısı sütununda belirtilir
- 21 -
Apriori Algoritmasının Gösterimi
5- C2 kümesindeki ürünlerden minimum destek eşik değerini aşan ürünler L2 kümesine
aktarılır.
6- Hangi ürünlerin üçlü olarak sık tekrarlandığını belirlemek için L2 kümesindeki
ürünlerin üçlü kombinasyonları bulunarak C3 kümesi oluşturulur. Bu durumda
C3 = {{I1,I2,I3}, {I1,I2,I5}, {I1,I3,I5}, {I2,I3,I4}, {I2,I3,I5}} olması beklenir.
Ancak Apriori algoritmasına göre, sık tekrarlanan öğelerin alt kümeleri de sık tekrarlanan
öğe olması gerekmektedir. Buna göre yukarıdaki C3 kümesindeki elemanlar sık
tekrarlanan olmadığı için, yeni C3 kümesi C3 = {{I1,I2,I3}}, {I1,I2,I5}} olur.
7- C3 kümesindeki ürünlerin destek sayılarını bulmak amacıyla D taranır ve bulunan
değerler destek sayısı sütununda belirtilir.
8- C3 kümesindeki ürünlerden minimum destek eşik değerini aşan ürünler L3 kümesine
aktarılır.
9- Hangi ürünlerin dörtlü olarak sık tekrarlandığını belirlemek için L3 kümesindeki
ürünlerin dörtlü tek kombinasyonu {II, I2, I3, I5} olarak belirlenir. Ancak bu
kümenin alt kümelerinin tamamı sık tekrarlanan öğe olmadığı için C4 kümesi bos
küme olur ve Apriori tüm sık tekrarlanan öğeleri bularak sonlanmış olur.
Sık tekrarlanan öğeleri bulduktan sonra , sıra birliktelik kurallarını oluşturmaya gelir.
Örneğin sık tekrarlanan bir öğenin, boş olmayan tüm alt kümeleri şunlardır:
[11]: {I1, I2}, {I2, I5}, {I2, I5}, {I1}, {I2},{I5}.
Bu durumda Tablo 'daki veritabanına bakarak şu birliktelik kuralları çıkartılabilir:
1-11 Λ12==>15,
olasılık=2/4= 0.5
2-11 Λ15==>12,
olasılık=2/2= 1
3-12 Λ15==>12,
olasılık=2/2= 1
4-11==> 12 Λ15,
olasılık=2/6= 0.33
5-12==> 11 Λ15,
olasılık=2/7= 0.29
6- 15==> 11 Λ12,
olasılık=2/2= 1
Eğer minimum güven eşik değeri %70 olarak belirlenmişse, ikinci, üçüncü ve altıncı
kurallar dikkate alınır çünkü diğer kurallar esik değerini aşamamış olurlar.
5.2 Kredi Skor Hesabı
Kredi, bir finansal kurum tarafından bir müşteriye ödünç verilen ve faiz
eklendikten sonra genelde düzenli aralıklı taksitler halinde geri ödenmesi gereken
paradır. Bir kredi başvurusunda müşterinin krediyi geriye ödeyememesi olasılığını
hesaplamaya kredi skorlama denir. Buna davranış veya performans skorlamadan
ayırmak için başvuru skorlama da denir.
Başvuru skorlamada bir finans kurumuna kredi için başvuran kişi ile ilgili
finansal güvenilirliğini belirleyen örneğin 0 ile 1000 arasında bir skor hesaplanır. Bu skor
kişinin özellikleri ve geçmiş kredi hareketlerine dayanılarak hesaplanır. Örneğin;
- 22 -
“Ev sahibi olan, evli, aynı iş yerinde beş yıldan fazladır çalışan, geçmiş kredilerinde geç
ödemesi bir ayı geçmemiş bir erkeğin kredi skoru 825’dir.”
Davranış veya performans skorlama ise kredi almış ve taksitlerini
ödemekte olan bir müşteriyi değerlendirmekte kullanılır; örneğin kredi kartının limitini
değiştirmek, yenilemede yeni kartın süresi, olası sorunların tahmini, geç ödeme
durumunda alınacak eylem bu şekilde belirlenebilir. Örneğin;
“İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla
kanuni takibe gidiyor.”
Skorlama yaparak yüksek riskli müşterilere kredi vermeyi reddetmek finansal
kurumun olası zararını azaltacak, düşük riskli müşterilere kredi vererek kârını arttıracak,
üstelik müşterilerin ödeyemeyecekleri kredilerden dolayı rahatsızlığını azaltacaktır.
5.2.1 Skor Kartı
Skor kartı denilen bir istatistiksel model, müşterinin başvuru formundaki
bilgilere ve diğer —örneğin kredi izleme bürosundan gelen— bilgilere dayanarak kredinin
geriye ödenememesi olasılığını hesaplar. Bu değer uygun bir eşik değeri ile
karşılaştırılarak kredi talebi kabul veya red edilir.
Skor kartı geçmiş müşterilerin verilerinden oluşturulur ve genelde basit bir
ağırlıklı toplamadır. Tipik olarak kullanılan alanlar şunlardır:











İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl
Ev durumu: Sahip, kiracı, diğer
Posta kodu: Kodlanmış
Telefon: Evet, hayır
Yıllık gelir: Kodlanmış
Kredi kartı: Evet, hayır
Yaş: 18-25, 26-40, 41-55, 55+ yıl
Meslek: Memur, işçi, serbest, işsiz, ...
Medeni hali: Evli, bekar, diğer
Bankanın müşterisi olduğu zaman: yıl
Çalıştığı kurumda çalışma zamanı: yıl
Müşteri ile ilgili her bilginin iyi müşteriyi kötüden ayırmaktaki etkisine göre bir
ağırlığı vardır. Kullanılan alanlar ve ağırlıkları veriden otomatik olarak hesaplanır.
Örneğin:
Kredi kartı
Evet: +50
Hayır: –20
Skor kartının oluşturulabilmesi için geçmiş müşterilerin iyi risk ve kötü risk
olarak gruplanabilmesi gerekir. İyi risk örneğin hiç geç ödemesi olmayan müşteri, kötü
risk de örneğin üç veya daha fazla arka arkaya geç ödeme yapmış müşteriler olabilir; bir
veya iki defa arka arkaya geç ödemesi olan müşteriler belirsizdir ve skor kartı
oluşturmada kullanılmaz.
Kötü riski tanımlamak kolay değildir; belki geç ödemeler daha yüksek faiz
nedeniyle kurum için kârlı olabilir. Gerçekte tanımlamak istediğimiz zarara neden olan
müşteridir. Yapmak istediğimiz kârlı ve zararlı müşterileri birbirinden ayırabilmektir.
Bu şekilde kârlı ve zararlı müşterilerin bilgileri iki grup olarak verildikten sonra
genelde doğrusal regresyon kullanılarak alanların ağırlıkları hesaplanır. Bu ağırlıklar
hesaplandıktan sonra kabul/red eşiği hesaplanır. Bunun için her iyi müşterinin kuruma
kaç birim kârlı, her kötü müşterinin kuruma kaç birim zararlı olduğunun verilebilmesi
- 23 -
gerekir. Hangi değerin üstünde beklenen toplam kâr beklenen toplam zararı aşarsa o
değer eşik olarak kabul edilir.
Kredi skoru kredi talebini kabul/red kararı dışında da kullanılabilir: Kredi
verirken riske bağlı fiyatlandırma yapılabilir. Örneğin yüksek riskli bir müşteriyi
reddetmek yerine daha yüksek bir faizle veya daha küçük bir miktarla kabul edebiliriz. İyi
müşteriler için başka ürünler, daha yüksek kredi limitleri gibi kararlar verebiliriz. Davranış
skorlamada kredi skoruna göre eylemimiz değişir: Geç ödeme durumunda iyi bir
müşteriyi hiç rahatsız etmeyiz, başka bir müşteriye telefon açarız, daha kötü (skoru daha
düşük) bir müşteri için kanuni takibe gideriz.
Bir müşteri için kabul kararı verince zaman içinde o müşterinin kârlı mı, zararlı
mı olduğunu görüyoruz ama reddettiğimiz bir müşteri için gerçek sonucu bilemeyiz. Bu da
örnek kümemizin gittikçe daralması anlamına gelir. Buna neden olmamak ve skor
kartımızın sınıflandırma başarısını iyileştirebilmek için normalde red edeceğimiz
müşterilerle ilgili ek bilgi almaya çalışmak yararlıdır. Bunun için örneğin kredi izleme
bürosundan o kişiye kredi vermiş başka finans kurumlarının o kişi ile ilgili bilgisine
başvurulabilir; ya da reddetmek yerine daha küçük bir miktarla müşteri olarak kabul
edilebilir veya böyle kişilerden çok azı denemek ve bilgi kazanmak için kabul edilebilir.
Eğer skor kartımızın başarısını arttırmak bizim için bir miktar zarardan daha önemli ise bu
ticari olarak mantıklı bir davranış olur.
Kredi skoru kişilerin eğitimini, kariyerini ve hatta ilişkilerini etkileyebilecek
güçte bir yapıya sahiptir. Sadece bankalar ve finans kurumları değil; oto, hayat ve ev
sigortası sağlayan firmalar, iş verenler de skorunuza göre hareket edip, karar verirler.
• Hayat, ev, oto sigortanızda ödeyeceğiniz aylıklar
• Öğrenciyseniz, okuldan yardım alıp almayacağınız
• İşe alınıp alınmayacağınız gibi gerçekler hep kredi skorunuzun iyi olmasına göre karar
verilir.
Kredi skoru, genel olarak 200-250 gibi başlayıp 800’lere kadar çıkar.
730 ve üstü – “Mükemmel” olarak nitelendirilen müşterilerdensiniz. Kredi talebiniz
olumlu karşılanır.
700-729 – “İyi kredi” olarak nitelendirilen müşterilerdensiniz. Bir üst müşteri
grubundaki gibi kredi talebiniz olumlu karşılanır.
670-699 – Dosyanız inceleme altında tutulur. Herhangi olumsuz bir durum karşısında
gerekli işlemler yapılır.
585-669 – Düşük faizli kredi almanız çok zor. Riskli kategorisindesiniz.
585 ve altı – Risklisiniz, kredi alsanız bile çok ağır şartlar altında alabilirsiniz.
5.2.2












Kredi skorunuzu etkileyen etkenler;
Ödenmemiş borçlar
Kredi tarihçesinin uzunluğu
Ödeme tarihçeniz
Negatif bilgilerin hangi ne kadar çok olduğu, hangi zaman periyodlarında olduğu
Kredi borçlanma oranınız
Kamu bilgileri → mahkeme kararları, iflas
Geç ödemeler → 30 – 60 – 90 günlük geç ödemeler
Çok uzun olmayan kredi tarihçesi
Tatmin edici sayıda olmayan açık hesap sayısı
Yüksek borçlanma oranı
Yeni açılan hesapların çokluğu
Kredi raporunun çok sayıda incelenmesi
- 24 -
5.2.3 Kredi Skorunuzu yükseltmek için;



Ödemelerinizi zamanında yapın.
Borçlanma oranınızı %40’larin altında tutun… Mümkünse %20-30 arasında olsun.
Çok kısa aralıklarda krediye başvurmayın, raporunuzu olabildiğince az incelettirin..
5.2.4 Kredi Skor Hesabının Yararları




6
Daha doğru karar vermeyi sağlar.
Hızlı ve ucuzdur.
Kullanılan tek skor kartının üzerinde kurumun kontrolü vardır.
Yeni skor kartı otomatik olarak hızlı ve kolay bir şekilde hesaplanabilir.
VERİ MADENCİLİĞİ VE İSTATİSTİK
İstatistikte kullanılan tahmin yöntemleri bilgisayarlarda otomatikleştirilmiştir. Bunun
sonucunda istatistik tabanlı veri madenciliği teknikleri ortaya çıkmıştır.
Veri madenciliği, istatistiksel süreçleri etkili bir biçimde otomatikleştirir. Bu sayede
son kullanıcının yükünü biraz da olsa hafifletir.
Veri madenciliği ve istatistikte ortak amaç, karmaşık verilerden anlamlı bilgiler elde
etmektir.
En büyük farkları ise; veri madenciliğinin bilgisayar teknolojisi ve birtakım
algoritmalar sayesinde çok büyük miktardaki veri kümelerine hitap ediyor olmasıdır.
Fakat bilinmelidir ki bu algoritmaların temelini istatistiksel yöntemler oluşturmaktadır.
6.1 İstatistikçinin Veri Madenciliğine Katkıları




Çalışmanın amacının tanımlanması
Uygulama sonucuna yararlı olabilecek her tür bilginin sisteme verilmesi
Uygun yöntemin kullanılması
Sonuçların yorumlanması ve geçerliliğinin kontrolü
6.2 Veri Tabanına İstatistiksel Bakış

Bu kısımda bütün gözlemlerin bulunduğu veritabanı tablosu kitle olarak,
odaklanma çıktısı ise örneklem olarak kabul edilecektir.

Veritabanı tablosu, bütün değişkenlerin kartezyen çarpımından oluşmuş bir
örneklem olarak da düşünülebilir.

İstatistik açısından bakılacak olursa bir veritabanı kitleyi, tablodaki her bir
değişken de rasgele değişkeni tanımlar. Bu durumda amaç kitleden örneklem
çekmek olacaktır.
- 25 -
6.3 Veri Madenciliğinde Kullanılan İstatistiksel Yaklaşımlar









Sayı Tahmini Ve Örnekleme
Özetlemeye Dayalı Modeller
Varsayım Sınama (hipotez testleri)
Bayes Teoremi
Varyans Analizi
Regresyon
Faktör Analizi
Zaman Serileri
Kalite Kontrol
6.3.1 Sayı Tahmini Ve Örnekleme



1234-
Bir bağımsız değişkeni tahmin etme işlemidir. Veri madenciliğinde, eksik
değerlerin tahmini için kullanılır. Bu işlem, ortalama, varyans, standart sapma
gibi istatistiksel değerleri tahmin etmek için yapılır.
Bir veri kitlesinden çekilen örneklemin özellikleri ve eleme esnasında istenen
özelliklere sahip olup olmadığının araştırılması amacıyla Örnekleme Yöntemlerine
başvurulur.
Örnekleme yöntemlerinden en genel olarak kullanılan yöntem olan Basit Rasgele
Örnekleme de yapılan 4 çeşit tahmin vardır. Bunlar:
Kitle toplamı tahmini
Kitle ortalaması tahmini
İki değişkenin birbirine oranının tahmini
Belli özelliğe sahip birimlerin oranının tahmini
6.3.2




Özetlemeye Dayalı Modeller
Özetlemede amaç, veriyi az sayıda özellikte karakterize etmektir. Verinin
tümümün bir özetini sağlayan birçok temel kavram vardır. İyi bilinen temel
istatistiksel kavramlar;ortalama, mod, veri genişliği, varyans ve standart sapma
dır.
Bu istatistiksel değerler sırası ile kitlede veya örneklemde veriyi tanımlar.
Tanımlanmış veri, verilerin bir parçası değildir. Ancak verilerce belirlenen bir
bilgidir.
Tanımlanmış veri sadece matematiksel mekanizmalarda hesaplanabilir ve verinin
etiketini oluşturur.
6.3.3 Hipotez Testleri


İstatistikte örneklemler ve onların kitlelerle ilişkileri hakkındaki varsayımları
analiz eden en önemli işlem hipotez testidir. Veri madenciliğinde kitlelerin
karşılığı odaklanma girdisi, örneklemlerin karşılığı ise odaklanma çıktısıdır.
Bu teknikte önce bir varsayım oluşturulur. Sonra bu varsayımı veri üzerinde
sınayarak gözlenen veriyi açıklayan bir model bulmaya çalışılır. Model oluşturma
sürecini gerçek veri yönetir. Kurulan varsayımının doğru olup olmadığı bir veri
örneği ele alınarak incelenir. Varsayım bu örneğe uyarsa genelde tüm veriye
uyduğu kabul edilir. Belirli bir veride sınanacak olan başlangıç varsayımına Ho
- 26 -
denir. Boş varsayım kabul edilmezse başka varsayımlar doğar. Bunlara da
alternatif varsayımlar denir ve Hs ile gösterilir.
Hipotezlerin kurulması;






(Ho) sıfır hipotezi ve (Hs) seçenek hipotezi oluşturulur
Kullanılacak olan önemlilik derecesi belirlenir.
Ortalamanın testi için kullanılacak t ya da z değerleri belirlenir.
Eğer örneklem genişliği 30 dan büyükse z ,30 dan küçükse t değeri kullanılır.
Önemlilik derecesi a değerine göre tablo değeri belirlenir.
Tablo değeriyle hesaplanan değer karşılaştırılır. Sonucunda da hipotez ya kabul
ya da reddedilir.
Hipotez testleri, örneklem ve kitlenin fonksiyonu olan birtakım test istatistiği
terimleri ve Ho hipotezinin reddedildiği test istatistiği değerlerinin düştüğü “red
bölgesi” ile belirtilir. Hipotez testlerinin en önemli kısmı, uygun test istatistiğinin ve
red bölgesinin tanımıdır.
Bu tanım istatistiksel hipotez testlerinin özelliklerini belirtmektedir. Tanımın ilk
kısmındaki sıfır ve alternatif hipotezlerde kitle parametrelerinin herhangi bir somut alt
kümesi göz önünde bulundurulduğu için, bu kısım ikinci kısma göre daha genel bir
anlama sahiptir. İkinci kısımda ise, sıfır ve alternatif hipotezler kitle parametrelerinin
belirli bir değerini kullanmaktadır. Tek yönlü hipotez, örneklem parametresini eşik
olarak belirlenmiş değerle(tablo değeri) karşılaştırır.
Hipotez testlerinde 2 tür hata vardır.
Ho kabul
Ho doğru
DOĞRU
Hs doğru
II.Tür Hata
(b hatası)
Ho red
I.Tür Hata
(a hatası)
DOĞRU
6.3.4 Bayes Teoremi

Bir sınıflandırma sorununun olasılık terimleriyle açıklanabileceği varsayımına
dayanır. Bayes kuralı, bir veri grubunda bir özelliğin olasılığını tahmin etme
yöntemidir. Belirli bir veri değerinde çeşitli varsayımların olasılığını araştırır.

Bayes formülü:
şeklindedir.
- 27 -
Bilimsel karar yöntemlerinden biri olan Bayezyan yaklaşım, olasılıklı (kesin
olmayan) bir bilginin incelenmesine objektif bir bakış açısını esas alır ki, bu yaklaşım
bilimsel gerçekten ziyade bilginin aşamalarına odaklanır. Thomas Bayes (1764)’e izafe
edilen bu düşüncenin tam olarak ifadesini bulması 1930’lara kadar gecikmiş ve ancak
1970’lerden sonra genetik ve tıbbi çalışmalarda yer almaya başlamıştır. Diğer yandan bu
teorem genetik danışmanlar tarafından, taşıyıcılık risklerinin hesaplanmasında yaygın
olarak kullanılmıştır. Buna paralel olarak bilgisayar destekli tanısal yaklaşımda kullanımı
giderek artmaktadır. Bayes hesapları çalışma düzeninden bağımsız olduğundan klinik
analizde diğer bazı karar yaklaşımlarından daha esnektir ve geleceğe ait olasılıkları
hesaplayabilme olanağına sahiptir.
Örnek;


Kanser teşhisi için yeni bir test geliştirildiğini kabul edelim.Kanserin insanlarda
görülme sıklığının 0,05 olduğunu varsayalım, bu test için bize verilen bilgi de
kanser hastası olanlar üzerinde denendiğinde
% 95pozitif sonuç verdiği
olsun.
Sorumuz: “Bu test güvenilir bir test midir?” olacaktır.
A = testin uygulandığı kişide sonuç pozitif
(teste
göre
B= kişinin kanser olması
(teste
göre
değil,
gerçekten
"kanser
kişinin
var")
kanser
olması)
Bu durumda;
A' = testin uygulandığı kişide sonuç negatif (kanser olmaması durumu)
B' = kişinin kanser olmaması durumu
Bu durumda başta verilen bilgileri kullanırsak;
P(A/B)
=
P(A‘/B‘)
=
0.95
(kişi
kanser(B)
ve
test
uygulanmış(A))
P(B)=0.005 (bir insanın kanser olma ihtimali, ya da kanserin rastlanma sıklığı)
Bayes
P(B/A)

teoremi
=
P(B)*P(A/B)
/
{(
P(A/B)*P(B)
+
= [(0.005)(0.95)] / (0.95)(0.005)+(0.05)(0.995) = 0.087
kullanırsak;
P(A/B‘)*P(B‘)
}
Bu test biri üzerinde pozitif sonuç verdiğinde aslında o kişinin kanser olma
ihtimali % 8.7 bulunmuştur. Bu çok düşük bir değer olduğu için test kullanılırsa
çok fazla sayıda yanlış uyarı meydana geleceğinden TEST BAŞARISIZDIR denir.
NOT: Başlangıçta verilen ve P(A/B) dediğimiz kavramla sonradan bulduğumuz
P(B/A)'nın karıştırılmaması gerekir. Birincisi kanserli hastaya uygulanan testin
verdiği sonuç iken ikincisi testin kanser teşhisi koyduğu kişilerin gerçekte ne
kadarının kanser olduğudur.
Bayes teoreminin veri madenciliği alanında kullanımı, belli bir veri tabanı kitlesinden
çekilmiş örnekleme dair ulaşılmak istenen olasılıkları hesaplamaktır. Örneğimizde olduğu
gibi eğer binlerce hastaya ait bilgilerin bulunduğu bir veri tabanından söz ediliyorsa ve bu
hastalardan kanser teşhisi konulmuş olanlarına yapılan testin sonuçlarına göre belli
özellikte bir veri aranıyorsa Bayes Teoremi kullanılarak bu özelliği sağlayan hastaların
oranı bulunabilir. Veri madenciliği uygulamalarında da amaç zaten istenilen özellikte
veriye ulaşmaktır.
- 28 -
6.3.5 Varyans Analizi


Varyans analizi ikiden çok kitle ortalaması arasındaki farkın önemini belirtir. Bir
çok grubu aynı anda karşılaştırır.
ÖRNEĞİN; Üç yeni ilacın nabız atışı üzerindeki etkisi, çamaşır beyazlatması
açısından değişik deterjanlar arasındaki fark varyans çözümlemesi ile incelenir.
Eğer gruplar arasında farklılık çıkarsa ikişerli karşılaştırmalarla farkı yaratan grup
belirlenebilir.
Çeşitleri:




Tek yönlü varyans analizi
Çift yönlü varyans analizi
Tekrarlı ölçümlerde varyans analizi
Çok etkenli varyans analizidir.
Varyans analizinin veri madenciliğinde kullanımı için, önceden veri tabanından
belirli örnekleme yöntemleri kullanılarak seçilmiş olan verilerin analizinin yapılmasında
kullanıldığı söylenebilir.
Varyans analizi, verinin yapısının belirlenmesinde ve ileriki aşamada model
kurulmasında yol gösterici olarak kullanılacak bir istatistiksel yöntemdir.
6.3.6 Regresyon



Regresyon, genellikle geçmişteki değerleri temel alarak gelecekteki
değerleri tahmin etmek için kullanılır. Doğrusal regresyon, girdi verisi ile
çıktı verisi arasında doğrusal bir ilişki olduğunu varsayar.
Regresyon her bir tahmin edici için kesin katsayılar üretir ve bu katsayılar
bağımlı değişkenin tek tek her bir tahmin edici tarafından hangi oranda
açıklandığını gösterir.
Regresyon, bağımsız değişkenlerin (X) değerleri için bağımlı değişkenin (Y)
alacağı değeri tahmin etmeye yarar. İki değişken arasında y=f(x) gibi bir
bağıntı oluşur.
Örneğin, bir bankanın müşterileri üzerinde yaptığı “müşteri değeri” araştırmasında
elde ettiği “müşteri statüsü - yaşı” ve “müşteri statüsü – geliri” çapraz çizelgelerinden
elde edilen sonuçlar birleştirilerek bir yorum yapılabilir ancak bu hem çok zor hem de
yanıltıcı olabilir. Bu iki çapraz çizelgeyi birlikte incelediğimizde her yaş grubundaki
müşteri ve müşteri olmayanlar arasındaki farkın göreli önemi hesaba katılmamış olur
ve bunu göz ardı etmek yanıltıcı olabilir. Bu nedenle ikiden fazla değişken arasındaki
ilişkiyi incelerken regresyon analizi gibi çok değişkenli analiz yöntemlerine
başvurulmalıdır.
Aynı şekilde bankanın müşteri değeri araştırmasında bu değer üzerinde yaş, ve gelirin
gayet etkili tahmin ediciler, eğitim düzeyinin daha az etkili bir tahmin edici olduğunu,
fakat aile bireylerinin sayısının ise etkili olmadığını gösterirken, doğrusal regresyon,
müşteri değeri üzerinde diğer bütün tahmin edicilerin eş zamanlı etkilerini inceleyerek
her bir tahmin edicinin tek ve göreli önemini elde etmemizi sağlar. Bu yüzden
regresyon çapraz çizelgelemeden ya da diğer basit iki değişkenli yöntemlerden daha
güçlü bir tekniktir.
- 29 -
6.3.7 Faktör Analizi


Faktör analizi; çoğu kez araştırmalarda kullanılan çok sayıdaki değişkenin
aslında birkaç temel değişkenle ifade edilebilip edilemeyeceğinin merak
edildiği durumlarda kullanılır.
Faktör analizi, birbirleriyle ilişkili veri yapılarını birbirinde bağımsız ve daha
az sayıda yeni veri yapısına dönüştürmek, bir oluşumu, nedeni
açıkladıkları varsayılan değişkenleri gruplayarak ortak faktörleri ortaya
koymak,bir oluşumu etkileyen değişkenleri gruplamak, majör ve minör
faktörleri tanımlamak amacıyla başvurulan bir yöntemdir.
Birbiriyle ilişkili çok sayıda değişkeni bir araya getirerek az sayıda kavramsal
olarak anlamlı yeni değişkenler bulmayı,keşfetmeyi amaçlayan çok değişkenli bir
istatistiktir.
Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının çalışması ve
sonuç üretmesi çok uzun sürebilir. Veriyi azaltma başarıyı artırır. Veri azaltma
yöntemlerinden biri olan faktör analizi uygulanırken:
- Veri madenciliği uygulaması için gerekli olan faktörler seçilir.
- Faktörler altkümesi kullanılarak elde edilen sınıfların dağılımları gerçek dağılıma
eşit ya da çok yakın olmalıdır.
ÖRNEK 9:Okul müdürlerinin faklı liderlik davranışlarının öğretmenlerin iş tatminine
etkilerinin ölçüldüğü bir araştırma yaptığınızı düşünün. Bu araştırmada müdürlerin
farklı liderlik davranışlarını (Örnek, Otokritik, Katılımcı, Destekleyici vb.) ayrı ayrı
değerlendirmeniz gerekecektir. Belki anket öncesi bu tür bir gruplandırma yapmış da
olabilirsiniz. Bu durumda dahi yaptığınız gruplandırmanın ne derecede doğru olduğunu
Faktör Analizi ile sayısal olarak doğrulamanız yararlı olacaktır. Çünkü sizin katılımcı
liderlik davranışı olarak tanımladığınız bir davranış öğretmenler tarafından destekleyici
liderlik davranışı olarak yorumlanmış olabilir. Bu durumda bu soru ya anketten
çıkartılmalı ya da destekleyici liderlik kategorisinde değerlendirmeye alınmalıdır.
Anket öncesi hiçbir kategorizasyon yapılmadığı durumlarda ise Faktör Analizi eşsiz bir
araçtır. Soruları sizin için gruplandırır. Bundan sonra size kalan sadece her bir gruba
isim vermektir.
6.3.8 Zaman Serileri
Zaman değişkeniyle ilişkili bir değişken hakkında, elde edilen gözlem değerlerini
zamana göre sıralanmış olarak gösteren serilere “zaman serileri” denir.
Zaman serilerini konu alan çalışmaların genelinde, serilerin gözlem değerleri eşit
aralıklı zaman noktalarında elde edilmiştir.
Gelecek olayları ya da koşulları tahmin etmeye öngörü denir. Veri tabanı
üzerinden elde edilen verilerle zaman serileri oluşturulur. Oluşturulan zaman serileri ile
gerekli çözümlemeler yapılır ve öngörü işlemi ile geleceğe yönelik tahminlerde bulunulur.
Bu noktada veri madenciliğinden yararlanılması, istenilen verilere daha kolay bir şekilde
ulaşılmasını sağlar. Bu, aynı zamanda maliyet ve zamandan da tasarruf sağlanacağı
anlamına gelmektedir.
- 30 -
ÖRNEK 10: Hükümet politikalarının oluşturulabilmesi için işsizlik oranı, vergi
oranı, elektrik tüketimi, kişi başına düşen milli gelir gibi ülkenin özelliklerini ortaya
çıkarabilecek faktörler ile ilgili öngörülerde bulunulması gerekmektedir. Bu öngörü işlemi
sonucunda ülkenin gelecekte hangi alanlarda sorunları artacak gibi gözüküyorsa o
alanlarda sorunları çözümleyebilecek ilgili politikalar geç kalınmadan hükümet tarafından
yürürlüğe konulmalıdır.
ÖRNEK 11: Bir süpermarkette, mart ayının son haftasında nisan ayının ilk haftası
için A marka şekerden ne kadar sipariş verilmesi gerektiğine dair bir tahminde
bulunabilmek adına; son 2 ayda haftalar içerisinde A marka şekerin satış miktarına(kg)
ilişkin, veri tabanı üzerinden ulaşılan verilerle bir zaman serisi elde edilmiştir. Buna göre;
HAFTALAR
Şubat 1.hafta
Şubat 2.hafta
Şubat 3.hafta
Şubat 4.hafta
Mart 1.hafta
Mart 2.hafta
Mart 3.hafta
Mart 4.hafta
ŞEKER MİKTARI(kg)
165
170
180
198
200
202
207
210+
Bu zaman serisine göre şu öngörüde bulunulabilir: “Oluşturulan bu zaman serisine
göre A marka şekerin satış miktarında son 8 haftada sürekli bir artış gözlenmiştir. Buna
göre çok büyük bir olasılıkla nisan ayının ilk haftasında da A marka şekerin satış
miktarında artış olacaktır. Bu durumda,nisan ayının ilk haftası için mart ayının son
haftasında bugüne kadar satılan 210 kg.dan daha fazla sipariş verilmesi gerekir.
Zaman serileri genel olarak “kartezyen koordinatlı”
bir grafikle gösterilir.x
ekseninde zaman değişkeninin şıkları, y ekseninde ise bu şıklar itibariyle y değişkeninin
aldığı değerler yani gözlem değerleri yer alır.
Zaman serileri ortalamadan gösterdiği sapmalara göre “durağan” ve “durağan
olmayan” olmak üzere ikiye ayrılmaktadır.
- 31 -
Ele alınan zaman serisinin ortalaması ve varyansı simetrik bir değişme
göstermiyorsa bu tür zaman serilerine “durağan olmayan zaman serileri” denir.
Gerçek hayatta zaman serilerinin çoğu durağan değildir, dolayısıyla serilerin
ortalaması zamanla değişmektedir. Özellikle parasal veriler durağan olmayan zaman
serilerinden oluşur. Durağan olmayan zaman serilerinin uygun bir modele oturtulması
mümkün değildir. Bunun için de bu tür veriler üzerinde çalışırken serinin
durağanlaştırılması gerekmektedir.
Literatürde zamandan etkilenmeyen, ortalaması, varyansı ve kovaryansı sabit olan
serilere “zayıf durağan seriler” adı verilir ve geniş anlamda “durağanlık” olarak
bilinir. Güçlü durağanlıkta sonlu ortalama ve varyansa gerek yoktur. Tek denklemli
zaman serilerinde zayıf durağanlık ve durağanlık arasında bir fark yoktur. Herhangi bir z t
serisinin durağan olması şartları şu şekilde özetlenebilir:
sabit aritmetik ortalama: E(zt)= μ
sabit varyans: Var(zt)= σ
2
gecikme sayısına bağlı kovaryans:
cov(zt, zt+k )=
γ
Durağan zaman serilerinde ard arda gelen iki değer arasındaki fark zamanın
kendisinden kaynaklanmamakta, sadece zaman aralığından kaynaklanmaktadır. Bu
nedenle serinin ortalaması zamanla değişmemektedir.
6.3.9 Kalite Kontrol
Günümüzde serbest piyasa ekonomisi nedeniyle firmalar arasında yaşanan
rekabet şartları, üreticileri minimum maliyetle yüksek kalitede ürün üretmeye
zorlamaktadır.Ürün kalitesi, alıcının ya da tüketicinin kararını etkilemede giderek daha
fazla öneme sahip olmaktadır.
Kalite kontrol nedir?
Özellikle 1980’li yıllardan itibaren bilinçlenen tüketicilerin hatalı ürün yada hizmete
karşı tutumları, tüketici isteklerinin karşılanmasının ve tüketici tatmininin sağlanmasının
kaçınılmaz olduğunu göstermiştir.Bütün bu gelişmeler kalite kontrol kavramını da
beraberinde getirmiştir.
KALİTE KONTROL :Kalite isteklerini sağlamak için kullanılan uygulama teknikleri ve
faaliyetleridir.
İstatistiksel Kalite Kontrol
Gittikçe artan tüketici ihtiyaçları ve buna bağlı olarak genişleyen üretim hacmi,
muayeneye dayalı bir denetim sisteminin uygulanmasını kimi zaman olanaksız kimi
zaman da yüksek maliyetli kılmaya başlayınca üretilen ürünlerin kalite düzeylerinin
araştırılması ve varsa kalite değişiminin belirlenmesi için “istatistiksel kalite kontrolü
teknikleri”nden yararlanılmaya başlanmıştır.
Bu amaçla ürünlerin tamamını muayene etmek yerine, belirli zaman aralıklarında
prosesi yeterince temsil edebilecek nitelikte örneklemler çekilir ve bu örneklemlerden
gelen sonuçlara dayanarak proses hakkında tahminde bulunulur. Geçmişteki bilgilere
bakılarak geleceğe yönelik tahminlerde bulunulmasında veri madenciliği yöntemleri bir
çok alanda olduğu gibi kalite kontrolde de kolaylık sağlar.
- 32 -
İstatistiksel kalite kontrol tanımı:
Bir ürünün en ekonomik, en yararlı aynı zamanda bir pazara sahip olacak biçimde
üretimini sağlamak üzere, istatistiksel prensip ve yöntemlerin üretimin bütün
aşamalarında uygulanmasıdır.
Kalite Kontrol ve Veri Madenciliği
Veri tabanı üzerinden elde edilen veriler üzerinde uygulanan kalite kontrol
yöntemleriyle, kalite düzeyinin istenilen standartlara uygun olup olmadığı araştırılır. Eğer
kalite düzeyi istenilen standartlara uygun değilse, kaliteyi istenilen seviyeye çıkartmak
amacıyla çeşitli önlemler alınır.
Kalite kontrolde veri madenciliğinden yararlanılması, veriye daha çabuk ve kolay
ulaşılmasını, dolayısıyla zaman ve maliyetten tasarruf edilmesini sağlar.
VERİ MADENCİLİĞİ UYGULAMASINA ÖRNEKLER
Veri madenciliği, günümüzde pek çok sektörde önemli kullanım alanlarına sahiptir.
Bugün birçok önemli firmanın, bulunduğu konuma gelmesinde doğru kullanılan veri
madenciliği teknikleri ve uygulamaları önemli yer teşkil etmektedir.
Biyomedikal için veri madenciliği uygulamaları
DNA dizilimi 4 ana blok(nükleotit)tan oluşur. Bunlar ; Adenin(A), Sitozin(S),
Guanin(G) ve Timin(T) dir.
Bu nükleotitler birbirine sarılı bir ağ oluştururlar. Belirli bir sırada dizilen bu
nükleotitlerin oluşturduğu yapıya gen denir.
İnsanda yaklaşık 100.000 gen vardır.
Hastalıklara yol açan gen sıralama örneklerini binlerce gen arasından bulmak oldukça
zor bir iştir. Veri madenciliğinde geliştirilen sıralama örnek analizi ve benzerlik arama
metotları DNA verisi üzerinde analiz yapmayı kolaylaştırmıştır.
Kampanyalarda veri madenciliği uygulamaları
Bu uygulamada bir bankada gerçekleştirilen bir pazarlama kampanyası örneği yer
almaktadır. Bu kampanyada amaç ödeme davranışı “iyi” olan bireysel kredi
kullanıcılarına kredi kartı sunmaktır.
Kampanya için öncelikle ödeme davranışı “iyi” olanların belirlenmesi gerekir.
Bu kampanyada “iyi” ödeme davranışlı müşterinin tanımı ilgili departman yöneticilerinin
karşılıklı görüş alışverişleri sonunda saptanmıştır.
Öncelikle;
•
•
Kredi ödemesini süresi içinde yapanlar ve
Kredi ödemesini süresi içinde yapmayanlar filtreleme yöntemiyle ayrıştırılmıştır.
- 33 -
Ödemesini zamanında yapmayanlar ise gecikme sürelerine göre sınıflandırılmıştır:


Kredi geri ödemesini belli bir zamandan fazla geciktirenler
Kredi geri ödemesini belli bir zamandan fazla geciktirmeyenler
Ödemesini belli bir zamandan fazla geciktirmeyenler bu kez geciktirme sayılarına
göre sınıflandırılmıştır:


Bir kez geciktirenler
Birden fazla geciktirenler
Çok karmaşık gibi görünen bu sınıflandırmalar, veri ambarlarında depolanan
veriler kullanılarak on binlerce mevcut müşteri için teknolojik destekle, çok kısa bir
sürede yapılmıştır ve ödeme davranışı “iyi” olan müşteriler tespit edilerek kredi kartı
hedef pazarı belirlenmiştir. Bu pazar;
1)Kredi ödemesini süresi içinde yapanlar
2)Kredi ödemesini süresi içinde yapmayanlar arasında ödemesini belli bir zamandan
fazla geciktirmeyenler
3)Kredi ödemesini süresi içinde yapmayanlar arasında ödemesini belli bir zamandan
fazla geciktirenler içinden bir kez geciktirenlerden oluşmaktadır.
Perakende satış sektöründe veri madenciliği uygulamaları
Amerika’da 2 milyar dolar yatırımı olan 15 eyalette 129 mağazası bulunan bir
firma yapılan çalışmalarla şu sonuca varılmıştır: “Mağazaya gelen müşteriler,
promosyonlu ürünlerin bulunduğu sol taraftaki raflara yönelmekte ve alışveriş için diğer
bölümleri gezmeye ihtiyaç duymamaktadır.”
Bu sonuç ardından mağazanın dekorunda değişiklik yapılmış ve satışlarda artış
gözlenmiştir.
Sağlık hizmet sektöründe veri madenciliği uygulamasına örnekler
MapInfo şirketi, haritalama teknolojisini kullanarak hastaların yoğun olarak
bulunduğu bölgeleri işaretlemekte ve bu sayede bu bölgelere daha iyi hizmet
sunabilmektedir.
Rochester Kanser Merkezi Bölümü, araştırmalarında KnowledgeSEEKER adlı karar
ağacı tekniğini kullanır
Türkiye’den Örnekler
AXA OYAK Sigorta İşlemleri ve Ödemeler’den Sorumlu Genel Müdür Yardımcısı Ali
Erlat “SAS Veri Ambarı (Data Warehouse) ile tespit edilmiş sahtekârlıklarla ilgili kayıplara
ilişkin veri kümeleri arasındaki ilişkileri ortaya çıkararak, müşteri verilerini bölümlere
ayırabiliyoruz. AXA OYAK, sigorta ödemelerinin %5’inin hileli işlemlerden kaynaklandığını
ortaya çıkardı; bunlar bugün düzeltiliyor ve gelecekte de önlenecek. Sigorta
ödemelerimizin %5-7 arasında azaldığını güvenle söyleyebilirim. Aynı zamanda, pazar
payımızı da artırdık. Bunlar, SAS’ı kullanarak veri madenciliği ve analiz prosesi
işlemlerimizin iki doğrudan sonucudur.” değerlendirmesini yapıyor.
TURKCELL, SAS'la başlattığı Kredi Derecelendirme Projesi ile müşterilerin farklı
- 34 -
ödeme davranışları hakkında yeni bilgilere sahip olmuş ve doğru ödeme modelleri
kurmuştur. Böylelikle müşteri memnuniyetini artırmanın yanı sıra, tahsilat sürecindeki
maliyet ve riskleri azaltarak büyük bir avantaj sağlamıştır.
TÜİK, ülkemizde ulusal ve uluslararası boyutta yararlar sağlayacağı inancıyla, en
uçtaki kullanıcıdan, karar vericiye kadar geniş bir yelpaze içinde yer alan tüm kurum ve
kuruluşların veri ve bilgi ihtiyacını gidermeyi amaçlamaktadır. İşte bu noktada SAS'ın İş
Zekâsı Çözümleri'nin önemli parçalarından biri olan Analiz ve Raporlama Çözümleri, söz
konusu uçtan uca ihtiyaçlara yanıt vermektedir. Türkiye'nin milyarlarca verisini kişi,
kurum ve özel sektörün ihtiyaçlarına göre bilgiye dönüştürmektedir.
- 35 -
Download