tez yazım kılavuzu - Gazi Üniversitesi Açık Arşiv

advertisement
DOĞRUDAN PAZARLAMA ARACI OLARAK TELE PAZARLAMA İÇİN
VERİ MADENCİLİĞİ ÇÖZÜMLERİ: BANKA MÜŞTERİLERİ ÜZERİNE
BİR UYGULAMA
Muhammed Bilgehan AYTAÇ
YÜKSEK LİSANS TEZİ
YÖNETİM BİLİŞİM SİSTEMLERİ ANABİLİM DALI
GAZİ ÜNİVERSİTESİ
BİLİŞİM ENSTİTÜSÜ
ARALIK 2013
ANKARA
ii
Muhammed Bilgehan AYTAÇ tarafından hazırlanan DOĞRUDAN PAZARLAMA
ARACI
OLARAK
TELE
PAZARLAMA
İÇİN
VERİ
MADENCİLİĞİ
ÇÖZÜMLERİ: BANKA MÜŞTERİLERİ ÜZERİNE BİR UYGULAMA adlı bu
tezin Yüksek Lisans tezi olarak uygun olduğunu onaylarım.
Doç. Dr. Hasan Şakir BİLGE
Tez Yöneticisi
Bu çalışma, jürimiz tarafından oy birliği ile Yönetim Bilişim Sistemleri Anabilim
Dalında Yüksek lisans tezi olarak kabul edilmiştir.
Başkan:
: Prof. Dr. Hadi GÖKÇEN
Üye
: Doç. Dr. Metehan TOLON
Üye
: Doç. Dr. Hasan Şakir BİLGE
Tarih
: 23/12/2013
Bu tez, Gazi Üniversitesi Bilişim Enstitüsü tez yazım kurallarına uygundur.
iii
TEZ BİLDİRİMİ
Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde
edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu
çalışmada orijinal olmayan her türlü kaynağa eksiksiz atıf yapıldığını bildiririm.
Muhammed Bilgehan AYTAÇ
iv
DOĞRUDAN PAZARLAMA ARACI OLARAK TELE PAZARLAMA İÇİN
VERİ MADENCİLİĞİ ÇÖZÜMLERİ: BANKA MÜŞTERİLERİ ÜZERİNE
BİR UYGULAMA
(Yüksek Lisans Tezi)
Muhammed Bilgehan AYTAÇ
GAZİ ÜNİVERSİTESİ
BİLİŞİM ENSTİTÜSÜ
Aralık 2013
ÖZET
Veri tabanından bilgi keşfi veya diğer bir deyişle veri madenciliği; yöneticilerin
karar vermesine yardım eden, işe yarar ve gizli örüntülerin veri ambarlarından
ortaya çıkarılması olarak tanımlanabilir.
Günümüzde gelişen teknoloji ile beraber veri depolama kolaylaşmış ve
yaygınlaşmıştır. Veri madenciliği yöntemleri de buna bağlı olarak her geçen gün
yaygınlaşmakta ve çok çeşitli bilim dallarında uygulama alanı bulabilmektedir.
Bu
yöntemler
işletmeler
tarafından
da
bir
rekabet
aracı
olarak
kullanılmaktadır.
Bu tez çalışmasında veri madenciliği yöntemlerinden bahsedilmiştir ve alan
yazında pazarlama ve diğer işletmecilik alanlarında gerçekleştirilmiş veri
madenciliği çalışmaları incelenmiştir. Doğrudan pazarlama ve tele pazarlama
hakkında bilgiler paylaşılmıştır. Takiben, alanda gerçekleştirilen çalışmalar için
çok önemli bir yazılım olan WEKA ve kullanımı hakkında aydınlatıcı bilgiler
sunulmuştur. Bu konuda bir uygulama gerçekleştirilmiş; banka müşterilerini
v
barındıran bir veri seti üzerinde örnek bir veri madenciliği süreci
geliştirilmiştir.
Veriler bir bankanın çağrı merkezinden elde edilmiştir. Uygulama kapsamında
WEKA isimli veri madenciliği yazılımı kullanılmıştır. Birliktelik kuralları ve
nitelik seçimi veri madenciliği teknikleri kullanılmıştır.
Uygulama aracılığıyla bankaların ve diğer tele pazarlama firmalarının nasıl bir
veri madenciliği süreci geliştirebileceği ortaya konmuştur.
Bilim Kodu
Anahtar Kelime
Sayfa Adedi
Tez Yöneticisi
: 1146.1.180
: veri madenciliği, doğrudan pazarlama
: 78
: Doç. Dr. Hasan Şakir BİLGE
vi
DATA MINING SOLUTIONS FOR TELE MARKETING AS A DIRECT
MARKETING TOOL: AN APPLICATION ON BANK COSTUMERS
(M.Sc. Thesis)
Muhammed Bilgehan AYTAÇ
GAZİ UNIVERSITY
INFORMATICS INSTITUTE
December 2013
ABSTRACT
Knowledge discovery from database or in other words data mining; can be
described as; extracting useful and undiscovered patterns from databases which
help managers decision making.
Today, with rapidly evolving technology, data storing becomes easier and more
common. In paralel with this, data mining techniques are getting widespread
day by day and being applied on various scientific area. These techniques are
also being applied in businesses as a competitive tool.
In this thesis, there are information about data mining techniques and it looks
into data mining applications in literature, that are performed in marketing and
other business fields. It also includes information about direct marketing and
tele marketing. Following this, informative tips are demonstrated about WEKA
and its usage which is one of the most important software for this field. An
application is developed on this subject; an example of data mining process is
developed based on a dataset that collected from a bank’s customers.
vii
The dataset is procured from a bank’s call center. WEKA data mining software
is used within the context of application. The Data mining techniques used are
associate rules and attribute selection.
Through this application, the study aims to illustrate how banks and other
telemarketing firms can develop a data mining process.
Science Code
Key Words
Page Number
Adviser
:
:
:
:
1146.1.180
data mining, direct marketing
78
Assoc. Prof. Dr. Hasan Şakir BİLGE
viii
TEŞEKKÜR
Çalışmam boyunca her aşamada bana gerekli desteği ve sabrı gösteren Hocam Doç.
Dr. Hasan Şakir BİLGE başta olmak üzere, yaptıkları çalışma ile bizlere ışık tutan ve
veri tabanını bizlere sağlayan; Paulo Cortez’e “Universidade do Minho”, Sérgio
Moro’ya ve Raul M. S. Laureano’ya “University Institute of Lisbon”, teşekkürü borç
bilirim. Ayrıca çalışmam boyunca bana destek olan Aksaray Üniversitesi İktisadi ve
İdari Bilimler Fakültesi Yöneticilerine, İşletme Bölümü Başkan ve Başkan
Yardımcılarına ayrı ayrı teşekkürler.
ix
İÇİNDEKİLER
Sayfa
ÖZET........................................................................................................................... iv
ABSTRACT ................................................................................................................ vi
TEŞEKKÜR .............................................................................................................. viii
İÇİNDEKİLER ........................................................................................................... ix
ÇİZELGELERİN LİSTESİ ......................................................................................... xi
ŞEKİLLERİN LİSTESİ ............................................................................................. xii
RESİMLERİN LİSTESİ ........................................................................................... xiii
1. GİRİŞ ....................................................................................................................... 1
1.1 Çalışmanın Amacı .............................................................................................. 3
1.2. Çalışmanın Kapsamı ......................................................................................... 4
2. İLGİLİ YAYIN TARAMASI .................................................................................. 6
3. DOĞRUDAN PAZARLAMA VE TELE PAZARLAMA .................................... 11
4. VERİ MADENCİLİĞİ ........................................................................................... 17
4.1 Veri Madenciliği Süreci ................................................................................... 20
4.1.1 İşi kavrama ................................................................................................ 22
4.1.2 Veriyi kavrama .......................................................................................... 22
4.1.3 Veriyi hazırlama ........................................................................................ 23
4.1.4 Modelleme................................................................................................. 23
4.1.5 Değerlendirme ........................................................................................... 24
4.1.6 Yayılım ...................................................................................................... 25
4.2 Veri Madenciliği Teknikleri ............................................................................. 27
4.2.1 Sınıflandırma ve regresyon ....................................................................... 28
4.2.2 Kümeleme ................................................................................................. 33
4.2.3 Birliktelik kuralları ve sıralı örüntüler ...................................................... 34
4.3 Veri Madenciliği Uygulama Alanları............................................................... 35
5. WEKA Yazılımı ..................................................................................................... 38
5.1 WEKA Explorer ............................................................................................... 39
6. UYGULAMA ........................................................................................................ 43
6.1 Kullanılan Veri Tabanı..................................................................................... 44
x
6.3. Uygulamanın CRISP-DM Yöntemine Göre Gerçekleştirilmesi ..................... 47
6.3.1 İşi kavrama ................................................................................................ 47
6.3.2. Veriyi kavrama ......................................................................................... 48
6.3.3. Veriyi hazırlama ....................................................................................... 48
6.3.4. Modelleme................................................................................................ 51
6.3.5 Değerlendirme ........................................................................................... 55
6.3.6 Yayılım ...................................................................................................... 56
7.SONUÇLAR ........................................................................................................... 57
KAYNAKLAR .......................................................................................................... 59
EKLER ....................................................................................................................... 67
EK-1 En çok tercih edilen veri madenciliği yazılımları ............................................ 68
EK-2 Nitelik Seçimi analiz sonuçlarının WEKA’daki görünümü ............................. 71
EK-3 Birliktelik kuralları analizi sonuçlarının WEKA’daki görünümü .................... 73
ÖZGEÇMİŞ ............................................................................................................... 78
xi
ÇİZELGELERİN LİSTESİ
Çizelge
Sayfa
Çizelge 3.1 Pazarlama karması elemanları ...........................................................11
Çizelge 4.1 Veri madenciliği ile istatistiksel analizlerin karşılaştırılması ............19
Çizelge 6.1 Verilerin istatistiksel görünümü .........................................................49
Çizelge 6.2 Nitelik seçme işlemleri ve sonuçları ...................................................51
Çizelge 6.3 Bütün niteliklerin PredictiveApriori algoritması ile
analiz edilmesi ....................................................................................52
Çizelge 6.4 Eğitim düzeyi ile Hedef değişken (y) arasındaki ilişkin
PredictiveApriori ile analiz edilmesi ...................................................53
Çizelge 6.5 Konut kredisi, bireysel kredi ve yükümlülüğü yerine getirilmeyen
kredinin olup olmaması y arasındaki ilişkinin Apriori ile
analiz edilmesi .....................................................................................53
Çizelge 6.6 Konut kredisi, bireysel kredi, yükümlülüğü yerine getirilmeyen olup
olmaması ile y arasındaki ilişkinin PredictiveApriori ile
analiz edilmesi .....................................................................................54
Çizelge 6.7 Meslek, konuşma süresi ve evlilik durumu arasındaki ilişkinin
PredictiveApriori algoritması ile analiz edilmesi ................................55
xii
ŞEKİLLERİN LİSTESİ
Şekil
Sayfa
Şekil 4.1 Çapraz Endüstri Veri Madenciliği Standart Süreci ................................. 21
Şekil 4.2 Hu ve Jha ‘nın veri madenciliği süreci .................................................... 21
Şekil 4.3 Modelleme süreci .................................................................................... 24
Şekil 4.4 Yayılım süreci ......................................................................................... 26
Şekil 4.5 Genetik algoritma blok diyagramı .......................................................... 32
Şekil 4.6 K ortalamalar tekniğiyle objeler setinin kümelenme süreci ................... 34
xiii
RESİMLERİN LİSTESİ
Resim
Sayfa
Resim 3.1 Kitlesel pazarlamaya örnek olarak Coca-cola’nın ilk gazete reklamı .. 12
Resim 5.2 WEKA ekran çıktısı .............................................................................. 39
Resim 5.3 WEKA Explorer ekran çıktısı ............................................................... 41
Resim 6.1 The UCI Machine Learning Repository ............................................... 43
Resim 6.2 Kullanılan verilerin Microsoft Excel dosyası olarak görünümü ............ 46
1
1. GİRİŞ
1992 yılında yapılan bir çalışmada dünyadaki toplam bilgi miktarının her sene 2’ye
katlandığı ifade edilmektedir [1]. 2011’de ise 20 ayda bir dünyadaki toplam verinin
2’ye katlandığı iddia edilmiştir [2]. Veri miktarına bağlı olarak toplam bilgi
miktarının da hızla arttığını söylemek mümkündür. 2011 yılında yapılan bir
çalışmada ise dünyadaki toplam verinin 295 exabayt olduğu söylenmiştir [3]. Veri
miktarının artması veri madencilerinin hem çalışma alanlarını genişletmiş hem de bu
alana olan ilgiyi arttırmıştır.
Veri tabanından bilgi keşfi olarak da bilinmekte olan veri madenciliği, veri tabanı
içerisinde, karar vermede işe yarayan ilginç örüntülerin ortaya çıkarılma süreci
olarak tanımlanmaktadır [4]. Bu işlem matematik disiplinleri, modelleme teknikleri,
veri
tabanı
teknolojisi
ve
çeşitli
bilgisayar
yazılımları
kullanılarak
gerçekleştirilmektedir [5]. Günümüzde veri madenciliği çok geniş bir yelpazede
uygulama alanı bulmaktadır. Bankacılık, sigortacılık, pazar araştırmaları bunların en
klasik örnekleri olmakla beraber, uygulamada çok farklı alanlardan örneklerle
karşılaşmak mümkündür. Örneğin; Amerika Birleşik Devletleri’nin yurtiçi güvenliği
sağlamada ve potansiyel terörizm tehditlerinden kaçınmada veri madenciliği
kullandığı göze çarpmaktadır. A.B.D. İç Güvenlik Bakanlığı Ağustos 2006’da
hazırladığı bir raporda terörizmle mücadele kapsamında veri madenciliği üzerine
kurulmuş 12 sistemden bahsedilmektedir [6]. Yine bir başka dikkat çekici örnekte
çimentonun basma dayanaklılığı veri madenciliği kullanılarak hesaplanmaya
çalışılmıştır [7]. Veri toplamanın kolaylaştığı ve veri miktarının her geçen gün hızla
arttığı göz önünde bulunulursa veri madenciliğinin ileride çok daha yaygın bir
çalışma alanı bulacağını söylemek mümkündür. Ancak bu çalışmalar yöneticilerin
karar almalarına yaptıkları katkı oranında başarılı olacaktır. Çünkü nihayetinde veri
madenciliği bir sihir değildir ve her zaman iyi sonuçlar vermez [8].
2
Şüphesiz veri madenciliğinin en çok uygulandığı alanlardan birisini işletme
faaliyetleri teşkil etmektedir. Bunlara pazar sepet analizi, risk analizi, satış tahmini,
müşteri ilişkileri yönetimi örnek gösterilebilir [9].
Piyasalardaki yoğun rekabet, firmaları pazardaki paylarını ellerinde tutmaya ve
arttırmaya yönelik yenilikçi yollar tanımlamaya zorlamaktadır. Müşteriler ile
etkileşimin bu derece yüksek olduğu bir dönemde stratejik ve rekabetçi bir müşteri
ilişkileri stratejisi geliştirmek son derece önemlidir. Müşteri davranış ve
karakteristiklerini anlayabilmek ve analiz edebilmek, potansiyel müşterileri kazanma
ve maksimum müşteri değeri oluşturma amacıyla geliştirilen rekabetçi bir müşteri
ilişkileri stratejisinin temelini oluşturmaktadır. Bu kapsamda büyük müşteri veri
tabanlarından bilgi çıkarmada ve tanımlamada başarılı olan, kullanışlı veri
madenciliği araçları, müşteri ilişkileri kararlarını almada en büyük destekleyici
araçlardan birisidir [5].
Bilgi çağı bireyleri alışkanlık ve davranış bakımından çok değişken ve tutarsız
tutumlar sergileyebilmektedir. Müşteri sadakati sağlamak işletmeler için her geçen
gün daha da zorlaşmakta, yeni üretim teknolojileri piyasalara sürekli yeni ürün ve
hizmetler girmesine sebep olmaktadır. Eski model olarak ürün odaklı tanımlanan
tasarla-üret-sat, müşteri odaklı olarak tanımlanan sat-üret-yeniden tasarla modeliyle
yer değiştirmiştir [10]. Böyle bir ortamda işletmeler için klasik karar destek
sistemlerinin yetersiz olduğu açıktır. Yukarıda da bahsedildiği gibi işletmecilik
alanında çeşitli amaçlarla hizmet eden veri madenciliği faaliyetleri kullanılmaktadır.
Bu faaliyetler işletmelere proaktif olmayı, yapılan faaliyetlerdeki hata payını en aza
indirmeyi, tüketim toplumu olarak ifade edilen günümüz tüketicilerin değişken
tutum, istek ve ihtiyaçlarını daha isabetli bir şekilde karşılayabilmeyi sağlamaktadır.
Günümüz pazar araştırmaları ve pazarlama yöntemleri de bu yönde veri
madenciliğinden istifade edebilmektedir.
Müşteriye ulaşmak için genel olarak
pazarlama stratejileri 2 grupta incelenmektedir: kitle pazarlama ve doğrudan
pazarlama. Bunlardan ilki olan kitlesel pazarlamanın, bu kadar yoğun rekabetin
yaşandığı günümüz dünyasında etkisi giderek azalmaktadır [11]. Doğrudan
3
pazarlama ise işletmeleri, müşteriler hakkında derinlemesine bilgiler edinmeye
zorlamaktadır. İşte tam bu noktada işletmeler veri madenciliği yöntemleriyle
ürettikleri bilgiler doğrultusunda hedef pazar stratejilerini yön verebilmekte,
müşterilerine daha iyi pazar önerileri sunabilmektedirler. Bu pazar önerilerin
müşteriye ulaştırılmasında kullanılan başlıca doğrudan pazarlama yöntemlerinden
birisi ise tele pazarlamadır. Günümüz firmaları çağrı merkezleri aracılığıyla
müşterileriyle sürekli ve sadık ilişkiler kurmaya hedeflemektedir. Yapılan telefon
çağrıları ile müşterilere yeni teklifler sunabilmekte, gelen telefon çağrıları ile de
müşteri şikâyet ve sorunlarıyla ilgilenebilmektedirler. Firmalar yapılan bu çağrıları
hem müşteri memnuniyetini ölçebilmek hem personel performansını ölçebilmek için
kayıt altına almakta ve yapılan çağrılarda elde edilen müşteri bilgilerini veri
tabanlarında saklamaktadırlar.
Bütün bunlar değerlendirildiğinde bu tez çalışmasında ele alınacak konunun ve
uygulamanın amacı ve kapsamı daha anlamlı ve gerekli bir hale gelmektedir. Burada,
veri madenciliği ve uygulama alanları teorik olarak özetle açıklanmaya çalışılmış,
alanda yapılan çalışmalara değinilmiş, genel pazarlama bilgileri ışığında doğrudan
pazarlama ve tele pazarlama konuları ele alınmıştır. Bu alanda yapılacak çalışmalar
için kullanılan kullanışlı bir yazılım olan WEKA hakkında özet bilgiler sunulmuştur
ve bu yazılım aracılığıyla tele pazarlama üzerine örnek bir veri madenciliği
uygulaması gerçekleştirilmiştir.
1.1 Çalışmanın Amacı
Bu çalışmanın amacı doğrudan pazarlamanın bir alt dalı olan tele pazarlama için
örnek bir veri madenciliği süreci geliştirmektir. İlgili yayınlarda karşılaşılan
çalışmalar ve uygulamalar analiz edilmiş ve hizmet sektörünün bir alt sektörü olarak
tabir edebileceğimiz finans sektöründe hizmet veren bankalardan, bu sektörde
karşılaşılan tüketicilere yönelik gerçekleştirilen tele pazarlamanın üzerinde
durulmuştur.
4
1.2. Çalışmanın Kapsamı
Çalışma kapsamında ilk olarak veri madenciliği ve tele pazarlama hakkında bilgiler
sunulmuştur. Takip eden kısımda alanda karşılaşılan benzer çalışmalara ışık
tutulmuştur. WEKA yazılımı hakkında gerekli açıklamalar yapıldıktan sonra çalışma
kapsamında yapılan uygulamaya geçilmiştir.
Uygulama dâhilinde Makine öğrenmesi ve Akıllı Sistemler Merkezi (The UCI
Machine Learning Repository) veri tabanı arşivinden sağlanan veri tabanı
kullanılmıştır. Veri tabanı Portekiz’de bulunan bir bankanın müşterileri hakkındaki
verilerden oluşmaktadır. Türkiye’de bulunan bir tele pazarlama veri tabanına
ulaşabilmek mümkün olmadığından, tüketim kültürü Türkiye’ye daha yakın olduğu
düşünülen Portekiz seçilmiştir.
İlgili Banka, müşterilerine hizmet olarak sunduğu kampanya teklifini çağrı
merkezlerini kullanarak müşterilerine ulaştırmıştır. Banka bu çağrılar esnasında
müşterilerinin aşağıda sıralanan niteliklerini kayıt altına almıştır:
-
Müşterilerin yaşları,
-
Meslekleri,
-
Evlilik durumları,
-
Eğitim düzeyleri,
-
Yükümlülüğü yerine getirilmeyen kredinin olup olmaması,
-
Yıllık ortalama bakiyeleri,
-
Konut kredisi kullanımı,
-
Kişisel kredi kullanımı,
-
Müşteriyle iletişimde kullanılan araç,
-
Müşteriyle en son görüşülen ay,
-
Müşteriyle en son görüşülen gün,
-
Görüşme süresi,
-
Kampanya sürecinde müşteriyle iletişim kurma sayısı,
5
-
Müşteriyle hakkında iletişim kurulan en son kampanyadan bu yana geçen gün
sayısı,
-
Kampanyadan önce müşteriyle kurulan toplam iletişim sayısı,
-
Bir önceki pazarlama önerisinin başarılı olup olmadığı,
-
Mevcut kampanyanın sonucu.
Bu değişkenler arasında ilişkiler kurulup faydalı bilgiler üretilmeye çalışılmıştır.
İlgili banka temel alınarak sektörde yer alan bütün işletmeler için örnek bir veri
madenciliği süreciyle birlikte yararlı bilgiler ve öneriler sunulması amaçlanmıştır.
Çalışma kapsamında WEKA isimli veri madenciliğinde sıkça kullanılan yazılım
tercih
edilmiştir
ve
uygulama
ağırlıklı
olarak
bu
yazılım
üzerinden
gerçekleştirilmiştir. İhtiyaç dâhilinde veri tabanları üzerinde gerekli düzeltmeler ve
birleştirmelerin daha sağlıklı bir şekilde yapılabilmesi için Microsoft Excel
programından faydalanılmıştır. Yine veri hazırlama aşamasında SPSS adlı
yazılımdan da faydalanılmıştır. Çalışma boyunca CRISP-DM yöntemi (Çapraz
Endüstri Veri Madenciliği Süreci) takip edilmiştir. Süreçteki her basamak ayrı ayrı
açıklanmaya çalışılmıştır. Ağırlıklı olarak birliktelik kuralları kullanılırken, nitelik
seçimine de başvurulmuştur.
Sonuç olarak bir doğrudan pazarlama aracı olan tele pazarlamanın oluşturduğu veri
tabanı kullananılarak veri madenciliği sürecinin nasıl yönetilebileceği gösterilmiştir.
Takip eden kısımda literatürde pazarlama alanında karşılaşılan veri madenciliği
kullanılarak gerçekleştirilmiş bazı çalışmalar paylaşılacaktır. Şüphesiz veri
madenciliği işletmelerde sadece pazarlama alanında değil, finans, insan kaynakları
gibi diğer faaliyet alanlarında da hizmet etmektedir. Bunlara örnek olması sebebiyle
pazarlama dışında gerçekleşmiş birkaç çalışmaya da değinilecektir.
6
2. İLGİLİ YAYIN TARAMASI
İlgili yayınlarda pazarlama ve veri madenciliği üzerine gerek teorik gerekse
uygulamaya yönelik oldukça fazla çalışma bulunmaktadır. Bu çalışmalar ağırlıklı
olarak satış analizi, müşteri ilişkileri yönetimi ve müşteri segmentasyonu üzerine
yoğunlaşmaktadır.
2005 yılında yapılan bir çalışmada perakendeci bir işletmenin satış hareketleri içeren
veri tabanından hareketle ayrıntılı bir satış analizi yapılmıştır. Çalışma sonucunda
harcama tutarına göre yüksek güvenilirliğe sahip karar ağaçları oluşturulmuş ve bu
karar ağaçları incelendiğinde işletmenin müşterilerinin %20.92 ‘sinin toplam
satışlarının yaklaşık %63.36’sını gerçekleştirdiği gibi sonuçlar elde edilmiştir [12].
Sönmez ve Kalkan (2001) yaptıkları bir sepet analizi çalışmasında Gimat A.Ş adlı
perakendeci işletmenin veri tabanındaki kayıtlı müşterileri incelemiş ve en çok
satılan ürünlerin domates, ekmek, salatalık, yumurta ve karpuz gibi ürünler olduğunu
ortaya çıkarmışlardır. Bu sonuç yazarlar tarafından şöyle yorumlanmış ve ilişki
kurulmaya çalışılmıştır [14]:
“Kullanılan veriler yaz ayında alınmış olduğu için en çok satılan ürünler domates,
ekmek, salatalık gibi ürünler bunun yanında da yumurta, karpuz gibi ürünler çıktı.
Bu verilerden yola çıkarak insanlarımızın yaz aylarında özellikle hafif yemeklere
yöneldiklerini özellikle salatanın çok fazla tüketildiğini bunun yanında domatesin ve
yumurtanın çok fazla satılmasından menemenin de çok tüketilen yemekler arasında
olduğunu ayrıca meyvelerin de yazın yüksek miktarda tüketildiğini söyleyebiliriz.”
Ngai ve arkadaşları (2008) veri madenciliğinin müşteri ilişkileri yönetimi alanında
ilk tanımlayıcı alanyazın taramasını gerçekleştirmişlerdir. 2000-2006 yılları arasında
900 makale incelenmiş ve 87’si ilgili bulunup seçilmiştir. Çalışma bu alanda
araştırma yapan yazarlar için çok önemli bir alanyazın taraması olarak göze
çarpmaktadır [5].
7
Akbulut (2006) yaptığı yüksek lisans tez çalışmasında bir kozmetik markasının
müşterilerini kümeleme ve sınıflandırma veri madenciliği yöntemlerini kullanarak
müşteri segmentasyonu gerçekleştirmiştir [17].
Emel ve Taşkın (2005) birliktelik kuralları ile veri madenciliği üzerinden pazarlama
stratejisi oluşturmaya çalışmışlardır. Oluşturdukları bu stratejiyi Boston Danışma
Grubu’nun matrisinden faydalanarak formüle etmişlerdir.[18].
Emel ve Taşkın’ın 2010 yılında yaptıkları bir başka çalışmada, perakendeci
işletmenin belirli bir dönem boyunca alışveriş yapmış müşterilerini Kohonen tekniği
ile kümelemişlerdir. Yapılan analiz ile işletmenin mevcut pazarının etkin pazar
bölümlerine ayrılabilmesi için önceden bilinmeyen önemli müşteri özellikleri ve
önem dereceleri de ortaya çıkarılmıştır [19].
Ulaş (1999) gerçekleştirdiği yüksek lisans çalışmasında bir perakendeci işletmenin
mal satışları arasındaki ilişkileri incelemek üzere ilişki madenciliği çalışması
gerçekleştirmiştir. Ana Bileşen Analizi ve k-Ortalama Öbeklemesi istatistiksel
tekniklerini kullanarak mal satışları arasındaki ilintileri bulmaya çalışmışlardır[8].
Timor ve Şimşek (2008) yine perakendeci bir işletmenin verilerini Clementine
programı aracılığıyla analiz ederek birliktelik analiz ve karar ağaçları kullanarak
müşterilerin satın alma davranışını etkileyen değişkenleri ortaya çıkarmışlardır [20].
Birant ve arkadaşları (2010) bir mağaza zincirinden edindikleri verilerle hangi
şubede, hangi gün, hangi ürünlerin satıldığını belirlemeye yönelik bir uygulama
yapmışlardır. Müşterilerin satın alma alışkanlıklarını anlamaya çalışan yazarlar bu
çalışmayı gerçekleştirirken birliktelik kurallarını kullanmışlardır [21].
Chung and Grimes (2005) veri madenciliği ve pazarlama araştırmalarının gizlilik
ilkesiyle olan ilişkisini irdeleyen bir tarama gerçekleştirmişlerdir. Yazarlar özellikle
çocukların kullandığı oyun sitelerinin üzerinde durmuşlardır ve veri madenciliğinin
etik yönüyle ilgilenmişlerdir [22].
8
Kalikov (2006) gerçekleştirdiği bir lisansüstü çalışmada bir yayınevinden elde ettiği
veriler ile e-ticaret üzerine bir veri madenciliği çalışması gerçekleştirmiştir. Yazar
müşterilerin ilgi alanlarına göre kitap tavsiyesinde bulunacak bilgiler üretmeyi
amaçlamıştır [23].
Aydoğan ve Gencer (2007) kaba küme teorisinin genel kavramları üzerinde durmuş
ve sınıflandırma amacıyla yapılan çalışmaları inceleyen bir yayın taraması
sunmuşlardır [24].
Schertel (2002) yazdığı doktora tezinde veri madenciliğinin tekstil sektörü üzerinde
olası kullanım alanlarını incelemiş ve iplik fabrikasında elde ettiği veriler ve SAS
Enterprise Miner yazılımı aracılığıyla bir uygulama gerçekleştirmiştir [25].
Hui ve Jha (2000) uluslararası bir firmayla ortaklaşa gerçekleştirdiği veri madenciliği
çalışmasında müşteri hizmetleri üzerinde çalışmışlardır ve yaptıkları uygulama
kapsamında
iki
müşteri
hizmetleri
aktivitesi
üzerine
veri
madenciliği
gerçekleştirmişlerdir; karar destek ve makine hatası tanımlama [26].
Lien (2005) yaptığı lisansüstü çalışmada müşteri segmantasyonu üzerine çalışmış ve
iki aşamalı bir veri madenciliği uygulaması gerçekleştirmiştir. İki aşamalı olarak
müşteri grubuna uygulanan çalışmada ilk olarak k-ortalamar tekniği daha sonra
SOMs (Özdüzenleyici haritalar) uygulanmıştır [29].
Liu ve Schumann (2005) kredi puanlamasında nitelik seçimi üzerine bir çalışma
yapmışlardır. Çalışma dört adet nitelik seçimi algoritmanın kredi puanlama modeli
üzerindeki şu üç özelliğe etkisini araştırmıştır: modelin sadeliği, modelin hızı ve
modelin doğruluğu. Gerçek bir veri seti üzerinde çalışan yazarlar 4 adet
sınıflandırma algoritması kullanmıştır; model ağacı, sinir ağları, lojistik regresyon ve
k ortalamalar [30].
9
Chen ve arkadaşları (2005) çok mağazalı çevrelerde veri madenciliğinde karşılaşılan
sorunlardan birisine dikkat çekmişlerdir. Çok mağazalı çevrelerde çalışılan ürünün
bütün mağazalarda her zaman rafta olacağı varsayımını problem olarak
tanımlamışlardır ve zincir mağaza birliktelik kuralı isimli bir algoritma
geliştirmişlerdir [31].
Giudici ve Passerone (2002) istatistiksel birliktelik kuralları ve özellikle logaritmik
lineer ve grafiksel modellerin tüketici davranış araştırmalarına nasıl etkili bir şekilde
uygulanabileceğini anlatmışlardır. Yazarlar ayrıca sepet analizinde karşılaşılan bazı
metodolojik sorunları ve model seçme prosedürlerini de tartışmışlardır [32].
Ay ve Çil (2008) mağaza içi yerleştirme de veri yönelimli bir karar destek
uygulaması sunmuşlardır. Çalışmada birliktelik kuralları kullanılmış ve yazarlar veri
madenciliği kullanılarak yerleşim düzeni oluşturmayı gerçekleştiren bir metodoloji
sunmuşlardır. Çalışma Türkiye’nin önde gelen perakende işletmelerinden olan
Migros A.Ş üzerinde gerçekleştirilmiş olup yazarlar çok boyutlu ölçekleme analizi
ile ürün haritası oluşturmuşlardır ve birliktelik kurallarıyla önemli bulgulara
ulaşmışlardır. Bulgulardan bazıları aşağıdaki gibidir [33]:
“Yumurta ürününü alan müşteriler %77 olasılıkla Süt ve süt ürünlerini de
almaktadır. Bu ürünlerin veri setindeki işlemlerde birlikte bulunma olasılığı
%5,58’tir. Tatlılar ve hamur işleri ürününü alan müşteriler %69 olasılıkla Çerezler
ürününü de almaktadır. Bu ürünlerin veri setindeki işlemlerde birlikte bulunma
olasılığı %5,00’dir.”
Veri madenciliği konusundaki ilgili yayınlar oldukça farklı alanlardan çalışma
barındırmaktadır. İşletmeleri ilgilendiren finans, sigortacılık gibi diğer alanlarda da
yapılmış oldukça fazala veri madenciliği çalışması bulunmaktadır.
Govea ve arkadaşları (2011) kendi geliştirdikleri restoran öneri sisteminde
inceledikleri
restoranlar
hakkındaki
veriler
üzerinden
bir
çalışma
10
gerçekleştirmişlerdir ve kavramsal bilginin bu öneri sistemindeki etkisini
sorgulamışlardır [15].
2009 yılında Küçüksille tarafından gerçekleştirilen bir doktora tezinde ise veri
madenciliği kullanılarak hisse senedi portföyü oluşturulmaya çalışılmıştır. 122 adet
işletmenin 1995 – 2007/06 dönemindeki aylık ortalama getirileri üzerinden genetik
algoritma kullanılarak farklı portföyler oluşturulmuştur [16].
Sermaye Piyasası Kurulu’nun Araştırma Raporu’nda bulunan bir çalışmada
Koyuncugil (2008) tarafından, borsa şirketlerine yönelik olarak veri madenciliğine
dayalı bir gözetim sistemi sunulmuştur. Veri madenciliği kullanılarak riskli
şirketlerin ortaya çıkarılması hedeflenmiştir [13].
Xiong ve arkadaşları (2013) banka müşterilerinin kredi kartı bilgilerini veri
madenciliğiyle inceleyerek kişisel iflası tahmin etmeye dayalı bir sitem kurmuşlardır
[27].
Guo (2003) sigorta sektöründe çalışanlar için veri madenciliği tekniklerine ışık
tutmuştur. Yaptığı çalışmada sigorta riskini modellemede veri madenciliği
yaklaşımını anlatan yazar ayrıca bir uygulama gerçekleşmiştir [28].
İleride bu çalışmaların sayısının ilerleyen teknoloji ve gelişen veri madenciliği
araştırma yöntemleriyle artması beklenmektedir. Takip eden kısımda veri
madenciliğine pazarlama bakış açısıyla nasıl yaklaşılabileceğini göstermek ve
doğrudan pazarlamanın bir aracı olan tele pazarlamanın kavramsal çerçevesini
kavramak amacıyla takip edilen kısımda genel pazarlama teorisi, doğrudan
pazarlama ile doğrudan pazarlama araçları ve tele pazarlama hakkında bilgiler
paylaşılacaktır.
11
3. DOĞRUDAN PAZARLAMA VE TELE PAZARLAMA
Amerikan Pazarlama Derneğine göre pazarlama; müşteriler, alıcılar, paydaşlar ve
toplumun bütünü için değer ifade eden pazar önerilerinin yaratılması, iletişimi,
ulaştırılması ve değişimini kapsayan bir dizi kurum ve süreçtir [34]. Pazarlama
faaliyetlerini bir bütün olarak ele alınan ve literatürde sıkça kullanılan pazarlama
karması kavramı ise 1984 yılında Culliton tarafından işletme yöneticilerinin
“sanatkâr” olarak ifade edilmesi ile doğmuştur. Zamanla çeşitli yazarlar tarafından
irdelenen pazarlama karması kavramı günümüzde en yaygın ve bilinen bir şekilde
ifade edilmesi McCharty tarafından oluşturulmuştur. Buna göre pazarlama karması
elemanları; ürün, fiyat, dağıtım ve tutundurma şeklinde ifade edilmektedir [35]. Bu
ifadelerin İngilizce baş harfleri kullanılarak (product, price, place, promotion) 4P
olarak kısaltılmıştır.
Çizelge 3.1 Pazarlama Karması Elemanları [35]
ÜRÜN
Üretilmekte olan ürünler
Fonksiyonellik, kalite,
ile müşterilerin istek ve
görünüm, ambalajlama,
ihtiyaçları
marka, hizmet, garanti.
karşılnabilmekte midir?
FİYAT
Müşterilerimiz satın alma
Liste fiyatı, indirimler,
isteği içinde bulundukları
kredi şartları.
mal ve hizmetlere ne
kadarlık ödeme yapmayı
düşünmektedirler?
DAĞITIM
Ürünlerimiz doğru yerde,
Yer, Lojistik, kanal
doğru zamanda ve doğru
üyeleri
miktarlarda mı
müşterilerimize
sunulmaktadır?
12
Çizelge 3.1 Pazarlama Karması Elemanları (Devamı) [35]
TUTUNDURMA
Hedef kitle işletme ve
Reklam, halkla ilişkiler,
işletmenin ürünleri
doğrudan pazarlama,
hakkında ne kadar bilgi
satış geliştirme, kişisel
sahibidir?
satış.
Tutundurma bir işletme de satışları arttırmaya yönelik her türlü faaliyet olarak
tanımlanabilir [36]. Bu faaliyetler ise; reklam, kişisel satış, halkla ilişkiler, tanıtım,
satış özendirme ve doğrudan pazarlamadır.
Genellikle pazarlamanın tutundurma çabaları iki tür yaklaşımla sergilenmektedir.
Bunlardan birincisi kitlesel pazarlamayken diğeri doğrudan pazarlama olmaktadır.
Kitlesel pazarlama televizyon, radyo, gazete, internet gibi araçların herkese ayrım
yapılmadan kullanılmasını ifade eder. Bu yöntem genellikle ürün ve hizmetlerin
yoğun bir talebe tabi olduğu durumlarda başarı göstermektedir [5].
Resim 3.1 Kitlesel pazarlama örneği: Coca-Cola’nın ilk gazete reklamı
13
Ne var ki bu yaklaşım günümüz dünyasında gitgide etkisini kaybetmektedir.
Ürünlerin kişilere özel olarak üretildiği ve pazarların yüksek rekabet barındırdığı bir
ortamda kitlesel pazarlama yaklaşımının başarısı sorgulanmaktadır. Hatta bazı
çalışmalar bu reklam ve tutundurma çabalarıyla karşılaşıp ürünü veya hizmeti satın
alan müşterilerin oranını %1 olarak ifade etmişler ve kitlesel pazarlamanın düşük
etkisini gözler önüne sermişlerdir [5].
Doğrudan pazarlama ise muhataplarını ayrıma tutarak, onların karakteristiklerini,
ihtiyaçlarını, tercih ve isteklerini çalıştıktan sonra hedef kitlesini belirler. Böylece
daha fazla tepki almayı umar [5]. Doğrudan pazarlama doğrudan müşteri (consumerdirect) kanallarını kullanarak, pazarlama aracılarını kullanmadan ürün ve hizmetleri
müşterilerine ulaştırır [34]. Doğrudan Pazarlama Birliği (Direct Marketing
Assosication) tarafından ise şöyle tanımlanmıştır [36]:
“Herhangi bir yerde ölçülebilir bir tepki ya da ticari işlemi etkilemek için bir veya
birden fazla reklam medyasını kullanan etkileşimci bir pazarlama sistemidir.”
Genel olarak tercih edilen doğrudan pazarlama kanalları aşağıda sıralanmıştır [34]:
-
Doğrudan posta
-
Tele pazarlama
-
E-mail pazarlama
-
Sesli posta pazarlama
-
Kuponlar
-
Televizyon üzerinden doğrudan geri dönüş ile pazarlama
-
Doğrudan satış
-
Kioks Makinaları
-
Mobil Cihazlar
-
Elektronik pazarlama
Doğrudan pazarlama firmalara çok fazla fayda sağlamaktadır. Firmalar için başarımı
kolay ölçülebilmesi, müşteriyle devamlı ilişkiler kurulabilmesi, rakipler tarafından
daha az görünür stratejilerin izlenebilmesi gibi avantajları pazarlamacıları bu alana
14
teşvik etmektedir. Ayrıca yarattığı çabuk tepki önemli bir avantajdır. Bilgisayarlar,
kablolu yayınlar, tele pazarlama gibi teknolojiler ile müşterilerden anında tepki
alınabilmektedir.
Günümüzde müşteriler hakkında veri toplamanın bu kadar kolay olduğu bir dönemde
doğrudan pazarlama da aynı oranda kolaylaşmakta daha fazla uygulama alanı ve
başarı elde etmektedir. Ayrıca pazarlama yöneticilerinin başlıca hedeflerinden biri
olan pazar bölümleme ve müşteri bölümlendirme de veri madenciliği araçları
oldukça rağbet görmektedir. Gelişen teknoloji ve tüketicilerin bireyselleşmesi bu iki
alanı; veri madenciliği ve doğrudan pazarlama çok sık bir araya getirmeye
başlamıştır.
Doğrudan pazarlamanın en bilinen yöntemlerinden birisi ise yukarıda da paylaşıldığı
üzere tele pazarlamadır. Tele pazarlama ilk olarak 1970’li yıllarda müşteri etkileşimli
satış programları vesilesiyle doğmuştur. Konsept olarak müşterilerin 7 gün 24 saat
arayabildikleri ücretsiz bir telefon numarası vardır ve müşterileri burayı arayarak
ekranda gördükleri ürünü evlerine sipariş ederler [37]. Tele pazarlama zamanla
yaygınlaşmıştır. 1990 yılına gelindiğinde Amerika’da 24 saat yayın yapan 3
televizyon kanalı ve bunların yaklaşık olarak 70 milyon izleyicisi olduğu göze
çarpmaktadır.
Genel bir tanımla tele pazarlama; potansiyel müşterileri çekme, mevcut müşterilere
satış yapabilme ve müşterilerin sorularına yanıt vererek veya sipariş alarak hizmet
sağlama amacıyla telefonların ve çağrı merkezlerinin kullanımı olarak ifade edilebilir
[34].
Firmalar müşterilerden gelen çağrılar için gelen (veya içe doğru) tele pazarlama,
müşterilere yaptıkları çağrılarda ise giden (veya dışa doğru) tele pazarlama
kullanırlar [34].
Tele pazarlama firmaların, satış maliyetlerini düşürmelerine, müşteri tatminini
arttırmalarına ve gelirlerini arttırmalarına yardım etmektedir. Bu avantajına rağmen e
15
yüz yüze iletişime imkân vermemesi, bazen aranılan kişinin yerinde olmaması veya
görüşme talebini reddetmesi, telefonların meşgul olması, uzmanlık gerektirmesi ve
sınırlı bilgi sunması gibi dezavantajları bulunmaktadır. [37].
Zamanla tele pazarlama müşterileri rahatsız edecek seviyelere ulaşmıştır. Dışa doğru
tele pazarlama tarihi olarak en temel doğrudan pazarlama araçlarından biri olarak
kullanılmasına rağmen izinsiz kullanıma açık doğası nedeniyle Amerika Federal
Ticaret Komisyonu tarafından 2003 yılında ”Ulusal Arama Engelleme Kayıt
Merkezi” nin kurulmasına sebep olmuştur. Yaklaşık 191 milyon kişi evlerinin tele
pazarlamacılar tarafından aranmasını istemeyen insan 2009 yılı itibariyle bu merkeze
kayıt olmuştur [34].
Firmalar tele pazarlama faaliyetlerini yönetebilmek için çoğunlukla kendi kurdukları
veya anlaşmalı oldukları çağrı merkezlerini kullanmaktadırlar. Bir çağrı merkezi
bilgisayarlarla desteklenmiş çalışanların, içe doğru aldıkları veya dışa doğru
yaptıkları telefon çağrılarının, otomatik çağrı dağıtım sistemi veya tahmine dayalı
çevirme sistemleriyle kontrol edildiği ve işleme sokulduğu bir operasyonlar
bütünüdür [38]. Günümüzde özellikle hizmet sektöründe çağrı merkezi yaygın bir
şekilde kullanılmaya başlanmıştır. Çünkü müşteriyle yüz yüze iletişime göre daha
ucuzdur [39]. Bu nedenle bütün bankalar çağrı merkezleri kurmakta ve
yönetmektedirler. Ayrıca müşteri tatmininin artması ve müşteri sadakati sağlamaya
yönelik büyük bir fırsat olarak görülen çağrı merkezleri bankalar kadar tüketicilere
de avantaj sağlamaktadır. Aşağıda çağrı merkezlerinin tüketicilere sağladığı faydalar
sıralanmıştır [39]:
1. Müşteriler günümüzde artık hemen hemen bütün bankacılık işlemlerini çağrı
merkezleri aracılığıyla gerçekleştirebilirler.
2. Banka şubesine ulaşmada ve şubede kuyrukta bekleme gibi zaman ve
maliyetlerden tasarruf edebilir.
3. Tüketiciler bulunduğu hemen hemen her yerden telefon aracılığıyla
bankacılık faaliyetlerini gerçekleştirebilir.
16
4. Çağrı merkezlerinde aynı anda çok fazla sayıda müşteriye hizmet
sağlanmakta dolayısıyla müşteri çok fazla bekletilmemektedir.
5. Çoğu 24 saat hizmet veren çağrı merkezleri sayesinde mesai saatleri dışında
hizmet alabilir.
Bütün bu avantajlarına ek olarak çağrı merkezleri bilgisayarlar ile desteklendiği için
oldukça
kolay
veri
toplayabilmektedir.
Veri
tabanı
pazarlaması
üzerine
gerçekleştirilecek çalışmaların bu sebeple tele pazarlama veri tabanını kullanması
oldukça kolay olabilmektedir. Firmalar müşterilerine çağrı merkezleri aracılığıyla
sadece bir ürün veya hizmet teklif etme veya bu ürün veya hizmeti satma işlemiyle
meşgul olmazlar. Ayrıca anket gibi birçok veri toplama araçlarını bu merkezler
aracılığıyla kullanabilirler.
Pazarlama araştırmaları, değişken ve tahmin etmesi zor insan istek ve ihtiyaçlarıyla
ilgilendiği için mutlaka geçerli ve güvenilir veri setlerine ihtiyaç duyar. Güvenilir ve
geçerli veri setlerini tele pazarlama ile oluşturmak mümkündür. Ancak elde tutulan
veri tabanı ne kadar kaliteli olursa olsun sonuçların değerliliği kullanılacak
analizlerin yerinde seçilmesine de bağlıdır. Bu sebeple takip eden kısımda kısaca veri
madenciliği analiz yöntemleri, bir başka ifadeyle veri madenciliği teknikleri
paylaşılacaktır.
17
4. VERİ MADENCİLİĞİ
Günümüzde veri depolama teknik ve sosyal açıdan çok kolay bir hale gelmiştir.
Yaygın
elektronik
cihazlar
kararlarımızı,
tercihlerimizi,
süpermarket
alışverişlerimizi, finansal alışkanlıklarımızı, kazandıklarımızı ve harcadıklarımızı
kaydetmektedir. İnternet bize yığınla bilgi sunmakta aynı zamanda da bütün
tercihlerimizi kayıt etmektedir [2]. Ticari ürünlerin neredeyse tamamına yakınında
barkodların kullanılması, devletlerin ve işletmelerin bilgisayarlaşması bu kayıt
işlemini kolaylaştırmakta ve milyonlarca veri tabanının oluşmasına sebep olmaktadır.
Oluşan bu veri tabanları güçlü ve düşük maliyetli veri tabanı sistemleriyle
desteklenebilmektedir. Bunca veriyi işlemek ve manalı bir hale dönüştürmek yeni
teknikler ve araçlara duyulan ihtiyacı oluşturmuştur [36]. İşte bu süreç veri
madenciliğini doğurmuştur.
Tanımı itibariyle bilgi bir amaca yönelik işlenmiş veridir. İşlenmemiş bilgi ise veri
olarak ifade edilir. Veriden hareket ederek karar almak mümkün değildir [40]. Bu
yüzden veriyi işlemek gerekir. Bu işleme ve analizler karar almaya yönelik
madencilikle gerçekleştirilmektedir. Ancak tek başına veriyi işlemek yeterli
olmamaktadır. Yani veri madenciliği kendi başına bir çözüm değil karar alma
sürecini destekleyen ve bu süreçte gerekli bilgileri sağlayan araçtır [9]. Seçme,
araştırma ve modellemeyi kapsayan bu araç daha önce bilinmeyen örüntüleri ve
anlaşılabilir nihai bilgilerin büyük veri tabanlarından açığa çıkarılmasını kapsar [41].
Ortaya çıkarılan maden yapısal örüntü, olarak da ifade edilebilir. Veri tabanındaki bu
çeşitli örüntülerin keşfi işlemi otomatik de gerçekleşebilir veya daha büyük bir
olasılıkla yarı otomatik olarak da gerçekleştirilebilir [2].
Veri
madenciliği
için
alanda
çok
çeşitli
tanımlamalar
ve
yaklaşımlar
gerçekleştirilmiştir. Hand’a göre veri madenciliği ikincil bir faaliyettir. Birincil
faaliyet ise verilerin toplanma sürecidir [42]. Frawley ve arkadaşları ise bilgi keşfini,
basit olmayan ve önceden bilinmeyen örüntülerin ortaya çıkarılması ve potansiyel
olarak faydalı olan bilgilerin verilerden çıkarılması olarak ifade etmiştir [1].
18
Veri tabanı ise bilgisayarlarda depolanmış, yapılandırılmış veriler biriktirisidir.
Buradaki yapılandırılmış ifadesi her kaydın belirli bir formatta depolandığını ifade
etmektedir. Örneğin; bir telefon rehberindeki bütün girdiler; abonelere ait bir isim,
bir adres ve bir de telefon numarası barındırır [43]. Veri ambarı ile veri tabanı ifadesi
birbirinden farklıdır. Veri ambarını tanımlamak gerekirse [44]:
“Veri ambarı, pek çok farklı kaynaktan ve genellikle de farklı yapıda verinin
depolandığı ve hepsinin de aynı birleşik çatı altında kullanılmasının ümit edildiği
yapılardır.”
Pazarlama bakış açısından ise veri tabanı müşterilerin karakteristikleri ve hareketleri
hakkında bilgiler barındıran bir müşteri listesidir [45]. Pazarlama ve veri tabanı
teknolojisi arasındaki yoğun etkileşim veri tabanı pazarlaması kavramını
doğurmuştur. İşletmenin mevcut ve potansiyel müşterileri hakkında bilgi toplaması,
satın almada veya statüleri hakkındaki değişiklikleri gözlemlemesi, elde edilen
verilerin müşteriler ile ilişki geliştirmek ve yeni pazarlama stratejileri oluşturmak
amacıyla kullanılması veri tabanı pazarlaması olarak tanımlanmaktadır [46].
Veri tabanından bilgi keşfi ilk olarak 1989 yılında A.B.D’nin Detroit Eyaleti’nde
gerçekleştirilen 11. Uluslararası Müşterek Yapay Zekâ Konferansı’nda ele alınmıştır
[47]. Fayyad ve arkadaşlarına göre veri tabanından bilgi keşfi yararlı bilginin
keşfedilmesinin genel sürecini ifade ederken, veri madenciliği bu sürecin belirli bir
kısmını temsil etmektedir [48]. Bu kısım örüntünün ortaya çıkarılabilmesi için belirli
bir algoritmanın uygulanmasıdır. Fakat ilgili yayınlarda bu iki kavramın birbirinin
yerine kullanılması daha yaygın bir anlayıştır. Bunun sebebi ise veri madenciliğinin,
veri tabanından bilgi keşfinin en önemli kısmını oluşturmasıdır [49].
Genel bir tanımla ifade etmek gerekirse [16]:
“Veri madenciliği; veri ambarlarındaki çeşitli verileri kullanarak yeni bilgileri
ortaya çıkarma ve bu bilgileri karar verme ve uygulama aşamasında kullanma
sürecidir.”
19
Veri madenciliği ile benzer ifadelerin karıştırılmaması için karşılaştırılması faydalı
olacaktır. Veri madenciliği ile istatistiksel analizler benzer olsa da aşağıdaki gibi bir
takım farklılıklar teşkil etmektedir. Bu farklılıklar Çizelge 4.1’de ifade edilmiştir.
Çizelge 4. 1 Veri madenciliği ile istatistiksel analizlerin karşılaştırılması [44]
İstatistiksel Analiz
Veri Madenciliği
İstatistikçiler genellikle bir hipotez ile Veri
başlarlar.
madenciliği
hipoteze
gerek
duymaz.
Hipotezlerini eşleştirmek için kendi Veri
eşitliklerini geliştirmek zorundadırlar.
madenciliği
alogritmaları
eşitlikleri otomatik olarak geliştirir.
Kirli veriyi analizler sırasında bulur ve Veri madenciliği temiz veriye dayanır.
filtre eder.
İstatistikçiler
kendi
sonuçlarını Veri
madenciliğinin
yorumlar ve bu sonuçları yöneticilere yorumlamak
iletirler.
Sonuçlarını
sonuçlarını
kolay
analiz
değildir.
etmede
ve
yorumlamada ve bulguları yöneticilere
iletmede mutlaka istatistikçiye ihtiyaç
duyulmaktadır.
Zhang ve Zhang’a göre geleneksel istatistik varsayım odaklıdır. Yani hipotezler
veriye göre onaylanmakta ve şekil almaktadır. Veri madenciliği ise buna zıt olarak
keşif odaklıdır ve örüntüler ve hipotezler otomatik olarak veri tabanından çıkartılır.
Özetle veri madenciliği veri odaklıyken istatistik insan odaklıdır [50].
20
Veri
madenciliği
sistematik
bir
süreçtir.
Veri
madencileri
bu
analizleri
gerçekleştirirken belirli bir amaç güderler. Bu amaç doğrultusunda sonuca giden bir
rota takip edilir. Amacın belirlenmesiyle başlayan ve sonuçların yorumlanmasıyla
sonlanan bu sürece veri madenciliği süreci denilebilir.
4.1 Veri Madenciliği Süreci
Veri madenciliği bir analiz ve araştırma sürecidir. Birçok çalışma da bu süreç
aşağıdaki gibi bir altılı sıralıdüzen süreç olarak takip edilmiştir [51, 52, 53, 54, 55]:
1. İşi kavrama,
2. Veriyi kavrama,
3. Veriyi hazırlama,
4. Modelleme,
5. Değerlendirme,
6. Yayılım.
Bu altı basamaklı sürecin geliştiricileri Daimler-Chrysler (sonradan Daimler Benz
AG, Almanya), NCR Sistem Mühendisliği Kopenhag (Danimarka), SPSS (İngiltere)
ve OHra Verzegeringen en Bank Groep B.V (Hollanda) isimli firmalardır. Süreç
CRISP-DM olarak tanımlanmıştır. Çapraz Endüstri Veri Madenciliği Standart Süreci
olarak Türkçe ifade edilmektedir [16, 52].
21
Şekil 4.1 Çapraz Endüstri Veri madenciliği Standart Süreci [51]
İlgili yayınlarda çok farklı veri madenciliği süreçlerine rastlamak mümkündür. Başka
bir örnek veri madenciliği süreci Hui ve Jha (2000) tarafından Şekil 4.2 de ifade
edilmiştir [26]:
Şekil 4.2 Hu ve Jha ‘nın Veri Madenciliği Süreci [26]
22
Örnekleri çoğaltmak mümkündür. İlerleyen kısımda Çapraz Endüstri Veri
Madenciliği Süreci basamakları ile beraber anlatılacaktır.
4.1.1 İşi kavrama
Veri madenciliği sürecinin doğru bir şekilde çalışabilmesi için ilk şart işin ve verinin
kavranmasıdır. Bu anlayış gerçekleşmeden kullanılan algoritma ne olursa olsun
sonuçlar istenilen güven seviyesinde gerçekleşmeyecektir. Bu altyapıdan yoksun bir
veri madenciliği süreci verileri doğru hazırlama ve sonuçları doğru yorumlama
konusunda sıkıntılar içerecektir. Veri madenciliği sürecini en iyi şekilde
gerçekleştirebilmek için açık hedefler belirlenmelidir. Bu hedeflerin gereklilikleri
açık bir şekilde belirlendikten sonra bütün bu bilgiler veri madenciliği problemine
dönüştürülmeli ve hedefe yönelik giriş seviyesinde bir proje planı tasarlanmalıdır
[53]. Temel olarak aşağıdaki faaliyetlerin gerçekleşmesi beklenmektedir [54]:
-
İşe yönelik hedeflerin belirlenmesi
-
Mevcut durumun değerlendirilmesi
-
Veri madenciliği hedeflerinin belirlenmesi
-
Proje planının yapılması
4.1.2 Veriyi kavrama
Bu süreç verinin toplanması ile başlar ve veriyi tanıyabilmek için şu süreçleri takip
eder; verinin kalite sorunlarının tanımlanması, verinin içyüzünü keşfetme veya gizli
bilgilerin keşfedilmesi için verinin alt setlerinin belirlenmesi [53].
Veriyi kavrama ile işi kavrama arasında çok yakın bir ilişki vardır. Veri madenciliği
probleminin tasarımı ve projenin gereklilikleri, az da olsa kullanılacak veri hakkında
bir anlayış gerektirmektedir [53]. Bu sürecin sonunda istatistiksel özetlere bakmak
gibi verinin keşfine yönelik bazı işlemler gerçekleştirilebilir. Ayrıca yine bu süreç
esnasında kümeleme gibi bazı modeller veri içindeki örüntüleri kavrayabilmek için
veri setine uygulanabilir [54].
23
4.1.3 Veriyi hazırlama
Veriyi hazırlama aşaması model araçlarını besleyecek nihai veri setinin ham
verilerden oluşturulması aşamasıdır. Bu aşama belli bir sıralama olmaksızın, birden
fazla kere gerçekleşebilir. Süreç, tablo, kayıt ve nitelik seçimi, veri temizleme, yeni
niteliklerin oluşturulması ve verinin model araçlarına dönüştürülmesini kapsayabilir
[53]. Yine veri içindeki örüntüleri görebilme amacıyla veri keşfi ve bazı modeller
daha derin bir şekilde gerçekleştirilebilir [54]. Şekil 4.1’ de görüldüğü gibi
modelleme aşamasından işlemler gerçekleşirken tekrar bu aşamaya dönülebilir.
4.1.4 Modelleme
Bu adımda çeşitli modelleme teknikleri seçilir ve uygulanır. Ayrıca bu tekniklerin
parametreleri en uygun değerlere ayarlanılır. Veri hazırlama ve modelleme arasında
sıkı bir ilişki vardır [53].
Modellemeyi aşağıdaki gibi aşamalara ayırmak mümkündür [51]:
-
Model tekniğini seçme,
-
Modelin sınama tasarımını oluşturma,
-
Modelin inşa edilmesi,
-
Modelin değerlendirilmesi.
24
Çıktılar
Şekil 4.3 Modelleme süreci [51]
İlk aşamada veriyi haritalayabilmek ve ilişki kurabilmek için görselleştirme ve hangi
değişkenlerin bir arada daha iyi bulunduğunu görebilme için kümeleme gibi analizler
daha uygun olacaktır. Genelleştirilmiş kural atama gibi başlangıç birliktelik kuralları
yine başlangıç için uygulanabilir. Veri hakkındaki kavrayış arttıkça, daha detaylı
modeller uygulanabilir. Yine veriyi eğitim ve öğrenme setlerine bölmek gerekebilir
[54].
4.1.5 Değerlendirme
Bu adımda 3 aşamada gerçekleşir [51]:
-
Sonuçların değerlendirilmesi,
-
Sürecin gözden geçirilmesi,
-
Bir sonraki adıma karar verilmesi.
25
Bundan önce gerçekleşen modeli değerlendirme aşaması modelin tamlığı ve
doğruluğuyla ilgiliydi. Bu adım ise hangi modelin proje hedeflerini daha iyi
karşıladığını veya model yetersiz ise bunun sebeplerini sorgulamakla ilgilenir.
Sürecin gözden geçirilmesi noktasına gelindiğinde, modelin sonuçları projenin
gerekliliklerini karşıladığı ve tatminkâr olduğu varsayılır. Bu aşamada önemli bir
faktör veya görevin gözden kaçırılıp kaçırılmadığı kontrol edilir [51].
Sürecin gözden geçirilmesi sonunda projeyi oluşturanlar işin nasıl devam edeceğine
karar verirler. Karar vericiler sürecin yayılıp yayılmayacağına veya yeni bir veri
madenciliği projesinin kurulması gerekip gerekmediğine karar verirler [51]. Genel
olarak ulaşılan sonuçlar CRISP-DM’ nin ilk aşaması olan işi kavrama aşamasında
belirlenilen hedefler kapsamında değerlendirilmelidir.
4.1.6 Yayılım
Modelin
oluşturulması
çoğunlukla
projenin
sonuna
gelindiği
anlamına
gelmemektedir [53]. Projenin son ayağı yayılımdır. Bu adımı da 4 aşamada
incelemek mümkündür [51]:
-
Yayılım planın oluşturulması,
-
Planın gözetimi ve sürdürülmesi,
-
Final raporunun üretilmesi,
-
Projenin gözden geçirilmesi.
Yayılım planı aşamasında sonuçlar değerlendirilmeye alınır ve yayılım stratejisi
belirlenir. Planın gözetimi ve sürdürülmesi veri madenciliği sonuçlarının yanlış
yorumlanmasından doğan uzun süreçleri engelleyecektir [51].
26
Çıktılar
Şekil 4.4 Yayılım süreci [51]
Süreç boyunca edinilen sağlıklı modeller farklı amaçlarla çeşitli iş operasyonlarına
uygulanabilir. Bu modeller koşullar değiştikçe kontrol edilmelidir. Çünkü bugün
doğru olan sonuçlar bundan bir yıl sonra yine doğru olacağı anlamına gelmez. Eğer
koşullarda önemli değişiklikler meydana gelirse model yeniden inşa edilmelidir.
Yine sonuçları belgelendirmek ve kayıt altına almak gelecek adına akıllıca bir adım
olacaktır [54].
Bu sürecin altı adımlık sıralaması değiştirilemez değildir. Aynı yolu tersten
izlenildiği gene yaygın bir anlayıştır. Yine analistler tarafından her basamak eksiksiz
olarak uygulanılmaz. Ancak CRISP-DM bu alanda çalışanlar için uygun bir taslak
arz etmektedir [54].
27
Modelleme aşamasında bahsediliği gibi sürecin önemli aşamalarından birisi veri
madenciliği analizini gerçekleştirecek tekniğin seçilmesidir. Bir sonraki bölümde
kısaca bu teknikler paylaşılacaktır.
4.2 Veri Madenciliği Teknikleri
Veri madenciliği alanında birçok tekniğin kullanıldığı ve bu tekniklerin çeşitli
kaynaklarda farklı şekillerde tasnif edildiği görülmektedir. Bu teknikleri en temel
olarak 3 grupta toplamak mümkündür [17]:
-
Sınıflandırma ve regresyon
-
Kümeleme
-
Birliktelik kuralları ve sıralı örüntüler
Sınıflama ve regresyon modelleri tahmin edici (predictive) modeller olarak
nitelendirilir. Kümeleme ve birliktelik kuralları modelleri
ise tanımlayıcı
(descriptive) modellerdir [56].
Çeşitli kaynaklarda farklı tasniflere rastlamak mükündür. Örneğin Koyuncugil ve
Özgülbaş veri madenciliği tekniklerini geleneksel teknikler ve yeni teknikler olarak
ikiye ayırmışlardır [44]:
1. Geleneksel Teknikler
-
Regresyon
-
K-en yakın komşuluk
-
Kümeleme
2. Yeni Teknikler
-
Karar ağaçları
-
Birliktelik kuralları
-
Sinir ağları
Burada en başta verilen üçlü sınıflandırma (Sınıflandırma ve regresyon, kümeleme,
Birliktelik kuralları ve sıralı örüntüler) kullanılarak kısaca veri madenciliği teknikleri
anlatılacaktır [17].
28
4.2.1 Sınıflandırma ve regresyon
Tahmine dayalı modellerde amaç veri tabanındaki bazı alanları diğer alanları temel
alarak kestirebilmektir. Eğer tahmin edilecek alan sayısal değişkenlerden oluşuyor
ise bu tahmin problemi regresyon problemidir [57]. Fakat alan kategorik ise bu bir
sınıflandırma problemidir. Sınıflandırmada temel amaç kategorik değişkenleri
saptamaktır [58]. Örneğin; bir GSM operatörü belli bir gün içeresinde ve belirlenmiş
bazı saatler arasında indirimli veya ücretsiz konuşma kampanyası başlatmak
istediğinde, kampanyayı uygulayacağı saatler arasında en çok konuşan müşterilerini
tespit etmek isteyebilir. Veri tabanında geçmişte müşterilerin konuşma verilerinin
mevcut olduğunu varsayalım; o müşterilerin ne kadar süre telefonla konuştuklarını
gösteren alan bağımlı değişken olacaktır. Müşterilerin diğer nitelikleri ise (yaş,
cinsiyet, gelir düzeyi gibi) bağımlı değişken üzerinde etkisi araştırılan bağımsız
değişken olacaktır [17]. Söz konusu firmanın veri madenciliği uygulamaları
sonucunda 24 yaşındaki bayanların o saatlerde daha fazla telefonla konuştuğunu
tespit ettiğini varsayalım. Firma başlattığı bu kampanyanın tutundurma çabalarını bu
kitle üzerine yoğunlaştırarak daha hızlı ve olumlu sonuçlar alacaktır.
Sınıflandırma (veya sınıflama) algoritmaları aşağıda sıralanmıştır [17]:
-
Diskriminant analizi
-
Naive Bayes
-
Karar ağaçları
-
Sinir ağları
-
Kaba kümeler
-
Genetik algoritmalar
-
Regresyon analizi
Diskriminant Analizi
Bu yöntem en eski matematiksel sınıflandırma tekniğidir. İlk uygulamaları 1936
yılında gerçekleştirilmiştir. Sonuçları yorumlamak kolaydır. Tıp, sosyal bilimler ve
saha biyolojisinde çok sık kullanılmaktadır [52].
29
Diskriminant analizi bir dizi gözlemi önceden tanımlanmış sınıflara atar. Model ait
oldukları sınıf bilinen gözlem kümesi üzerine kurulur ve bu küme öğrenme kümesi
olarak tanımlanır. Öğrenme kümesine bağlı olarak diskriminant fonksiyonları olarak
bilinen doğrusal fonksiyonların bir kümesi oluşturulur. Diskriminant fonksiyonu,
yeni gözlemlerin sınıflandırılması için kullanılır. Yeni bir gözlem oluştuğunda tüm
diskriminant fonksiyonları hesaplanır ve bu yeni gözlem diskriminant fonksiyonunun
en yüksek olduğu sınıfa tayin edilir [17].
Naive Bayes
Naive Bayes sınıflandırma aracı istatistiksel bir sınıflandırıcıdır. İsmini Thomas
Bayes’den
almıştır.
Bayesyen
sınıflandırıcılar
büyük
veri
tabanlarına
uygulandıklarında yüksek doğruluk ve hız sergilemişlerdir [59].
Navie Bayes sınıflandırıcısı bir nitelik değerinin verilen bir sınıf üzerindeki etkisini
diğer nitelik değerlerinden bağımsız olarak varsayar. Bu varsayım sınıf-koşullu
bağımsızlık olarak ifade edilir. Bu hesaplamaları basitleştirmek için yapılır. Bunun
için “naive” yani saf olarak nitelendirilmiştir [59].
Karar ağaçları
Karar ağaçları kurulum maliyetlerinin düşük olması, yorumlanmasının kolay olması,
veri tabanı sistemlerine bütünleşmesinin kolay olması sebebiyle sınıflama teknikleri
arasında en çok kullanılan tekniktir [16].
Hiyerarşik ayrıştırıcı metotlar olarak da bilinen bu ağaçlar grup üyelerini 2 veya daha
fazla alt gruba ayırarak çalışmaya başlar ve önceden belirlenmiş istatistiksel ölçütlere
göre ayırma yaklaşımıyla devam eder. En fazla bilinen çeşitleri aşağıdakilerdir[60]:
-
Automatic Interaction Detection (AID)
-
Chi-Square Automatic Interaction Detection (CHAID)
-
Classification and Regression Tree (CART)
30
Bir karar ağacı yaklaşımı bütün üyelerin bağlı olduğu ve farklı alt gruplara ayrıldığı
(şube veya düğüm) ağacın kökünde başlar. Bir ağaç gruplar arası bağımlı değişkenin
varyansının maksimum olması ve grup içinde minimum olması yoluyla kurulur.
Örneğin; bir müşteri grubu, hane halkı gelirinin (bağımlı değişken) varyansını yaş
grupları arasında maksimize etmek için, farklı yaş (bağımsız değişken) gruplarına
bölünebilir [60].
Sinir ağları
Yapay sinir ağları, insan beyninin çalışma şekline benzetilmeye çalışılarak
üretilmiştir. İnsan beynindeki birçok sinir hücresinin birbirlerine değişik etki
seviyeleri ile bağlanması sonucu oluşan karmaşık bir sistem olarak düşünülebilir.
Çok farklı yapıda ve formlarda bulunabilen verileri hızlı bir şekilde tanımlayabilmek
ve algılayabilmek için kullanılır [16].
Sinir ağları veri tabanındaki örüntüleri, sınıflandırmak ve tahmin yürütmede
kullanmak üzere genelleştirir. Sinir ağları algoritmaları sayısal veriler üzerinde
çalışırlar [17].
Kaba kümeler
Bu yöntem sayesinde eksik, yetersiz ve belirsiz bilgiler düzenlenilerek veri analizi
için yeterli hale getirilebilir [61]. İlk olarak 1970’li yıllarda Pawlak tarafından oraya
atılmıştır ve günümüzde birçok bilim dalına hizmet etmektedir [17]. Kaba kümeler
analizinde temel amaç edinilen veri setinden benzer konseptleri sentezlemektir [62].
Veri madenciliği kapsamında kaba küme teorisi temel alınarak birçok algoritma
geliştirilmiştir. Verinin indirgenmesi, niteliklerin minimal alt kümelerinin bulunması,
kuralların en iyi minimal kümesinin hesaplanması, verinin sınıflandırılması amacıyla
kullanılan bu algoritmalar son yıllarda en fazla verinin sınıflandırılması amacıyla
kullanılmaktadır [24].
31
Genetik algoritma
Temel ilkeleri John Holland tarafından atılan genetik algoritmalar, doğal seçim
ilkelerine dayanan bir arama ve optimizasyon yöntemidir [63]. Model Darwin’in
Evrim Teorisine dayanmaktadır [17]. Şekil 4.5’de Genetik algoritma blok diyagramı
gösterilmiştir.
Veri madenciliği uygulamalarında genetik algoritmalar çözüm uzayının hepsi yerine
belirli bir kısmını incelediği için diğer yöntemlere göre daha hızlı çalışmaktadır.
İşlemelerde mali kayıpların araştırılması, finansal opsiyonların geliştirilmesi gibi
konularda da kullanılmaktadır [63].
32
Şekil 4.5 Genetik Algoritma Blok Diyagramı [64]
Regresyon analizi
Regresyon analizi iki veya daha fazla değişkeni ilişkilendirilmek üzere kullanılan
istatistiksel bir araçtır. Regresyon analizindeki amaç bir veya daha fazla bağımsız
değişkenli bağımlı değişken ile ilişkili regresyon modeli veya tahmin denklemi
kurmaktır. Model, ilgili değişkeni bağımsız değişken temelinde tanımlamak, tahmin
ve kontrol amacıyla kullanılabilir [45].
33
4.2.2 Kümeleme
Kümeleme basit olarak veri setlerini alt setlere parçalama işlemidir. Her alt set bir
kümedir ve bir kümedeki bütün nesneler birbirine benzerdir. Bu kümeler bir
kümeleme işleminden doğmuştur. Bu bağlamda farklı kümeleme teknikleri farklı
aynı veri seti üzerine uygulandığında farklı kümelemeler oluşturacaktır. Parçalama
işleme bireyler tarafından değil algoritmalar tarafından gerçekleşir. Bundan dolayı
kümeleme veriler arasındaki önceden bilinmeyen grupları ortaya çıkarabileceğinden
kullanışlıdır [59].
Kümelemenin uygulama alanı çok geniştir. İş zekâsı, görüntü biçimi algılama, web
aramaları, biyoloji, güvenlik gibi. Örneğin iş zekâsı uygulamalarında kümeleme çok
sayıda müşteriyi benzer karakteristik özellikler gösteren müşterileri bir arada
toplamak suretiyle organize etmek için kullanılabilir [59].
Kümeleme teknikleri; parçalama metotları, hiyerarşik metotlar, yoğunluk-tabanlı
metotlar, hücre tabanlı (grid-based) metotlar olarak sıralanmaktadır [59]. En yaygın
kullanılan kümeleme parçalama metotları arasında gösterilen metodu “k ortalamalar
algoritması” dır [59,17].
K ortalamalar algoritması
K ortalama algoritması, küme içeresindeki noktaların ortalama değeri olarak
kümenin ağırlık merkezini tanımlar. Algoritma çalışırken aşağıdaki işlemleri takip
eder [59]:
-
İlk olarak rastgele veri tabanındaki nesnelerden her biri bir merkezi olan k
adet küme oluşturulur.
-
Kalan nesnelerin, küme merkezine olan uzaklıkları Öklid teorisine göre
hesaplanır ve en yakın olana atılır.
-
Daha sonra küme içi iyileştirme işlemleri başlar ve her atamadan sonra her
küme için yeni ortalama hesaplanır. Bütün nesneler güncellenmiş
ortalamalara göre yeniden tayin edilir.
34
Şekil 4.6 k ortalamalar tekniğiyle objeler setinin kümelenme süreci1 [59]
4.2.3 Birliktelik kuralları ve sıralı örüntüler
Hareketli
veri
tabanlarındaki
nesneler
seti
arasındaki
yaygın
örüntüleri,
birliktelikleri, korelasyonları ve tesadüfi yapıları bulmak için kullanılan tekniklerdir.
İlk olarak 1993 yılında uygulanmaya başlanmış olan birliktelik kuralları çok geniş bir
araştırma sahasına ulaşmıştır [31].
Yaygın uygulama alanları; pazar sepet analizi, çapraz pazarlama katalog tasarım,
müşteri kazanmak için yapılan zararına satışların analizinde kullanılmaktadır.
Bir pazar sepet analizi örneği verecek olursak; müşteri hareketlerini barındıran bir
veri tabanı olduğunu varsayalım. Bu veri tabanında hangi ürünlerin sıklıkla bir arada
müşteriler tarafından alındığı bulunmaya çalışılırsa şöyle bir bulguya rastlanılabilir:
“Sosis ve kola alan müşteri, yüksek olasılıkla hardalda alacaktır.” Bu bilgiye
dayanarak mağaza içi ürün yerleştirme tasarımı, tutundurma çabaları güncellenebilir.
Farklı birliktelik kuralları aşağıda sıralanmıştır [50]:
-
1
Eldeki veri tipine göre:
Yineleme işleminde kümelerin merkezleri güncellenir ve nesneleri otomatik olarak
yeniden tasnif eder. (+) Küme merkezlerini göstermektedir
35
o Boolean birliktelik kuralları
o Niceliksel birliktelik kuralları
-
Soyutlama düzeyine göre:
o Tek seviyeli birliktelik kuralları
o Çok seviyeli kuralları
-
Kullanılan verinin boyutuna göre:
o Tek boyutlu birliktelik kuralları
o Çok boyutlu birliktelik kuralları
Birliktelik kuralları ile beraber anılan ardışık örüntüler ise birbiriyle ilişkili fakat
farklı dönemlerde gerçekleşen ilişkileri tanımlamada kullanılır [17]. Örneğin ardışık
analizle ilgili şöyle bir önek verilebilir; basketbol topu alan müşteriler, bir ay
içerisinde top şişirme pompası da almaktadır.
Veri madenciliği süreci ve tekniklerine ek olarak uygulama alanlarından bahsetmekte
manidar olacaktır.
4.3 Veri Madenciliği Uygulama Alanları
Veri madenciliği veri ambarlarının oluşturulduğu hemen hemen her alanda uygulama
alanı bulabilmektedir. Bilim ve mühendislik, sağlık ve ilaç, telekomünikasyon gibi
çeşitli alanlarda da uygulama alanı bulabilmektedir [57]. İş ve işletmeciliğe yönelik
ise genel olarak üç alanda hizmet vermektedir [54]:
1. Müşteri profili belirleme: İşletme için en karlı müşterileri alt kümelere
ayırma.
2. Hedef Belirleme: Rakipler tarafından ele geçirilmiş karlı müşterilerin
karakterlerini belirleme.
3. Sepet Analizi: Müşterilerin birlikte satın aldığı ürünlerin çapraz satışa yönelik
tespit edilmesi.
36
Bir başka kaynakta ise veri madenciliğinin iş hayatındaki kullanım alanları daha
detaylı bir şekilde aşağıda görüldüğü üzere maddeler halinde sıralanmıştır [57]:
-
Pazarlama ve perakendecilik
o Müşteri segmentasyonunda
o Müşterilerin demografik özellikleri arasındaki bağlantıların
kurulmasında
o Pazarlama kampanyalarında
o Müşterilerin elde tutulmasına yönelik stratejilerinin oluşturulmasında
o Sepet analizinde
o Müşteri ilişkileri yönetiminde
o Satış tahminlerinde
-
Bankacılık
o Farklı finansal göstergeler arasındaki gizli korelâsyonların
bulunmasında
o Kredi kartı dolandırıcılıklarının tespitinde ve usulsüzlük tespitinde
o Kredi taleplerinin değerlendirilmesinde
o Risk analizleri ve yönetimi
-
Sigortacılık
o Yeni poliçe talep edecek müşterilerin tahmin edilmesinde
o Dolandırıcılıklarının tespitinde
o Riskli müşterilerin tespitinde
-
Perakendecilik
o Satış noktası veri analizleri
o Alış-veriş sepeti analizleri
o Tedarik ve mağaza yerleşiminde
-
Borsa
o Hisse senedi fiyat analizi
o Genel piyasa analizi
o Alım-satım stratejileri
-
Endüstri
o Lojistik
37
o Üretim Süreçleri
Bankacılık ve finans sektöründe faaliyet gösteren işletmelerin müşterileri hakkında
dolandırıcılık algılama, risk analizi, kredi değerliliği gibi konularında veri
madenciliğini kullandıkları görülmektedir.
Sigorta şirketlerinin de hedef kitlesini tanıma, müşterilerini elde tutmada veri
madenciliği çözümlerine başvurduğu yükselen bir eğilimdir. Ayrıca yine
dolandırıcılık tespiti (fraud detection) kapsamında da sigorta şirketlerinin veri
madenciliğine başvurdukları bilinmektedir [9].
Veri madenciliğin en kolay uygulanabileceği alanlardan birisi ise elektronik ticarettir
[65]. E-ticaret kapsamında faaliyet gösteren firmaların veri tabanlarını oluşturmaları,
bütün faaliyetlerin elektronik ortamda gerçekleşmesinden dolayı daha kolay
olmaktadır.
Yine insan kaynakları yönetiminde de veri madenciliği çözümlerinin kullanıldığı
görülmektedir. Muhtemel personel devirlerini tahmin etmede kullanılabilmektedir
[54].
Veri madenciliği süreci, tekniği ve uygulama alanları kısaca özetlenmiştir. Tez
kapsamında gerçekleştirilecek olan uygulamanın hem bu kavramları hem de
pazarlama ve veri madenciliği ilişkisini aydınlatacağı umulmaktadır. Ancak
uygulama aşamasına geçilmeden önce hem gelecekte yapılacak çalışmalara ışık
tutması amacıyla hem de uygulamanın daha iyi kavranabilmesi ümüdiyle çalışmayı
gerçekleştirdiğimiz WEKA yazılımı hakkında bir takım aydınlatıcı bilgiler
paylaşılacaktır.
38
5. WEKA YAZILIMI
Veri madenciliği
uygulamalarını
gerçekleştirebilmek için çeşitli bilgisayar
yazılımlarına ihtiyaç duyulmaktadır. Bu kapsamda, SPSS Clementine, Excel, SPSS,
SAS, Angoss, KXEN, SQL Server, MATLAB ticari ve RapidMiner (YALE), WEKA, R,
C4.5, Orange, KNIME açık kaynak gibi bazı yazılımlar geliştirilmiştir [66].
WEKA, makine öğrenmesi algoritmalarını ve veri önişleme araçlarını barındıran bir
yazılımdır. Veri tabanı üzerinde veri madenciliği metotlarını kolay bir şekilde ve
esnek yollardan uygulayabilmek için tasarlanmıştır. Deneysel veri madenciliğinin
bütün sürecine kapsamlı bir destek vermektedir; veri hazırlama, öğrenme şemasını
istatistiksel olarak değerlendirme ve girilen veriyi görselleştirme ve öğrenme
sonuçları gibi [2].
İlk olarak 1992 yılında ortaya çıkan WEKA Yeni Zelanda Waikato Üniversitesi’nde
tasarlanmıştır; açılımı “Waaikato Environment for Knowledge Analysis” dır [67].
Sistem Java üzerine yazılıdır ve genel kamu lisansı şartları altında kullanıcılara
dağıtılmaktadır. Hemen hemen bütün platformlarda çalışmaktadır; Linux, Windows
ve Macintosh gibi [2].
2010 yılında yapılan bir çalışmada veri madencilerinin en çok kullandığı 5
yazılımdan birinin WEKA olduğu ortaya konmuştur [68]. WEKA’nın veri madenciliği
alan yazınına katkısı güncel bir araştırmada şöyle ifade edilmiştir [69]:
“Sadece “IEEE Xplore” ve “ScienceDirect” veri tabanlarında “WEKA” anahtar
kelimesiyle yapılan aramalarda, ilki için 144 akademik çalışma ve diğeri için 1415
makale, 88 kitap ve 6 tane referans çalışması bulunmaktadır. Sadece son beş yıl
içinde, bu çalışmanın hazırlandığı 2012 yılı ilk 2 ayı için 121 makale ve 8 kitap, 2011
yılı için 357 makale ve 27 kitap, 2010 yılı için 220 makale (+2 referans çalışması) ve
3 kitap, 2009 yılı için 182 makale (+2 referans çalışması) ve 7 kitap, 2008 yılı için
138 makale ve 5 kitap bulunduğu görülmektedir.”
39
Hem iş sahasında hem akademik sahada oldukça fazla ilgi gören WEKA SourceForge isimli web sitesine yüklendiği 2000 yılı Nisan ayından bugüne kadar yaklaşık
1,5 milyon kere kullanıcılar tarafından indirilmiştir [67]. 2005 yılında WEKA’ yı
geliştiren ekip Veri Madenciliği ve Keşfi Ödülüne2 layık görülmüştür.
2003 yılı Mayıs Ayı’nın 15’i ile Haziran Ayı’nın 2’si arasında bir web sitesi üzerinde
gerçekleştirilen bir ankete göre WEKA gerçek bir projede kullanılmak üzere en çok
tercih edilen veri madenciliği ve diğer veri yazılımları arasında 4. Sırada yer
almaktadır. EK-1’ de anket sonuçları gösterilmiştir [68].
Resim 5.2. WEKA ekran çıktısı
Resim 5.2’de görüldüğü üzere WEKA 4 farklı arayüz içermektedir. Analizlerin
gerçekleştirldiği arayüzün ismi WEKA Explorer’dır. WEKA Explorer ve içerdiği
paneller bir sonraki başlık altında paylaşılacaktır.
5.1 WEKA Explorer
WEKA birkaç kullanıcı ara yüzüne sahiptir. WEKA’nın temel grafiksel kullanıcı ara
yüzü Explorer’dır. Panel temelli bir arayüz olan Explorer, WEKA’nın desteklediği
veri madenciliği tekniklerine tekabül eden 6 farklı panel içermektedir [2, 67].
2
SIGKDD (Data Mining and Discovery Service Award)
40
Pencerenin aşağısında bulunan Log butonu ise tıklanıldığı takdirde WEKA’nın
gerçekleştirdiği
işlemlerin
metinsel
loglarını
zaman
damgalarıyla
beraber
göstermektedir. Bahsi geçen paneller ve işlevleri aşağıda belirtilmiştir [2, 67,69]:
-
Preprocess (Veri hazırlama): İlk paneldir. Bu panelden veri seti seçilir ve
çeşitli yollarla düzenlenilir. Burada filtreler olarak ifade edilen veri
düzenleme araçları mevcuttur. Veri 3 yoldan yüklenilebilir; dosyadan, veri
tabanından veya URL üzerinden. Desteklenilen veri formatları şunlardır;
CSV, LibSVM ve C4.5.
-
Classify (Sınıflandırma): İkinci panel Sınıflandırmada veya regresyon
algoritmalarının bulunduğu paneldir. Panele sınıflandırma denmesinin sebebi
regresyon tekniklerinin kesintisiz sınıfları kestiricisi olarak görülmesinden
dolayıdır. Panel kestirici performansı belirlemek üzere seçilen öğrenme
algoritmasıyla veri hazırlama panelinde hazırlanmış veri seti üzerinde
bağımsız geçerlilik sınaması (cross-validation) gerçekleştirir. Ayrıca veri
setinin metinsel temsilini de göstermektedir. Eğer veriyle ilgili şartlar
elverişliyse panel ayrıca modelin veya karar ağaçlarının grafiksel gösterimini
de sunmaktadır. Ayrıca saçılım grafiğindeki tahmin hatalarını görselleştirme
ve ROC gibi eğrilerle değerlendirme imkânı sağlamaktadır. Model bu panel
de kalıcı olarak kayıt edebilir ve tekrar yüklenilebilir.
-
Cluster (Kümeleme): Veri hazırlama paneline yüklenmiş veri setlerine
kümeleme
algoritmalarının
uygulandığı
paneldir.
Kümeleme
işlemi
gerçekleştiğinde WEKA kaç küme olduğunu ve her küme içindeki örnek
sayısını gösterir. Panel kümeleme performansını değerlendirmek için basit
istatistikler
sağlamaktadır.
Eğer
veri
uygunsa
kümeleme
yapısını
görselleştirme imkânı mevcuttur. Ayrıca model kalıcı olarak kayıt edilebilir.
-
Associate (Birleştirme): Veri hakkındaki birliktelik kuralları öğrenildiği ve
değerlendirildiği bu panel nispeten kümeleme ve sınıflandırma panellerinden
41
daha kolay bir kullanıma sahiptir. WEKA birliktelik kuralları için 6 adet
algoritma barındırmaktadır.
-
Select attributes (Nitelik Seçimi): Bu panel veri seti içindeki en önemli
nitelikleri belirlemek için geniş bir algoritma yelpazesine ve değerlendirme
ölçütlerine ulaşım sağlamaktadır. Bu sayede farklı arama metotlarıyla farklı
değerlendirme ölçütlerini kombine etmek ve çok çeşitli muhtemel aday
tekniklerini yapılandırmak mümkün olabilmektedir. Nitelik seçimi tam eğitim
veri seti kullanılarak gerçekleştirilebileceği gibi bağımsız geçerlilik sınaması
kullanılarak da gerçekleştirilebilir.
-
Visualize (Görselleştirme): Görselleştirme, veri setinin görselleştirilmesine
yardım eder. Burada dikkat edilmesi gereken nokta bu panelde sınıflandırma
veya kümeleme modelinin sonuçları değil veri setinin kendisi görselleştirilir.
İki boyutlu bir matriks üzerinden bütün nitelik çiftlerinin saçılım grafiğini
gösterir.
Resim 5.3 WEKA Explorer ekran çıktısı
42
WEKA’nın bu kadar çok tercih edilmesi ve bu çalışmada da tercih edilmesinin
nedenleri aşağıda sıralanmıştır [2, 67, 69]:
-
Çok farklı algoritmalar sağlamaktadır,
-
Yazılım açık kaynaklı ve ücretsiz temin edilebilir,
-
Veri madenciliği uzmanı olmayan kişiler bile kolayca kullanabilir,
-
Sonuçlar için esnek çıktılar sağlamaktadır,
-
Güncel algoritmalar eklenilmesi suretiyle yazılım güncel kalmaktadır.
Veri madenciliği ve pazarlama konusundaki genel teorik bilgiler burada
sonlandırılmaktadır. Bu alanda özellikle son dönemde gelişen teknolojik araçlar ve
bilgi sistemleri ile oldukça fazla kaynağa ulaşmak mümkündür. Buraya kadar temel
bilgiler ve kavramsal çerçeve paylaşılmaya çalışılmıştır. Tezin son bölümü olan takip
eden kısımda ise bu alanda gerçekleştirilen uygulama anlatılacaktır.
43
6. UYGULAMA
Uygulama kapsamında kullanılan veri tabanından bahsedilmeden önce bu veri
tabanının kullanılmasına izin veren ve sağlayan veri seti kaynağından bahsetmek
manidar olacaktır.
The UCI Machine Learning Repository3
Uygulama kapsamında kullanılan veri tabanı UCI Makine Öğrenmesi ve Akıllı
Sistemler isimli veri tabanı deposundan alınmıştır. Kaynak birçok bilimsel çalışma da
kullanılan veri setlerini barındırmaktadır [54]. UCI Makine Öğrenmesi deposu bir
veri tabanı, makine öğrenme toplulukları tarafından deneysel analizler için kullanılan
evlek kuramları ve veri jeneratörleri biriktirisidir. Arşiv 1987 yılında oluşturulmuştur
ve günümüze kadar öğrenciler, eğitmenler ve araştırmacılar tarafından sıklıkla
kullanılmaktadır. Amerika Birleşik Devletleri’nde bulunan Ulusal Bilim Kurumu4
tarafından (The National Science Foundation) desteklenmektedir [70].
Resim 6.1. The UCI Machine Learning Repository
(http://archive.ics.uci.edu/ml/datasets.html)
3
4
Daha fazla bilgi için bkz: http://archive.ics.uci.edu/ml/index.html
Daha fazla bilgi için bkz: http://www.nsf.gov/
44
6.1 Kullanılan Veri Tabanı
Seçilen veri tabanının ismi “Bank Marketing” dir. Paulo Cortez ve Sérgio Moro
tarafından oluşturulan bu veri tabanındaki veriler 2008 yılının Mayıs ayından 2010
Kasım ayına kadar geçen sürede oluşturulmuşlardır. Veri setinin en son kullanımı
yine bahsi geçen yazarlar tarafından, çalışmanın dördüncü bölümünde veri
madenciliği süreci olarak bahsi geçen CRISP-DM yöntemine göre 2011 yılında
gerçekleştirilmiştir. Bu tez çalışması da büyük oranda bahsi geçen çalışmadan
esinlenmiştir. İlerleyen kısımda çalışmadan ve bulgularından kısaca bahsedilecektir.
Veri
tabanındaki
veriler
Portekiz’deki
bir
bankanın
doğrudan
pazarlama
kampanyaları hakkındadır ve 17 farklı kampanyayı kapsamaktadır. Bu kampanyalar
telefon görüşmesi suretiyle müşterilere iletilmiştir. Sıklıkla bir müşteriye teklifi
ulaştırabilmek için birden fazla kez görüşüldüğü görülmektedir. Toplam 79354
telefon görüşmesi yapılmıştır. Bu görüşmeler sırasında uzun vadeli ve iyi bir faiz
oranında mevduat önerilmiştir [71]
Veri tabanı sıkıştırılmış arşiv dosyası (.rar) formatındadır ve içinde üç farklı dosyayı
barındırmaktadır. İlk dosyada 45211 örneklem barındıran tam veri tabanı
bulunurken, diğer dosyada bu örneklem grubundan rastgele ve %10 oranında
seçilmiş 4521 örneklem bulunmaktadır. Her iki veri tabanında da 17 nitelik
bulunmaktadır. Bu nitelikler aşağıda sıralanmıştır:
1. Yaş: Müşterilerin yaşı sayısal olarak mevcuttur.
2. Meslek: Meslekler gruplar halinde veri tabanına girilmiştir. Üst kademe
yönetici, bilinmeyen, işsiz, yönetim, müstahdem, girişimci, öğrenci, mavi
yakalılar, serbest meslek erbabı, emekli, teknisyen, hizmet sektöründe
çalışan.
3. Evlilik durumu: Evlilik durumu da gruplar halinde bulunmaktadır; evli,
boşanmış ve bekâr. Boşanmış dul olan müşteriler içinde kullanılmıştır.
4. Eğitim: Bilinmeyen, orta dereceli, ilk dereceli, üçüncü dereceli olarak
gruplar halinde belirtilmiştir.
45
5. Yükümlülüğü yerine getirilmeyen kredinin olup olmaması: Evet ve hayır
olarak ikili terim olarak ifade edilmiştir.
6. Bakiye: Yıllık ortalama bakiye sayısal olarak ve Avro Para Birimi’ne göre
ifade edilmiştir.
7. Konut kredisi: Evet veya hayır olarak ikili terim olarak ifade edilmiştir.
8. Bireysel kredi: Evet veya hayır olarak ikili terim olarak ifade edilmiştir.
9. İletişim: İletişim kurma tarzı da 3 değişkenden oluşan grup halinde ifade
edilmiştir; bilinmeyen, cep telefonu veya sabit telefon.
10. Gün: Ay içerisinde en son görüşülen gün sayısal olarak ifade edilmiştir.
11. Ay: Yıl içerisinde iletişim kurulan en son ay; kategorik olarak 12 aydan
oluşmaktadır.
12. Süre: En son iletişim süresi sayısal olarak saniye bazında ifade edilmiştir.
13. Kampanya: Kampanya süresince bu müşteriyle kurulan iletişim sayısı
(son görüşme de dâhil olmak üzere).
14. Geçen gün: Müşteriyle bir önceki kampanya sırasında en son ulaşıldığı
günden bu yana geçen gün sayısı sayısal olarak ifade edilmiştir (-1 daha
önce müşteriyle iletişime geçilmediğini ifade etmektedir).
15. Önceden kurulan iletişim sayısı: Müşteriyle bu kampanyadan önce
gerçekleştirilen iletişim sayısı sayısal olarak ifade edilmiştir.
16. Önceki Çıktı: Bir önceki kampanyanın başarılı olup olmadığı 3 şekilde
ifade edilmiştir; bilinmeyen, diğer, başarısız, başarılı.
17. Çıktı-Hedef değişken (y) : Önerilen teklifin kabul edilip edilmediği ikili
olarak evet ve hayır şeklinde ifade edilmiştir.
Gayet düzenli bir şekilde bulunan verilerde herhangi bir kayıp değere
rastlanmamıştır. Veri seti ikincil veri seti olduğu için aynı set üzerinde
gerçekleştirilen çalışmayı analiz etmek faydalı olacaktır.
46
Resim 6.2 Kullanılan verilerin Microsoft Excel dosyası olarak görünümü
Using Data Mining For Bank Direct Marketing: An Application Of The Crisp-Dm
Methodology
Veri tabanı üzerinde en son gerçekleştirilen uygulama Sérgio Moro, Raul M. S.
Laureano ve Paulo Cortez tarafından 2011 yılında bir konferans bildirisi olarak
yayınlanmıştır. Bildirinin künyesi aşağıdaki gibidir:
“Proceedings of the European Simulation and Modelling Conference - ESM'2011,
pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.”
47
Bildiriye kısaca bankaların doğrudan pazarlamayla olan ilişkisinden bahsedilerek
başlanılmıştır. Daha sonra iş zekâsı ve veri madenciliği incelenmiş, CRISP-DM
yönteminden bahsedilmiştir. Takip eden kısımda pazarlama kampanyaları ve veri
madenciliği ilişkisi bu alanda yapılan çalışmalar desteğiyle anlatılmıştır.
Uygulama kısmında kullanılan veri tabanı anlatılmış ve kullanılan R yazılımının açık
kaynak kodlu paketi olan rminer library’den bahsedilmiştir. Bu yazılımın avantajları
ve yazılımın sağladıkları anlatıldıktan sonra yazılımın çalışmasıyla ilgili birkaç örnek
kod gösterilmiştir. Uygulama CRISP-DM yöntemine göre 3 tekrarlı olarak
gerçekleştirilmiştir.
Çalışma sonucunda veriler hakkında en iyi tahmin edici modeller incelendikten
sonra; müşteriyle konuşma süresinin en anlamlı nitelik olduğu ve bu nedenle uzun
telefon görüşmelerinin başarıyı arttırdığı ifade edilmiştir. Ayrıca iletişimin
gerçekleştiği ayların öneminden bahsedilmiş ve en başarılı aylar Mart, Ocak ve Eylül
olarak sıralanmıştır.
6.3. Uygulamanın CRISP-DM Yöntemine Göre Gerçekleştirilmesi
Geliştirilen uygulama çalışmanın dördüncü bölümünde bahsi geçen çapraz endüstri
veri madenciliği süreci takip edilerek aşama aşama anlatılacak ve elde edilen
bulgular ve sürecin nasıl takip edildiği paylaşılacaktır.
6.3.1 İşi kavrama
Bankalar müşterileriyle en sık iletişim kuran işletmelerdendir. Banka yönetimleri bu
alanda yapacakları istihdamı buna göre şekillendirip, amaç ve stratejileri
doğrultusunda müşteri ilişkileri yönetimi stratejileri geliştirip, çalışanlarını bu yönde
hizmet içi eğitime tabi tutarlar. Müşteriyle iletişimin bu kadar önemli olduğu bir
sektörde müşteri ilişkileri yönetimi, veri tabanı pazarlaması gibi kavramlar oldukça
önem arz etmektedir. Tele pazarlama faaliyetleri, ise daha önce bahsediliği gibi
müşteriler tarafından olumsuz karşılanabilmektedir. Burada geçmişte kurulan
48
iletişimlerden hareketle yeni ve faydalı doğrudan pazarlama stratejileri için
kullanılacak bilgiler üretmek amaçlanmıştır. Başarı kıstası olarak iletişimin başarılı
olarak sonuçlanması seçilmiştir. Yani müşteriye önerilen kampanyanın kabul
edilmesini önceden tahmin edebilecek bilgiler ve yöntemler geliştirebilmek
amaçlanmıştır. Bu kapsamda sorunsuz bir örnek süreç ve model geliştirmek
hedeflenmiştir.
6.3.2. Veriyi kavrama
Bu aşamada verilerin toplama işlemi tarafımızca gerçekleştirilmediği için doğrudan
veriyi anlamak amaçlanmıştır. Kullanılan veri tabanı başlığı altında bu aşama
gerçekleştirilmiştir. Burda yapılan işlemler kısaca özetlenecektir.
Öncelikle verinin elde edildiği kaynağın güvenilirliği araştırılmıştır. Kaynak birçok
akademik
çalışmaya
veri
tabanı
sağladığından
yeterince
güvenli
olduğu
düşünülmüştür. Edinilen veri setinden önce bu veri seti kullanılarak yapılan çalışma
analiz edilmiştir. Daha sonra veriler detaylı bir şekilde analiz edildikten sonra veri
hakkında gerekli açıklamaları sağlayan metin dosyası bilgisayara indirilip dikkatli bir
şekilde irdelenmiştir. Veri setindeki örneklem sayısı, niteliklerin anlamları ve
açıklamaları incelenmiştir.
6.3.3. Veriyi hazırlama
Veriler öncelikle internetten sürecin uygulanacağı bilgisayara indirildikten sonra
temel olarak görüntüleyebilmek için esas olan ve 45211 örneklem barındıran veri
tabanı dosyası Microsoft Excel’de çalıştırılmıştır. İlgili metin dosyasında kayıp
verinin olmadığıyla ilgili bilginin teyit edilmesi amacıyla veriler kontrol edilmiş ve
herhangi bir kayıp veriye rastlanmamıştır. Daha sonra aynı veri tabanı dosyası
WEKA’da
çalışabilecek
bir
formata
dönüştürülmüştür.
İhtiyaç
halinde
kullanılabilmesi amacıyla veri tabanı dosyası aynı zamanda Microsoft Excel ve SPSS
programlarında çalışabilecek uzantıda da kayıt edilmiştir. Bu şekilde üzerinde
çalışılacak verinin son hali verilmiştir. Daha sonra veriye ait bazı niteliklerinin daha
49
kolay incelenebilmesi için istatistiksel olarak görselleştirilmesi gerçekleştirilmiştir.
Çizelge 6.1’de bu görselleştirme paylaşılmıştır.
Çizelge 6.1 Verilerin istatistiksel görünümü
Nitelik
Yaş
Özellekler
En düşük: 18
En yüksek: 95
Ortlama: 40.936
Meslek ( Kişi Sayısı)
Yönetim: 9458
Teknisyen:7597
Girişimci:1487
Mavi Yakalı:9732
Bilinmeyen:288
Emekli:2264
Yönetici:5171
Müstahdem:4154
Serbest Meslek Erbabı:1579
İşsiz:1303
Ev Hanımı:1240
Öğrenci:938
Evlilik Durumu
(Kişi Sayısı)
Eğitim ( Kişi Sayısı)
Evli:27214
Bekâr:12790
Boşanmış:5207
Birinci Derece:6851
İkinci Derece:23202
Üçüncü Derece:13301
Bilinmeyen:187
Yükümlülüğü yerine
getirilmeyen kredi olup olmaması
(Kişi Sayısı)
Var: 815
Yok: 44396
50
Çizelge 6.1 Verilerin istatistiksel görünümü (Devam)
Bakiye (Avro)
En az:-8019 €
En fazla:102127 €
Ortalama:1362.272 €
Konut Kredisi( Kişi Sayısı)
Bireysel Kredi( Kişi Sayısı)
Var:25130
Yok:20081
Var:7244
Yok:37967
İletişim
Bilinmeyen:13020
Cep Telefonu:29285
Sabit Hat:2906
Ay ( Kişi)
Mayıs:13766
Temmuz:6895
Ağustos:6247
Haziran:5341
Kasım:3970
Nisan:2932
Şubat:2649
Ocak: 1403
Ekim:738
Eylül:579
Mart:477
Aralık:214
Süre (Saniye)
En Düşük:0”
En Yüksek:4918”
Ortalama:258.163
Kampanya
En Düşük: 1
En Yüksek:63
Ortalama:2.764
51
Çizelge 6.1 Verilerin istatistiksel görünümü (Devam)
Başarılı:1511
Önceki Çıktı
Başarısız:4901
Diğer:1840
Bilinmeyen:36959
Çıktı-Hedef değişken (y)
Evet:5289
Hayır:39922
6.3.4. Modelleme
Bu aşamada ilk olarak “y” çıktısı olarak tanımladığımız müşterinin kampanyayı
kabul edip etmediğine ilişkin nitelik için en önemli olan diğer nitelikler belirlenmeye
çalışılmıştır. Nitelik seçimi sonucunda üzerinde çalışılması gereken önemli nitelikler
saptanabilir. Burada da bu işlem 2 kere olmak üzere farklı algoritmalarla
gerçekleştirilmiştir.
Çizelge 6.2 Nitelik seçme işlemleri ve sonuçları
Nitelik Değerlendirici
Arama Metodu
(Attribute Evaluator)
(Search Method)
CfsSubsetEval
BestFirst
Evlilik durumu
Konut kredisi
Bireysel kredi
Süre
Önceki çıktı
ChiSquaredAttributeEval
Ranker
Süre :7725.66922
Önceki Çıktı:4391.50659
Geçen Gün: 3516.24129
Ay: 3061.83894
Yaş: 1498.63049
Sonuçlar
Nitelik seçme işlemi gerçekleştirilirken kullanılan ilk değerlendirici CfsSubsetEval
olmuştur. Araştırma yöntemi olarak ise BestFirst seçilmiştir. Müşterilerin teklifi
52
kabul edip etmeyeceğine dair bir tahminde bulunabilmek için bilinmesi gereken en
önemli nitelikler; müşterinin evlilik durumu, konut kredisi kullanıp kullanmadığı,
bireysel kredi kullanıp kullanmadığı, konuşma süresi ve bir önceki kampanyanın
çıktısı olarak sıralanmaktadır. Tekrar bütün nitelikler ChiSquaredAttributeEval
değerlendiricisiyle uygulamaya konmuştur. Uygulanan araştırma metodu ise Ranker
olmuştur. Burada ise bir önceki analizle aynı olarak süre ve önceki çıktı niteliği
ortaya çıkmıştır. Farklı olarak ise ay niteliği ortaya çıkmıştır. Kampanyanın
müşteriye sunulduğu ayın önemli olması doğaldır. Zira tüketicilerin mevduat teklif
edip etmemesi ekonomik durumlarına göre aydan aya değişebilir. Müşteriler
Portekiz’de bulunmaktadır dolayısıyla o coğrafyanın kültürü, tatiller, önemli zaman
dilimleri vs. harcamalarına yansıyacaktır. Bu durumda elde edilen sonuçların bu
yönde yorumlanması sağlıklı olacaktır.
Daha sonra bütün nitelikleri birliktelik kuralları analizine sokulmuştur. Burada
PredictiveApriori algoritması kullanılmıştır.
Çizelge 6.3 Bütün niteliklerin PredictiveApriori algoritması ile analiz edilmesi
Kural
Doğruluk
Meslek= Öğrenci ve Hedef değişken(y)=Evet ise
0.94555
Evlilik durumu= Bekâr
Meslek= Girişimci ve Evlilik= Boşanmış ise
0.90195
Hedef değişken(y)= Hayır
Burada elde edilen bir kurala göre mesleği öğrenci olanların ve kampanyayı kabul
edenlerin büyük oranda bekâr müşteriler olmasıdır. Yine mesleği öğrenci olup
boşanmış veya evli olanların yüksek güven aralığında kampanyayı reddettikleri
görülmektedir.
Daha sonra eğitim düzeyi ile kampanya başarısı PredictiveApriori ile incelenmiş ve
aşağıdaki sonuçlara ulaşılmıştır. Burada gerçekleşen analiz Çizelge 6.4’de görüldüğü
gibi en yüksek doğruluk oranına sahip kural bile oldukça düşük doğrulukla
sonuçlanmıştır (0.55752).
53
Çizelge 6.4 Eğitim düzeyi ile Hedef değişken (y) arasındaki ilişkin PredictiveApriori
ile analiz edilmesi
Kural
Doğruluk
Eğitim=Birincil ise Hedef değişken (y) = Hayır
0.55752
Takip eden kısımda konut kredisi, bireysel kredi, yükümlülüğü yerine getirilmeyen
kredinin olup olmaması ve kampanya başarısı Apriori yöntemiyle incelenmiştir.
Çizelge 6.5 Konut kredisi, bireysel kredi ve yükümlülüğü yerine getirilmeyen
kredinin olup olmaması ile y arasındaki ilişkinin Apriori ile analiz
edilmesi
Kural
Güven
Bireysel kredi=Yok ve Yükümlülüğü yerine getirilmeyen
0.99
kredi= Yok
Bireysel kredi=Yok ve Hedef değişken=Hayır ise Yükümlülüğü
0.99
yerine getirilmeyen kredi=Yok
Konut kredisi= Var ve Bireysel kredi= Yok ise Yükümlülüğü
0.99
yerine getirilmeyen kredi=Yok
Konut kredisi= Var ise Hedef değişken= Hayır
0.92
Burada anlamlı gözüken kurallardan birisinde konut kredisi kullanan müşterilerin
%92 doğrulukla teklifi kabul etmediği görülmektedir. Ödeme şartları genellikle ağır
olan konut kredilerini bu sonucu vermesi doğal olarak karşılanmalıdır. Ayrıca bu
diğer değişkenlerle beraber yorumlanarak, müşterilerin risk algısıyla ilgili bize bir
yorum getirme imkânı sunabilir.
Aynı nitelikler PredictiveApriori yöntemiyle ölçüldüğünde aşağıdaki sonuçlar
üretilmiştir.
54
Çizelge 6.6 Konut kredisi, bireysel kredi, yükümlülüğü yerine getirilmeyen kredinin
olup olmaması ile y arasındaki ilişkinin PredictiveApriori ile analiz
edilmesi
Kural
Doğruluk
Konut kredisi=Var ve Bireysel kredi=Var
ise Hedef 0.97224
değişken=Evet Yükümlülüğü yerine getirilmeyen kredi= Yok
Konut kredisi=Yok ve Bireysel kredi=Var
ve Hedef 0.96263
değişken=Evet ise Yükümlülüğü yerine getirilmeyen kredi=
Yok
En önemli kurallardan biri;
hem konut kredisi bulunan hem bireysel krediden
faydalanan hem de kampanya teklifini kabul eden müşterilerin yasal takibe girmiş bir
borcunun olmamasıdır. Bu müşteriler bankalar için birinci sınıf müşteri olarak
nitelendirilebilir.
Çizelge 6.1 de görüldüğü gibi müşterilerin büyük çoğunluğunun kampanyayı
reddettiği kolaylıkla görülebilir. Bu oran analizlere de yansımaktadır. Model bu
şekilde kurulduğu zaman sonuçların sağlıklı olmayacağına kanaat getirilmiş ve
müşteri ile görüşme süresini barındıran niteliğin kategorik olarak yeninden
düzenlenmesine ve bu niteliğin başarı kıstası olarak alınmasına karar verilmiştir.
Çünkü müşteri ile görüşme süresinin artması veri tabanı üzerinde son gerçekleştirilen
çalışmada da ifade edildiği gibi kampanya başarısını arttırmaktadır [71]. CRISP-DM
yöntemi izlenirken Şekil 4.1’ de görüldüğü üzere modelleme aşamasından tekrar veri
hazırlama aşamasına dönülmesi gerekebilir. Bu çerçevede tekrar veri hazırlama
aşamasına dönülmüş ve verideki konuşma süresi niteliği kategorik olarak SPSS
yazılımı aracılığıyla yeniden düzenlenmiştir;
0-100 saniye arası konuşmalar çok düşük,
101-200 saniye arası konuşmalar düşük,
201-300 saniye arası konuşmalar orta,
301-400 saniye arası konuşmalar iyi,
55
401-500 saniye arası konuşmalar çok iyi,
500 ve daha fazla konuşma süresi mükemmel olarak tanımlanmıştır. Bu işlem sonrası
yapılan ilk analiz meslek, konuşma süresi ve evlilik durumu arasındaki ilişkinin
PredictiveApriori algoritması ile incelenmesi olmuştur.
Çizelge 6.7 Meslek, konuşma süresi ve evlilik durumu durum arasındaki ilişkinin
PredictiveApriori algoritması ile analiz edilmesi
Kural
Doğruluk
Meslek=Girişimci ve Konuşma Süresi=Çok iyi ise Evlilik 0.75832
durumu=Evli
Bulunan kurallardan bir tanesi yukarıda paylaşılmıştır. Veri tabanı bizlere mesleği
girişimci olan ve görüşme süresi uzun olan müşterilerin genelde evli olduğunu
söylemektedir.
Bu süreçte kullanılan veri tabanı üzerinde kuşkusuz çok daha fazla veri madenciliği
uygulaması ve tekniği gerçekleştirilebilmektedir. En başarılı algoritmalar tespit
edilebilir, sayısal nitelikler tekrar kategorik olarak düzenlenilebilir ve oldukça çeşitli
analizler (kümeleme, sınıflandırma gibi) gerçekleştirilebilir. Çalışma kapsamında
yapılan
bu
analizler
yeterli
görülmüştür
ve
burada
modelleme
aşaması
sonlandırılmıştır.
6.3.5 Değerlendirme
Kampanya oldukça fazla bir şekilde ret edilmiştir. Günümüz müşterilerinin tele
pazarlama konusundaki rahatsızlıkları zaten bilinmektedir [34]. Çağrı merkezi
tarafından yapılan her çağrının bir maliyeti vardır. Müşteriler daha iyi tanındıkça
hedef müşteri kitlesi oluşturulmalı ve çağrı sayısı azaltılmalıdır. Bu aynı zamanda
pazarlama maliyetlerininde azaltılması anlamına gelmektedir.
Başarılı çağrılar genelde uzun süreli olduğundan, başarı kıstası olarak konuşma
süresi kabul edilmiştir ve veritabanı bundan sonra bu analizlere uygun bir hale
56
getirildikten sonra ilk deneme gerçekleştirilmiştir. Yapılan ilk analizde mesleği
girişimci olan ve görüşme süresi uzun olan müşterilerin genelde evli olduğu veya
evli ev hanımlarının telefonla konuşma sürelerinin genelde uzun olduğu gibi sonuçlar
elde edilmiştir.
6.3.6 Yayılım
Veri madenciliği süreklilik isteyen bir süreçtir. Sürecin sağlıklı olarak ilerleyebilmesi
için verilerin güncel ve güvenilir bir şekilde saklanması gerekmektedir.
Gerçekleştirilen veri madenciliği sürecinin yayılımı için öncelikle müşterilere
sunulan öneri üzerinde makul değişiklikler yapılarak yeni bir veri madenciliği süreci
başlatılmalı ve elde edilen sonuçlar karşılıklı olarak analiz edilmelidir. Bu yolla
banka müşterilerinin reflekslerini daha iyi tanıyacak ve daha işlevsel örüntüler
yakalayabilecektir.
Burada veri tabanına sahip firma tele pazarlama stratejilerini oluştururken öncelikle
konuşma süresini nasıl uzatabileceğine karar vermelidir. Yapılan analizler sonucunda
telefon ile uzun konuşan müşterilerin özelliklerine odaklanmalı ve hedef kitlesini
buna göre oluşturduktan sonra tele pazarlama kaynaklarını daha çok bu kitleye
yönlendirmelidir. Ayrıca bir sonraki aşamada sayısal yapıda olan bazı verileri de yaş
örneğinde yapıldığı gibi tekrar gruplayarak yeni birliktelik kurallarının işletilebilir.
Süreç gerekli veri düzeltme işlemlerini gerçekleştirmek üzere ve farklı algoritmaların
denenmesi suretiyle devam etmelidir. Ayrıca konuşma süresi niteliği temel alınarak
bazı sınıflandırma ve kümeleme analizlerinin gelecekte gerçekleştirilerek modelin
tazelenmesi gerçekleştirilebilir.
57
7. SONUÇLAR
Bu tez çalışmasında veri madenciliğinin kullanım alanları, veri madenciliği teknikleri
ve veri madenciliği süreci CRISP-DM yöntembilimine göre özetlenmiştir. Veri
madenciliği ve makine öğrenmesi yazılımı WEKA hakkında bilgiler verilmiştir.
Doğrudan pazarlama ve tele pazarlama hakkında genel bilgiler verildikten sonra, alan
yazında veri madenciliğiyle ilgili farklı çalışmalar anlatılmaya çalışılmıştır.
Tele pazarlamada veri madenciliğinin kullanılabilirliği Portekiz’deki bir bankadan
sağlanan ikincil veriler aracılığıyla analiz edilerek gösterilmeye çalışılmıştır. Bütün
süreç aşama aşama değerlendirilmiş ve süreçte yaşanan her şey özetlenmiştir.
Veri madenciliği istatistiksel analizden farklı olarak hipotezlerden yola çıkarak
hareket etmediği için sonuçları yorumlamak kolay değildir. Genel bulgular
müşterilerin psikografik özellikleri ve yıllık ortalama bakiyeleri müşteriye sunulacak
teklifin sonuçlanmasını önceden kestirmede önemli olduğunu göstermektedir.
Müşteriye teklifin sunulduğu tarihte bu konuda etkilidir. Daha önce kredi kullanan
müşterilerin ve bu kampanyaya olumlu bakan müşterilerin herhangi bir yasal takibi
olmaması dikkat çekmiştir. Genel olarak kampanyanın oldukça fazla ret edildiği daha
önce de bahsedilen tele pazarlamadaki müşteri tepkisiyle çelişmemektedir.
Daha önce aynı veri tabanı üzerinde yapılan çalışmada da belirtildiği gibi konuşma
süresinin kampanya başarısında önemli bir nitelik olduğu kabul edilmiş ve konuşma
süresi kategorik olarak düzenlendikten sonra bu model kıstas alınarak yeni
analizlerin yapılmasına karar verilmiştir. Örnek olarak gerçekleştirilen ilk analizde
ise girişimci müşterilerin telefonla istenilen düzeyde konuştuğu ve bunların genelde
bekâr olduğu gibi tatmin edici ve bankanın pazarlama stratejilerini aydınlatabilecek
sonuçlar elde edilmiştir. İlgili tele pazarlama firmasının konuşma süresi niteliğini baz
alarak hedef kitlesini belirlemesine yönelik ve kaynaklarını bu kitleye yöneltmesine
yönelik bir yayılım sürecine karar verilmiştir.
58
Bu çalışmada tele pazarlama verilerinin özellikle WEKA aracılığıyla nasıl
kullanılabileceğine dair literatüre örnek bir süreç olarak katkıda bulunmuştur. Bu
alanda atılım yapmak isteyen işletmeler ve akademisyenler için yol gösterici olacağı
umulmaktadır. Çalışma kapsamında sonuçların yorumlanmasında en önemli kısıtlılık
verilerin Portekiz’deki müşteriler hakkında olmasıdır. Bu verilerin daha iyi
yorumlanabilmesi ve faydalı çıktılar elde edilebilmesi için sonraki çalışmalarda
Türkiye’deki bankacılık sektöründen elde edilen verilerin kullanılması ve analizlerin
bu veriler üzerinde yapılması önerilmektedir.
59
KAYNAKLAR
1. Frawley, W.J., Piatetsky-Shapiro, G., ve Matheus, C.J., “Knowledge
Discovery in Databases: An Overview”, AI Magazine, 13(3): 57-70 (1992).
2. Witten, I., ve Frank, E., “Data Mining: Practical Machine Learning Tools and
Techniques, 3rd edition”, Morgan Kaufmann, San Francisco (2011).
3. Hilbert, M. Ve Lopez, P., “The World’s Technological Capacity to Store,
Communicate, and Compute Information”, Science, 332(6025):60-65 (2011).
4. Bose, I. ve Mahapatra, R. K., “Business data mining - a machine learning
perspective”, Information & Managment, 39: 211-225 (2011).
5. Ngai, E.W.T.,
Xiu, L. ve Chau, D.C.K.,
“Application of data mining
techniques in customer relationship management: A literature review and
classification.”, Expert Systems with Applications, 36: 2592–2602 (2009).
6. Leaming, M., Ferris, B., Wedderburn, A., Meek, J., Binder, S., Mena, J.,
Pridgen, M., Streeter, R. ve Goodman, M., “Survey of DHS Data Mining
Activites”, U.S Deparment of Homeland Security, Washington D.C. (2006).
7. Baykasoğlu, A., “Veri Madenciliği ve Çimento Sektöründe Bir Uygulama”,
Akademik Bilişim Konferansı, Gaziantep, 82-83 (2005).
8. Ulaş, M.A., “Market Basket Analysis For Data Mining”, Yüksek Lisans Tezi,
Boğaziçi University Institute for Graduate Studies in Science and Engineering,
İstanbul (2001).
9. Baykal, A., “Veri Madenciliği Uygulama Alanları”, D.Ü.Ziya Gökalp Eğitim
Fakültesi Dergisi, 7:95-107 (2006).
10. Rygielski, C., Jyun-Cheng, W. ve Yen., D. C. “Data mining techniques for
customer relationship management”, Technology in Society, 24: 483–502 (2002).
60
11. Ling, C. X. ve Li, C., “Data Mining for Direct Marketing: Problems and
Solutions”, The Fourth International Confernece On Knowledge Discovery
And Data Mining, New York, (1998).
12. Emel, G.G ve Taşkın, Ç., “Veri Madenciliği Karar Ağaçları ve Bir Satış
Analizi Uygulaması”, Eskişehir Osmangazi Üniversitesi SBE Degisi, 6(2): 221239 (2005).
13. Koyuncugil, A., “Borsa Şirketlerinin Risk Bazlı Gözetimine Yönelik Veri
Madenciliğine Dayalı Metodoloji ve Sistem Önerisi”, Sermaye Piyasası Kurulu
Araştırma Dairesi, Ankara, (2008).
14. Ulaş, M. A., Apaydın, E., Sönmez, N., ve Kalkan, A., “Veri Madenciliğinde
Sepet Analizi Uygulamaları”, Bilişim 2001, İstanbul(2001).
15. Vargas-Govea, B., González-Serna, G., ve Ponce-Medellín, R., “Effects of
relevant contextual features in the performance of a restaurant recommender
system”, 18th ACM Conference on Computer and Communications Security,
Chicago, (2011).
16. Küçüksille, E., “Veri Madenciliği Süreci Kullanılarak Portföy Performansının
Değerlendirilmesi ve İMKB Hisse Senetleri Piyasasında Bir Uygulama”, Doktora
Tezi, Süleyman Demirel Üniversitesi SBE, Isparta, (2009).
17. Akbulut S., “Veri Madenciliği Teknikleri ile Bir Kozmetik Markanın Ayrılan
Müşteri Analizi ve Müşteri Segmentasyonu”, Yüksek Lisans Tezi, Gazi
Üniversitesi FBE, Ankara (2006).
18. Emel, G. G., ve Taşkın, Ç., “Pazarlama Stratejilerinin Oluşturulmasında Bir
Karar Destek Aracı: Birliktelik Kuralı Madenciliği”, Dokuz Eylül Üniversitesi
SBE 7(3):30-59 (2005).
61
19. Taşkın, Ç., ve Emel, G. G., “Veri Madenciliğinde Kümeleme Yaklaşımları ve
Kohonen Ağları ile Perakendecilik Sektöründe Bir Uygulama” Süleyman
Demirel Üniversitesi İİBF Dergisi, 15(3): 395-409(2010).
20. Timor, M. ve Şimşek, U. T., “Veri Madenciliğinde Sepet Analizi ile Tüketici
Davranışı Modellemesi”, Yönetim, 59, (2008).
21. Birant, D., Kut, A., Ventura, M., Altınok, H., Altınok, B., Altınok, E. ve
Ihlamur, M., “İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları
Analizi”, Akademik Bilişim’10, Muğla, 256 (2010).
22. Chung, G. ve Grimes, S.M., "Data mining the kids: Surveillance and market
research strategies in children's online games" Canadian Journal of
Communication, 30(4):527-548 (2005).
23. Kalikov, A., “Veri Madenciliği ve Bir E-Ticaret Uygulaması” Yüksek Lisans
Tezi, Gazi Üniversitesi FBE, Ankara (2006).
24. Aydoğan, E.K. ve Gencer, C., “Veri Madenciliği Problemlerinde Kaba Küme
Yaklaşımı Kullanılarak Sınıflandırma Amaçlı Yapılmış Olan Çalışmalar”, Kara
Harp Okulu Savunma Bilimleri Dergisi, 6(2): 17-32 (2007).
25. Schertel, S.L.,” Data Mining And Its Potential Use In Textiles: A Spinning
Mill”, Doktora Tezi, Graduate Faculty of North Carolina State University,
North Carolina, (2002).
26. Hui, S.C. ve Jha, G., “Data mining for customer service support“,
Information & Management, 38:1-13, (2000).
27. Xiong, T., Wang, S., Mayers, A., ve Monga, E., “Personal bankruptcy
prediction by mining credit card data”, Expert Systems with Applications,
40:665-676 (2012).
62
28. Guo, L., “Applying data mining techniques in property/casualty insurance”,
Casualty Actuarial Society Forum, Virgina, 1-25 (2003).
29. Lien C., “Revisiting The Problem Of Market Segmentation: A new Approach
Using Self-Organizing Maps, A Data Mining Technique, In Database
Marketing”, Doktora Tezi, Carleton University Faculty of Graduate Studies and
Research, Ottowa, (2005).
30. Liu Y. ve Schumann M., “Data Mining Feature Selection for Credit Scoring
Models”, The Journal of the Operational Research Society, 56 (9):1099-1108
(2005).
31. Chen, Y. L., Tang, K., Shen, R. J., ve Hu, Y. H., “Market basket analysis in a
multiple store environment” Decision support systems, 40(2): 339-354 (2005).
32. Giudici, P., ve Passerone, G., “Data Mining Of Association Structures To
Model Con Sumer Behaviour”, Computational Statistics & Data Analysis,
38:533–541(2002).
33. Ay, D. ve Çil, İ., “Migros Türk A.Ş. de Birliktelik Kurallarının Yerleşim
Düzeni Planlamada Kullanılması” Endüstri Mühendisliği Dergisi, 21(2):1429(2008).
34. Kotler P. ve Keller K.L., “Marketing Management, 14th Edition”, Pearson,
Upper Saddle River, N.J, 557-561 (2012).
35. Sümer, S. I. ve Eser, Z., “Pazarlama Karması Elemanlarının Evrimi”, Gazi
Üniversitesi İİBF Dergisi, 8(1): 165-186 (2006).
36. Chen, M. S., Han, J., ve Yu, P. S., “Data mining: an overview from a
database perspective”, Knowledge and data Engineering, IEEE Transactions
on, 8(6): 866-883 (1996).
63
37. Nakip, M., Varinli, İ., ve Gülmez, M. Güncel Pazarlama Yönetimi, Detay
Yayıncılık, Ankara, (2012).
38. Taylor, P. ve Bain, P., "An assembly line in the head’: work and employee
relations in the call centre", Industrial Relations Journal 30(2): 101-117 (1999).
39. Sarıyer, N., “Banka Çağrı Merkezi Pazarının Bölümlendirilmesi -Yozgat
İl Merkezi’nde Bir Uygulama”, ZKÜ Sosyal Bilimler Dergisi, 3(6):149162 (2007).
40. Savaş, S., Topaloğlu, N., ve Yılmaz, M., “Veri Madenciliği ve Türkiye'deki
Uygulama Örnekleri”, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 21:
1-23 (2012).
41. Shaw, M. J., Subramaniam, C., Tan G. W., ve Melge, W. E., “Knowledge
management and data mining for marketing”, Decision Support Systems, 31:127137 (2001).
42. Hand, D.J., “Data Mining: Statistics and More?”, The American Statistician,
52(2): 112-118 (1998).
43. Bhalla, S., ve Bai, Y., “Practical Database Programming With Visual
Basic.Net.” , Cambridge University Press, Cambridge, 11-89 (2008).
44. Koyuncugil A.S. ve Özgülbaş N., “Veri Madenciliği: Tıp ve Sağlık
Hizmetlerinde Kullanımıve Uygulamaları”, Bilişim Teknolojileri Dergisi,
2(2):21-32 (2009).
45. Aaker D.A., Kumar, V., Day, G.S., ve Leone, R.P., “ Marketing Research,
International Student Version, 10th edition”, Wiley, Hoboken, NJ, 618,445
(2011).
46. Korkmaz, S., Işın, F.B., Öztürk, S.A., ve Eser, Z., “ Pazarlama: Kavramlarİlkeler-Kararlar”, Siyasal Kitabevi, Ankara (2009).
64
47. Piatetsky-Shapiro, G., “Knowledge Discovery in Real Databases: A Report
on the IJCAI-89 Workshop”, AI Magazine, 11(5): 68-70 (1990).
48. Fayyad, U., Piatetsky-Shapiro, G., ve Smyth P., “From Data Mining to
Knowledge Discovery in Databases”, AI Magazine 17(3): 37-54 (1996).
49. Akpınar, H., “Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği”, İ.Ü.
İşletme Fakültesi Dergisi, 29(11): 1-22 (2000).
50. Zhang, C., ve Zhang, S., “Association Rule Mining, Models and Algorithms”,
Springer, Berlin Heidelberg, (2002).
51. Chapman, P., Clınton, J., Kerber, R., Khabaz T., Reinartz, T., Shearer, C. ve
Wırth, R. “CRISP-DM 1.0 Step-by-step data mining guide”, SPSS Inc. (2000).
52. Edelstein, H. A., “Introduction to Data Mining and Knowledge Discovery” ,
Two Crows Corporation, Maryland (1999).
53. Wirth, R., ve Hipp, J., “CRISP-DM: Towards a Standard Process Model for
Data Mining” , Proceedings of the Fourth International Conference on the
Practical Application of Knowledge Discovery and Data Mining, Manchester,
29-39 (2000).
54. Olson, D. L., ve Delen, D., “Advanced Data Mining Techniques”, Springer,
Berlin Heidelberg, (2008).
55. Cešpivová, H., Rauch, J., Svátek, V., Kejkula, M. ve Tomecková, M., “Roles
of
medical
ontology
in
association
mining
CRISP-DM
cycle”,
InECML/PKDD04 Workshop on Knowledge Discovery and Ontologies
(KDO’04), Pisa (2004).
56. Özekes, S., ve Çamurcu, A.Y., “Veri Madenciliğinde Sınıflama ve Kestirim
Uygulaması”, T.C. Marmara Üniversitesi Fen Bilimleri Dergisi, 18:159-174
(2002).
65
57. Çankırı, S., Kartal E., Yıldırım, K., ve Gülseçen, S., “Organizasyonlarda
Bilgi Yönetimi Sürecinde Veri Madenciliği Yaklaşımı”, ÜNAK ’09, İstanbul,
148-167 (2009).
58. Fayyad, U., “Mining Databases: Towards Algorithms for Knowledge
Discovery”, Data Engineering, 21(1): 39-48 (1998).
59. Han, J., Kamber, M. ve Pei, J., “Data Mining Concepts and Techniques, 3rd
edition”, Morgan Kaufmann, U.S.A (2011).
60. Chiu, S. ve Tavella D., “ Data Mining and Market Intelligence for Optimal
Marketing Returns, 1st Edition”, Butterworth Heinemann, San Francisco, 157162 (2008).
61. Telçeken, S., ve Doğan M., “Kaba Kümeler Teorisi Yardımı İle Büyük
Veveri Topluluklarının Analizi”, Eleco2004, Bursa, 410-414 (2004).
62. Komorowski, J., Pawlak, Z., Polkowski, L., ve Skowron, A. “Rough sets: A
tutorial”, Rough fuzzy hybridization: A new trend in decision-making, 1st
Edition, Pal S.K. ve Skowron A., Springer-Verlag, New York, 3-98 (1999).
63. Emel, G. G., ve Taşkın, Ç., “Genetik Algoritmalar Ve Uygulama Alanları”,
Uludağ Üniversitesi İİBF Dergisi, 21(1): 129-152 (2002).
64. Tuğ, E., “Genetik Algoritmalar ve Tıbbi Veri Madenciliği”, Yüksek Lisans
Tezi, Selçuk Üniversitesi FBE, Konya (2005).
65. Vahaplar, A., ve İnceoğlu, M. M. “Veri Madenciliği ve Elektronik Ticaret”,
Türkiye’de İnternet Konferansları, Harbiye İstanbul, 1-3 (2001).
66. Dener, M., Dörterler, M., ve Orman, A., “Açık Kaynak Kodlu Veri
Madenciliği Programları: WEKA’da Örnek Uygulama”, Akademik Bilişim’09 –
XI, Şanlıurfa, 787-796 (2009).
66
67. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., ve Witten, I.
H., “The WEKA data mining software: an update”, ACM SIGKDD Explorations
Newsletter, 11(1): 10-18 (2009).
68. İnternet: Kd Nuggets
http://www.kdnuggets.com/polls/2013/analytics-big-data-mining-data-sciencesoftware.html
69. İşler, Y., ve Narin A., “WEKA Yazılımında k-Ortalama Algoritması
Kullanılarak Konjestif Kalp Yetmezliği Hastalarının Teşhisi”, SDÜ Teknik
Bilimler Dergisi, 2(4): 21-29 (2012).
70. İnternet: The UCI Machine Learning Repository
http://archive.ics.uci.edu/ml/about.html
71. Moro, S., Laureano, R.M. S., ve Cortez, P., “Using Data Mining For Bank
Direct Marketing: An Application Of The CRISP-DM Methodology”,
Proceedings of the European Simulation and Modelling Conference ESM'2011, Guimarães, 117-121 (2011).
67
EKLER
68
EK-1 En çok tercih edilen veri madenciliği yazılımları [68]
Çizelge 1.1 En çok tercih edilen veri madenciliği yazılımları[68]
Son 12 ayda gerçek bir projede hangi Analitik, Büyük veri, Veri
madenciliği veya Veri yazılımı kullandınız? [1880 katılımcı]
Kullanıcılar
Kırmızı punto ücretsiz/açık kaynak kodlu yazılımları göstermektedir.
Yeşil punto ticari araçları göstermektedir.
% 2013
deki kullanıcılar
% 2012
deki kullanıcılar
Rapid-I RapidMiner/RapidAnalytics free edition (737), 30.9%
39.2%
26.7%
R (704), 6.5%
37.4%
30.7%
Excel (527), 0.9%
28.0%
29.8%
Weka / Pentaho (269), 5.6%
14.3%
14.8%
Python with any of numpy/scipy/pandas/iPython... packages(250), 0%
13.3%
14.9%
Rapid-I RapidAnalytics/RapidMiner Commercial Edition (225), 52.4%
12.0%
SAS (202), 2.0%
10.7%
12.7%
MATLAB (186), 1.6%
9.9%
10.0%
StatSoft Statistica (170), 45.9%
9.0%
14.0%
IBM SPSS Statistics (164), 1.8%
8.7%
7.8%
Microsoft SQL Server (131), 1.5%
7.0%
5.0%
Tableau (118), 0%
6.3%
4.4%
IBM SPSS Modeler (114), 6.1%
6.1%
6.8%
KNIME free edition (110), 1.8%
5.9%
21.8%
SAS Enterprise Miner (110), 0%
5.9%
5.8%
Rattle (84), 0%
4.5%
JMP (77), 7.8%
4.1%
4.0%
Orange (67), 13.4%
3.6%
5.3%
Other free analytics/data mining software(64), 3.1%
3.4%
4.9%
69
Çizelge 1.1 En çok tercih edilen veri madenciliği yazılımları (Devam) [68]
Gnu Octave (54), 0%
2.9%
Revolution Analytics R Enterprise (53), 1.9%
2.8%
1.4%
Predixion Software (51), 43.1%
2.7%
0.4%
KNIME Professional (46), 4.3%
2.4%
Revolution Analytics R free edition (46), 2.2%
2.4%
IBM Cognos (45), 2.2%
2.4%
2.0%
Other commercial analytics/data mining/data science software (45), 0%
2.4%
4.0%
QlikView (45), 2.2%
2.4%
Salford SPM/CART/MARS/TreeNet/RF(42), 26.2%
2.2%
1.1%
Mathematica (39), 0%
2.1%
2.9%
Stata (39), 2.6%
2.1%
1.9%
KXEN (35), 54.3%
1.9%
1.8%
Miner3D (34), 41.2%
1.8%
2.4%
SAP (including BusinessObjects/Sybase/Hana) (27), 3.7%
1.4%
0.9%
TIBCO Spotfire / S+ / Miner (26), 3.8%
1.4%
4.6%
C4.5/C5.0/See5 (21), 0%
1.1%
1.6%
Bayesia (19), 15.8%
1.0%
1.8%
Oracle Data Miner (19), 5.3%
1.0%
4.4%
Zementis (17), 41.2%
0.9%
1.8%
XLSTAT (16), 0%
0.9%
0.9%
F# (14), 14.3%
0.7%
0.6%
RapidInsight/Veera (9), 0%
0.5%
0.6%
Teradata Miner (9), 0%
0.5%
0.5%
70
Çizelge 1.1 En çok tercih edilen veri madenciliği yazılımları (Devam) [68]
Lavastorm (8), 25.0%
0.4%
WordStat (7), 0%
0.4%
0.4%
Angoss (6), 16.7%
0.3%
0.9%
11 Ants Analytics (5), 0%
0.3%
0.5%
Alteryx (5), 0%
0.3%
Megaputer Polyanalyst/TextAnalyst (2), 0%
0.1%
71
EK-2 Nitelik Seçimi analiz sonuçlarının WEKA’daki görünümü
Şekil 2.1 Nitelik seçiminin bütün niteliklere CfsSubsetEval ile uygulanması
=== Run information ===
Evaluator:
weka.attributeSelection.CfsSubsetEval
Search:weka.attributeSelection.BestFirst -D 1 -N 5
Relation:
bank-full2-weka.filters.unsupervised.attribute.RemoveR18
Instances:
45211
Attributes:
17
age
job
marital
education
default
balance
housing
loan
contact
day
month
duration
campaign
pdays
previous
poutcome
y
Evaluation mode:evaluate on all training data
=== Attribute Selection on all input data ===
Search Method:
Best first.
Start set: no attributes
Search direction: forward
Stale search after 5 node expansions
Total number of subsets evaluated: 95
Merit of best subset found:
0.082
Attribute Subset Evaluator (supervised, Class (nominal): 17 y):
CFS Subset Evaluator
Including locally predictive attributes
Selected attributes: 3,7,8,12,16 : 5
marital
housing
loan
duration
poutcome
72
Şekil 2.2 Nitelik seçiminin bütün niteliklere Chisquaredattributeeval ile uygulanması
== Run information ===
Evaluator:
weka.attributeSelection.ChiSquaredAttributeEval
Search:weka.attributeSelection.Ranker -T -1.7976931348623157E308 -N
-1
Relation:
bank-full2-weka.filters.unsupervised.attribute.RemoveR18
Instances:
45211
Attributes:
17
age
job
marital
education
default
balance
housing
loan
contact
day
month
duration
campaign
pdays
previous
poutcome
y
Evaluation mode:evaluate on all training data
=== Attribute Selection on all input data ===
Search Method:
Attribute ranking.
Attribute Evaluator (supervised, Class (nominal): 17 y):
Chi-squared Ranking Filter
Ranked attributes:
7725.66922 12 duration
4391.50659 16 poutcome
3516.24129 14 pdays
3061.83894 11 month
1498.63049
1 age
1326.00827 15 previous
1035.71423
9 contact
875.69372
7 housing
836.10549
2 job
529.3653
10 day
503.96
6 balance
350.63271 13 campaign
238.92351
4 education
210.19493
8 loan
196.49595
3 marital
22.7235
5 default
Selected attributes: 12,16,14,11,1,15,9,7,2,10,6,13,4,8,3,5 : 16
73
EK-3 Birliktelik Kuralları Analizi Sonuçlarının WEKA’daki Görünümü
Şekil 3.1 Bütün niteliklerin PredictiveApriori ile analiz edilmesi
PredictiveApriori
===================
Best rules found:
1. job=student y=yes 269 ==> marital=single 258
acc:(0.94665)
2. job=entrepreneur marital=divorced 179 ==> y=no 164
acc:(0.90195)
3. job=housemaid marital=divorced 184 ==> y=no 166
acc:(0.89301)
4. job=unknown marital=divorced 17 ==> y=no 16
acc:(0.89172)
5. job=unknown marital=married 203 ==> y=no 182
acc:(0.89044)
6. job=entrepreneur marital=single 238 ==> y=no 211
acc:(0.88653)
7. job=unknown 288 ==> y=no 254
acc:(0.88495)
8. job=retired marital=single 108 ==> y=no 95
acc:(0.88287)
9. job=self-employed marital=divorced 140 ==> y=no 118
acc:(0.8602)
10. job=unemployed marital=divorced 171 ==> y=no 144
acc:(0.8574)
11. job=housemaid marital=single 144 ==> y=no 120
acc:(0.85112)
12. job=student marital=married 54 ==> y=no 44
acc:(0.84226)
13. job=student marital=divorced 6 ==> y=no 5
acc:(0.82215)
14. job=unknown y=no 254 ==> marital=married 182
acc:(0.7245)
15. job=unknown 288 ==> marital=married 203
acc:(0.71582)
74
Şekil 3.2 Eğitim düzeyi ile Hedef değişken (y) arasındaki ilişkin PredictiveApriori
ile analiz edilmesi
PredictiveApriori
===================
Best rules found:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
education=primary 6851 ==> y=no 6260
acc:(0.55752)
education=secondary 23202 ==> y=no 20752
acc:(0.52894)
education=unknown 1857 ==> y=no 1605
acc:(0.41759)
education=tertiary 13301 ==> y=no 11305
acc:(0.38172)
y=no 39922 ==> education=secondary 20752
acc:(0.31706)
y=yes 5289 ==> education=secondary 2450
acc:(0.23449)
y=yes 5289 ==> education=tertiary 1996
acc:(0.1863)
y=no 39922 ==> education=tertiary 11305
acc:(0.14981)
y=no 39922 ==> education=primary 6260
acc:(0.10672)
education=tertiary 13301 ==> y=yes 1996
acc:(0.0982)
education=unknown 1857 ==> y=yes 252
acc:(0.08969)
y=yes 5289 ==> education=primary 591
acc:(0.0647)
education=secondary 23202 ==> y=yes 2450
acc:(0.06033)
education=primary 6851 ==> y=yes 591
acc:(0.04043)
y=yes 5289 ==> education=unknown 252
acc:(0.03878)
y=no 39922 ==> education=unknown 1605
acc:(0.02736)
75
Şekil 3.3 Konut kredisi, bireysel kredi ve yükümlülüğü yerine getirilmeyen kredinin
olup olmaması ile y arasındaki ilişkinin Apriori ile analiz edilmesi
Apriori
=======
Minimum support: 0.4 (18084 instances)
Minimum metric <confidence>: 0.9
Number of cycles performed: 12
Generated sets of large itemsets:
Size of set of large itemsets L(1): 5
Size of set of large itemsets L(2): 7
Size of set of large itemsets L(3): 4
Size of set of large itemsets L(4): 1
Best rules found:
1. loan=no 37967 ==> default=no 37453
conf:(0.99)
2. loan=no y=no 33162 ==> default=no 32685
conf:(0.99)
3. housing=yes loan=no 20763 ==> default=no 20461
conf:(0.99)
4. housing=yes loan=no y=no 19093 ==> default=no 18813
conf:(0.99)
5. housing=yes 25130 ==> default=no 24695
conf:(0.98)
6. housing=yes y=no 23195 ==> default=no 22789
conf:(0.98)
7. housing=no 20081 ==> default=no 19701
conf:(0.98)
8. y=no 39922 ==> default=no 39159
conf:(0.98)
9. housing=yes 25130 ==> y=no 23195
conf:(0.92)
10. default=no housing=yes 24695 ==> y=no 22789
conf:(0.92)
76
Şekil 3.4 Konut kredisi, bireysel kredi, yükümlülüğü yerine getirilmeyen kredinin
olup olmaması ile y arasındaki ilişkinin PredictiveApriori ile analiz
edilmesi
PredictiveApriori
===================
Best rules found:
1. housing=yes loan=yes y=yes 265 ==> default=no 258
acc:(0.97224)
2. housing=no loan=yes y=yes 219 ==> default=no 211
acc:(0.96263)
3. default=yes housing=no loan=yes 168 ==> y=no 160
acc:(0.94799)
4. default=yes housing=yes loan=yes 133 ==> y=no 126
acc:(0.94245)
5. default=yes housing=no loan=no 212 ==> y=no 197
acc:(0.928)
6. default=yes housing=yes y=yes 29 ==> loan=no 22
acc:(0.76272)
7. default=yes y=yes 52 ==> loan=no 37
acc:(0.69879)
8. housing=no loan=no y=yes 3135 ==> default=no 3120
acc:(0.62926)
9. housing=no y=yes 3354 ==> default=no 3331
acc:(0.61872)
10. loan=no y=yes 4805 ==> default=no 4768
acc:(0.61548)
11. y=yes 5289 ==> default=no 5237
acc:(0.61456)
12. housing=no loan=no 17204 ==> default=no 16992
acc:(0.61455)
13. loan=no 37967 ==> default=no 37453
acc:(0.61455)
14. housing=yes 25130 ==> default=no 24695
acc:(0.61454)
15. y=no 39922 ==> default=no 39159
acc:(0.61454)
acc:(0.52663)
77
Şekil 3.5 Meslek, konuşma süresi ve evlilik durumu durum arasındaki ilişkinin
PredictiveApriori algoritması ile analiz edilmesi
=== Run information ===
Scheme:
weka.associations.PredictiveApriori -N 100 -c -1
Relation:
Durationweka.filters.unsupervised.attribute.Remove-R1,4-17
Instances:
45211
Attributes:
3
job
marital
Duration_kategorik
=== Associator model (full training set) ===
PredictiveApriori
===================
Best rules found:
1. job=student Duration_kategorik=Düþük 292 ==>
marital=single 278
acc:(0.9486)
2. job=student Duration_kategorik=Orta 193 ==>
marital=single 184
acc:(0.94777)
3. job=student Duration_kategorik=Çok Ýyi 57 ==>
marital=single 54
acc:(0.94095)
4. job=student Duration_kategorik=Ýyi 90 ==> marital=single
83
acc:(0.93289)
5. job=student Duration_kategorik=Mükemmel 92 ==>
marital=single 84
acc:(0.92726)
6. job=student Duration_kategorik=Çok Düþü 214 ==>
marital=single 195
acc:(0.92015)
7. job=entrepreneur Duration_kategorik=Çok Ýyi 78 ==>
marital=married 63
acc:(0.75832)
8. job=retired Duration_kategorik=Ýyi 252 ==>
marital=married 194
acc:(0.75385)
9. job=housemaid Duration_kategorik=Orta 187 ==>
marital=married 140
acc:(0.74076)
10. job=retired Duration_kategorik=Çok Ýyi 150 ==>
marital=married 112
acc:(0.73856)
11. job=unknown Duration_kategorik=Çok Düþü 87 ==>
marital=married 65
acc:(0.7341)
12. job=housemaid Duration_kategorik=Ýyi 110 ==>
marital=married 81
acc:(0.73127)
13. job=entrepreneur Duration_kategorik=Orta 246 ==>
marital=married 177
acc:(0.72419)
14. job=housemaid Duration_kategorik=Çok Ýyi 53 ==>
marital=married 39
acc:(0.71776)
15. job=unknown 288 ==> marital=married 203
acc:(0.71365)
78
ÖZGEÇMİŞ
Kişisel Bilgiler
Soyadı, adı
: AYTAÇ, Muhammed Bilgehan
Uyruğu
: T.C.
Doğum tarihi ve yeri
: AKSARAY 24/07/1989
Medeni hali
: Bekâr
Telefon
: 0 382 288 24 01
Faks
: 0 382 288 2398
e-mail
: bilgehanaytac@gmail.com
Eğitim
Derece
Eğitim Birimi
Mezuniyet tarihi
Yüksek lisans
Gazi Üniversitesi/Yönetim Bil. Sis. 2013
Lisans
Gazi Üniversitesi/İşletme Bölümü
2011
Lise
Cumhuriyet Anadolu Lisesi
2007
Yıl
Yer
Görev
2012
Aksaray Üniversitesi
Araştırma Görevlisi
İş Deneyimi
Yabancı Dil
İngilizce
Hobiler
Basketbol, Müzik, Roman
Download