DOĞRUDAN PAZARLAMA ARACI OLARAK TELE PAZARLAMA İÇİN VERİ MADENCİLİĞİ ÇÖZÜMLERİ: BANKA MÜŞTERİLERİ ÜZERİNE BİR UYGULAMA Muhammed Bilgehan AYTAÇ YÜKSEK LİSANS TEZİ YÖNETİM BİLİŞİM SİSTEMLERİ ANABİLİM DALI GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ ARALIK 2013 ANKARA ii Muhammed Bilgehan AYTAÇ tarafından hazırlanan DOĞRUDAN PAZARLAMA ARACI OLARAK TELE PAZARLAMA İÇİN VERİ MADENCİLİĞİ ÇÖZÜMLERİ: BANKA MÜŞTERİLERİ ÜZERİNE BİR UYGULAMA adlı bu tezin Yüksek Lisans tezi olarak uygun olduğunu onaylarım. Doç. Dr. Hasan Şakir BİLGE Tez Yöneticisi Bu çalışma, jürimiz tarafından oy birliği ile Yönetim Bilişim Sistemleri Anabilim Dalında Yüksek lisans tezi olarak kabul edilmiştir. Başkan: : Prof. Dr. Hadi GÖKÇEN Üye : Doç. Dr. Metehan TOLON Üye : Doç. Dr. Hasan Şakir BİLGE Tarih : 23/12/2013 Bu tez, Gazi Üniversitesi Bilişim Enstitüsü tez yazım kurallarına uygundur. iii TEZ BİLDİRİMİ Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu çalışmada orijinal olmayan her türlü kaynağa eksiksiz atıf yapıldığını bildiririm. Muhammed Bilgehan AYTAÇ iv DOĞRUDAN PAZARLAMA ARACI OLARAK TELE PAZARLAMA İÇİN VERİ MADENCİLİĞİ ÇÖZÜMLERİ: BANKA MÜŞTERİLERİ ÜZERİNE BİR UYGULAMA (Yüksek Lisans Tezi) Muhammed Bilgehan AYTAÇ GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ Aralık 2013 ÖZET Veri tabanından bilgi keşfi veya diğer bir deyişle veri madenciliği; yöneticilerin karar vermesine yardım eden, işe yarar ve gizli örüntülerin veri ambarlarından ortaya çıkarılması olarak tanımlanabilir. Günümüzde gelişen teknoloji ile beraber veri depolama kolaylaşmış ve yaygınlaşmıştır. Veri madenciliği yöntemleri de buna bağlı olarak her geçen gün yaygınlaşmakta ve çok çeşitli bilim dallarında uygulama alanı bulabilmektedir. Bu yöntemler işletmeler tarafından da bir rekabet aracı olarak kullanılmaktadır. Bu tez çalışmasında veri madenciliği yöntemlerinden bahsedilmiştir ve alan yazında pazarlama ve diğer işletmecilik alanlarında gerçekleştirilmiş veri madenciliği çalışmaları incelenmiştir. Doğrudan pazarlama ve tele pazarlama hakkında bilgiler paylaşılmıştır. Takiben, alanda gerçekleştirilen çalışmalar için çok önemli bir yazılım olan WEKA ve kullanımı hakkında aydınlatıcı bilgiler sunulmuştur. Bu konuda bir uygulama gerçekleştirilmiş; banka müşterilerini v barındıran bir veri seti üzerinde örnek bir veri madenciliği süreci geliştirilmiştir. Veriler bir bankanın çağrı merkezinden elde edilmiştir. Uygulama kapsamında WEKA isimli veri madenciliği yazılımı kullanılmıştır. Birliktelik kuralları ve nitelik seçimi veri madenciliği teknikleri kullanılmıştır. Uygulama aracılığıyla bankaların ve diğer tele pazarlama firmalarının nasıl bir veri madenciliği süreci geliştirebileceği ortaya konmuştur. Bilim Kodu Anahtar Kelime Sayfa Adedi Tez Yöneticisi : 1146.1.180 : veri madenciliği, doğrudan pazarlama : 78 : Doç. Dr. Hasan Şakir BİLGE vi DATA MINING SOLUTIONS FOR TELE MARKETING AS A DIRECT MARKETING TOOL: AN APPLICATION ON BANK COSTUMERS (M.Sc. Thesis) Muhammed Bilgehan AYTAÇ GAZİ UNIVERSITY INFORMATICS INSTITUTE December 2013 ABSTRACT Knowledge discovery from database or in other words data mining; can be described as; extracting useful and undiscovered patterns from databases which help managers decision making. Today, with rapidly evolving technology, data storing becomes easier and more common. In paralel with this, data mining techniques are getting widespread day by day and being applied on various scientific area. These techniques are also being applied in businesses as a competitive tool. In this thesis, there are information about data mining techniques and it looks into data mining applications in literature, that are performed in marketing and other business fields. It also includes information about direct marketing and tele marketing. Following this, informative tips are demonstrated about WEKA and its usage which is one of the most important software for this field. An application is developed on this subject; an example of data mining process is developed based on a dataset that collected from a bank’s customers. vii The dataset is procured from a bank’s call center. WEKA data mining software is used within the context of application. The Data mining techniques used are associate rules and attribute selection. Through this application, the study aims to illustrate how banks and other telemarketing firms can develop a data mining process. Science Code Key Words Page Number Adviser : : : : 1146.1.180 data mining, direct marketing 78 Assoc. Prof. Dr. Hasan Şakir BİLGE viii TEŞEKKÜR Çalışmam boyunca her aşamada bana gerekli desteği ve sabrı gösteren Hocam Doç. Dr. Hasan Şakir BİLGE başta olmak üzere, yaptıkları çalışma ile bizlere ışık tutan ve veri tabanını bizlere sağlayan; Paulo Cortez’e “Universidade do Minho”, Sérgio Moro’ya ve Raul M. S. Laureano’ya “University Institute of Lisbon”, teşekkürü borç bilirim. Ayrıca çalışmam boyunca bana destek olan Aksaray Üniversitesi İktisadi ve İdari Bilimler Fakültesi Yöneticilerine, İşletme Bölümü Başkan ve Başkan Yardımcılarına ayrı ayrı teşekkürler. ix İÇİNDEKİLER Sayfa ÖZET........................................................................................................................... iv ABSTRACT ................................................................................................................ vi TEŞEKKÜR .............................................................................................................. viii İÇİNDEKİLER ........................................................................................................... ix ÇİZELGELERİN LİSTESİ ......................................................................................... xi ŞEKİLLERİN LİSTESİ ............................................................................................. xii RESİMLERİN LİSTESİ ........................................................................................... xiii 1. GİRİŞ ....................................................................................................................... 1 1.1 Çalışmanın Amacı .............................................................................................. 3 1.2. Çalışmanın Kapsamı ......................................................................................... 4 2. İLGİLİ YAYIN TARAMASI .................................................................................. 6 3. DOĞRUDAN PAZARLAMA VE TELE PAZARLAMA .................................... 11 4. VERİ MADENCİLİĞİ ........................................................................................... 17 4.1 Veri Madenciliği Süreci ................................................................................... 20 4.1.1 İşi kavrama ................................................................................................ 22 4.1.2 Veriyi kavrama .......................................................................................... 22 4.1.3 Veriyi hazırlama ........................................................................................ 23 4.1.4 Modelleme................................................................................................. 23 4.1.5 Değerlendirme ........................................................................................... 24 4.1.6 Yayılım ...................................................................................................... 25 4.2 Veri Madenciliği Teknikleri ............................................................................. 27 4.2.1 Sınıflandırma ve regresyon ....................................................................... 28 4.2.2 Kümeleme ................................................................................................. 33 4.2.3 Birliktelik kuralları ve sıralı örüntüler ...................................................... 34 4.3 Veri Madenciliği Uygulama Alanları............................................................... 35 5. WEKA Yazılımı ..................................................................................................... 38 5.1 WEKA Explorer ............................................................................................... 39 6. UYGULAMA ........................................................................................................ 43 6.1 Kullanılan Veri Tabanı..................................................................................... 44 x 6.3. Uygulamanın CRISP-DM Yöntemine Göre Gerçekleştirilmesi ..................... 47 6.3.1 İşi kavrama ................................................................................................ 47 6.3.2. Veriyi kavrama ......................................................................................... 48 6.3.3. Veriyi hazırlama ....................................................................................... 48 6.3.4. Modelleme................................................................................................ 51 6.3.5 Değerlendirme ........................................................................................... 55 6.3.6 Yayılım ...................................................................................................... 56 7.SONUÇLAR ........................................................................................................... 57 KAYNAKLAR .......................................................................................................... 59 EKLER ....................................................................................................................... 67 EK-1 En çok tercih edilen veri madenciliği yazılımları ............................................ 68 EK-2 Nitelik Seçimi analiz sonuçlarının WEKA’daki görünümü ............................. 71 EK-3 Birliktelik kuralları analizi sonuçlarının WEKA’daki görünümü .................... 73 ÖZGEÇMİŞ ............................................................................................................... 78 xi ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 3.1 Pazarlama karması elemanları ...........................................................11 Çizelge 4.1 Veri madenciliği ile istatistiksel analizlerin karşılaştırılması ............19 Çizelge 6.1 Verilerin istatistiksel görünümü .........................................................49 Çizelge 6.2 Nitelik seçme işlemleri ve sonuçları ...................................................51 Çizelge 6.3 Bütün niteliklerin PredictiveApriori algoritması ile analiz edilmesi ....................................................................................52 Çizelge 6.4 Eğitim düzeyi ile Hedef değişken (y) arasındaki ilişkin PredictiveApriori ile analiz edilmesi ...................................................53 Çizelge 6.5 Konut kredisi, bireysel kredi ve yükümlülüğü yerine getirilmeyen kredinin olup olmaması y arasındaki ilişkinin Apriori ile analiz edilmesi .....................................................................................53 Çizelge 6.6 Konut kredisi, bireysel kredi, yükümlülüğü yerine getirilmeyen olup olmaması ile y arasındaki ilişkinin PredictiveApriori ile analiz edilmesi .....................................................................................54 Çizelge 6.7 Meslek, konuşma süresi ve evlilik durumu arasındaki ilişkinin PredictiveApriori algoritması ile analiz edilmesi ................................55 xii ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 4.1 Çapraz Endüstri Veri Madenciliği Standart Süreci ................................. 21 Şekil 4.2 Hu ve Jha ‘nın veri madenciliği süreci .................................................... 21 Şekil 4.3 Modelleme süreci .................................................................................... 24 Şekil 4.4 Yayılım süreci ......................................................................................... 26 Şekil 4.5 Genetik algoritma blok diyagramı .......................................................... 32 Şekil 4.6 K ortalamalar tekniğiyle objeler setinin kümelenme süreci ................... 34 xiii RESİMLERİN LİSTESİ Resim Sayfa Resim 3.1 Kitlesel pazarlamaya örnek olarak Coca-cola’nın ilk gazete reklamı .. 12 Resim 5.2 WEKA ekran çıktısı .............................................................................. 39 Resim 5.3 WEKA Explorer ekran çıktısı ............................................................... 41 Resim 6.1 The UCI Machine Learning Repository ............................................... 43 Resim 6.2 Kullanılan verilerin Microsoft Excel dosyası olarak görünümü ............ 46 1 1. GİRİŞ 1992 yılında yapılan bir çalışmada dünyadaki toplam bilgi miktarının her sene 2’ye katlandığı ifade edilmektedir [1]. 2011’de ise 20 ayda bir dünyadaki toplam verinin 2’ye katlandığı iddia edilmiştir [2]. Veri miktarına bağlı olarak toplam bilgi miktarının da hızla arttığını söylemek mümkündür. 2011 yılında yapılan bir çalışmada ise dünyadaki toplam verinin 295 exabayt olduğu söylenmiştir [3]. Veri miktarının artması veri madencilerinin hem çalışma alanlarını genişletmiş hem de bu alana olan ilgiyi arttırmıştır. Veri tabanından bilgi keşfi olarak da bilinmekte olan veri madenciliği, veri tabanı içerisinde, karar vermede işe yarayan ilginç örüntülerin ortaya çıkarılma süreci olarak tanımlanmaktadır [4]. Bu işlem matematik disiplinleri, modelleme teknikleri, veri tabanı teknolojisi ve çeşitli bilgisayar yazılımları kullanılarak gerçekleştirilmektedir [5]. Günümüzde veri madenciliği çok geniş bir yelpazede uygulama alanı bulmaktadır. Bankacılık, sigortacılık, pazar araştırmaları bunların en klasik örnekleri olmakla beraber, uygulamada çok farklı alanlardan örneklerle karşılaşmak mümkündür. Örneğin; Amerika Birleşik Devletleri’nin yurtiçi güvenliği sağlamada ve potansiyel terörizm tehditlerinden kaçınmada veri madenciliği kullandığı göze çarpmaktadır. A.B.D. İç Güvenlik Bakanlığı Ağustos 2006’da hazırladığı bir raporda terörizmle mücadele kapsamında veri madenciliği üzerine kurulmuş 12 sistemden bahsedilmektedir [6]. Yine bir başka dikkat çekici örnekte çimentonun basma dayanaklılığı veri madenciliği kullanılarak hesaplanmaya çalışılmıştır [7]. Veri toplamanın kolaylaştığı ve veri miktarının her geçen gün hızla arttığı göz önünde bulunulursa veri madenciliğinin ileride çok daha yaygın bir çalışma alanı bulacağını söylemek mümkündür. Ancak bu çalışmalar yöneticilerin karar almalarına yaptıkları katkı oranında başarılı olacaktır. Çünkü nihayetinde veri madenciliği bir sihir değildir ve her zaman iyi sonuçlar vermez [8]. 2 Şüphesiz veri madenciliğinin en çok uygulandığı alanlardan birisini işletme faaliyetleri teşkil etmektedir. Bunlara pazar sepet analizi, risk analizi, satış tahmini, müşteri ilişkileri yönetimi örnek gösterilebilir [9]. Piyasalardaki yoğun rekabet, firmaları pazardaki paylarını ellerinde tutmaya ve arttırmaya yönelik yenilikçi yollar tanımlamaya zorlamaktadır. Müşteriler ile etkileşimin bu derece yüksek olduğu bir dönemde stratejik ve rekabetçi bir müşteri ilişkileri stratejisi geliştirmek son derece önemlidir. Müşteri davranış ve karakteristiklerini anlayabilmek ve analiz edebilmek, potansiyel müşterileri kazanma ve maksimum müşteri değeri oluşturma amacıyla geliştirilen rekabetçi bir müşteri ilişkileri stratejisinin temelini oluşturmaktadır. Bu kapsamda büyük müşteri veri tabanlarından bilgi çıkarmada ve tanımlamada başarılı olan, kullanışlı veri madenciliği araçları, müşteri ilişkileri kararlarını almada en büyük destekleyici araçlardan birisidir [5]. Bilgi çağı bireyleri alışkanlık ve davranış bakımından çok değişken ve tutarsız tutumlar sergileyebilmektedir. Müşteri sadakati sağlamak işletmeler için her geçen gün daha da zorlaşmakta, yeni üretim teknolojileri piyasalara sürekli yeni ürün ve hizmetler girmesine sebep olmaktadır. Eski model olarak ürün odaklı tanımlanan tasarla-üret-sat, müşteri odaklı olarak tanımlanan sat-üret-yeniden tasarla modeliyle yer değiştirmiştir [10]. Böyle bir ortamda işletmeler için klasik karar destek sistemlerinin yetersiz olduğu açıktır. Yukarıda da bahsedildiği gibi işletmecilik alanında çeşitli amaçlarla hizmet eden veri madenciliği faaliyetleri kullanılmaktadır. Bu faaliyetler işletmelere proaktif olmayı, yapılan faaliyetlerdeki hata payını en aza indirmeyi, tüketim toplumu olarak ifade edilen günümüz tüketicilerin değişken tutum, istek ve ihtiyaçlarını daha isabetli bir şekilde karşılayabilmeyi sağlamaktadır. Günümüz pazar araştırmaları ve pazarlama yöntemleri de bu yönde veri madenciliğinden istifade edebilmektedir. Müşteriye ulaşmak için genel olarak pazarlama stratejileri 2 grupta incelenmektedir: kitle pazarlama ve doğrudan pazarlama. Bunlardan ilki olan kitlesel pazarlamanın, bu kadar yoğun rekabetin yaşandığı günümüz dünyasında etkisi giderek azalmaktadır [11]. Doğrudan 3 pazarlama ise işletmeleri, müşteriler hakkında derinlemesine bilgiler edinmeye zorlamaktadır. İşte tam bu noktada işletmeler veri madenciliği yöntemleriyle ürettikleri bilgiler doğrultusunda hedef pazar stratejilerini yön verebilmekte, müşterilerine daha iyi pazar önerileri sunabilmektedirler. Bu pazar önerilerin müşteriye ulaştırılmasında kullanılan başlıca doğrudan pazarlama yöntemlerinden birisi ise tele pazarlamadır. Günümüz firmaları çağrı merkezleri aracılığıyla müşterileriyle sürekli ve sadık ilişkiler kurmaya hedeflemektedir. Yapılan telefon çağrıları ile müşterilere yeni teklifler sunabilmekte, gelen telefon çağrıları ile de müşteri şikâyet ve sorunlarıyla ilgilenebilmektedirler. Firmalar yapılan bu çağrıları hem müşteri memnuniyetini ölçebilmek hem personel performansını ölçebilmek için kayıt altına almakta ve yapılan çağrılarda elde edilen müşteri bilgilerini veri tabanlarında saklamaktadırlar. Bütün bunlar değerlendirildiğinde bu tez çalışmasında ele alınacak konunun ve uygulamanın amacı ve kapsamı daha anlamlı ve gerekli bir hale gelmektedir. Burada, veri madenciliği ve uygulama alanları teorik olarak özetle açıklanmaya çalışılmış, alanda yapılan çalışmalara değinilmiş, genel pazarlama bilgileri ışığında doğrudan pazarlama ve tele pazarlama konuları ele alınmıştır. Bu alanda yapılacak çalışmalar için kullanılan kullanışlı bir yazılım olan WEKA hakkında özet bilgiler sunulmuştur ve bu yazılım aracılığıyla tele pazarlama üzerine örnek bir veri madenciliği uygulaması gerçekleştirilmiştir. 1.1 Çalışmanın Amacı Bu çalışmanın amacı doğrudan pazarlamanın bir alt dalı olan tele pazarlama için örnek bir veri madenciliği süreci geliştirmektir. İlgili yayınlarda karşılaşılan çalışmalar ve uygulamalar analiz edilmiş ve hizmet sektörünün bir alt sektörü olarak tabir edebileceğimiz finans sektöründe hizmet veren bankalardan, bu sektörde karşılaşılan tüketicilere yönelik gerçekleştirilen tele pazarlamanın üzerinde durulmuştur. 4 1.2. Çalışmanın Kapsamı Çalışma kapsamında ilk olarak veri madenciliği ve tele pazarlama hakkında bilgiler sunulmuştur. Takip eden kısımda alanda karşılaşılan benzer çalışmalara ışık tutulmuştur. WEKA yazılımı hakkında gerekli açıklamalar yapıldıktan sonra çalışma kapsamında yapılan uygulamaya geçilmiştir. Uygulama dâhilinde Makine öğrenmesi ve Akıllı Sistemler Merkezi (The UCI Machine Learning Repository) veri tabanı arşivinden sağlanan veri tabanı kullanılmıştır. Veri tabanı Portekiz’de bulunan bir bankanın müşterileri hakkındaki verilerden oluşmaktadır. Türkiye’de bulunan bir tele pazarlama veri tabanına ulaşabilmek mümkün olmadığından, tüketim kültürü Türkiye’ye daha yakın olduğu düşünülen Portekiz seçilmiştir. İlgili Banka, müşterilerine hizmet olarak sunduğu kampanya teklifini çağrı merkezlerini kullanarak müşterilerine ulaştırmıştır. Banka bu çağrılar esnasında müşterilerinin aşağıda sıralanan niteliklerini kayıt altına almıştır: - Müşterilerin yaşları, - Meslekleri, - Evlilik durumları, - Eğitim düzeyleri, - Yükümlülüğü yerine getirilmeyen kredinin olup olmaması, - Yıllık ortalama bakiyeleri, - Konut kredisi kullanımı, - Kişisel kredi kullanımı, - Müşteriyle iletişimde kullanılan araç, - Müşteriyle en son görüşülen ay, - Müşteriyle en son görüşülen gün, - Görüşme süresi, - Kampanya sürecinde müşteriyle iletişim kurma sayısı, 5 - Müşteriyle hakkında iletişim kurulan en son kampanyadan bu yana geçen gün sayısı, - Kampanyadan önce müşteriyle kurulan toplam iletişim sayısı, - Bir önceki pazarlama önerisinin başarılı olup olmadığı, - Mevcut kampanyanın sonucu. Bu değişkenler arasında ilişkiler kurulup faydalı bilgiler üretilmeye çalışılmıştır. İlgili banka temel alınarak sektörde yer alan bütün işletmeler için örnek bir veri madenciliği süreciyle birlikte yararlı bilgiler ve öneriler sunulması amaçlanmıştır. Çalışma kapsamında WEKA isimli veri madenciliğinde sıkça kullanılan yazılım tercih edilmiştir ve uygulama ağırlıklı olarak bu yazılım üzerinden gerçekleştirilmiştir. İhtiyaç dâhilinde veri tabanları üzerinde gerekli düzeltmeler ve birleştirmelerin daha sağlıklı bir şekilde yapılabilmesi için Microsoft Excel programından faydalanılmıştır. Yine veri hazırlama aşamasında SPSS adlı yazılımdan da faydalanılmıştır. Çalışma boyunca CRISP-DM yöntemi (Çapraz Endüstri Veri Madenciliği Süreci) takip edilmiştir. Süreçteki her basamak ayrı ayrı açıklanmaya çalışılmıştır. Ağırlıklı olarak birliktelik kuralları kullanılırken, nitelik seçimine de başvurulmuştur. Sonuç olarak bir doğrudan pazarlama aracı olan tele pazarlamanın oluşturduğu veri tabanı kullananılarak veri madenciliği sürecinin nasıl yönetilebileceği gösterilmiştir. Takip eden kısımda literatürde pazarlama alanında karşılaşılan veri madenciliği kullanılarak gerçekleştirilmiş bazı çalışmalar paylaşılacaktır. Şüphesiz veri madenciliği işletmelerde sadece pazarlama alanında değil, finans, insan kaynakları gibi diğer faaliyet alanlarında da hizmet etmektedir. Bunlara örnek olması sebebiyle pazarlama dışında gerçekleşmiş birkaç çalışmaya da değinilecektir. 6 2. İLGİLİ YAYIN TARAMASI İlgili yayınlarda pazarlama ve veri madenciliği üzerine gerek teorik gerekse uygulamaya yönelik oldukça fazla çalışma bulunmaktadır. Bu çalışmalar ağırlıklı olarak satış analizi, müşteri ilişkileri yönetimi ve müşteri segmentasyonu üzerine yoğunlaşmaktadır. 2005 yılında yapılan bir çalışmada perakendeci bir işletmenin satış hareketleri içeren veri tabanından hareketle ayrıntılı bir satış analizi yapılmıştır. Çalışma sonucunda harcama tutarına göre yüksek güvenilirliğe sahip karar ağaçları oluşturulmuş ve bu karar ağaçları incelendiğinde işletmenin müşterilerinin %20.92 ‘sinin toplam satışlarının yaklaşık %63.36’sını gerçekleştirdiği gibi sonuçlar elde edilmiştir [12]. Sönmez ve Kalkan (2001) yaptıkları bir sepet analizi çalışmasında Gimat A.Ş adlı perakendeci işletmenin veri tabanındaki kayıtlı müşterileri incelemiş ve en çok satılan ürünlerin domates, ekmek, salatalık, yumurta ve karpuz gibi ürünler olduğunu ortaya çıkarmışlardır. Bu sonuç yazarlar tarafından şöyle yorumlanmış ve ilişki kurulmaya çalışılmıştır [14]: “Kullanılan veriler yaz ayında alınmış olduğu için en çok satılan ürünler domates, ekmek, salatalık gibi ürünler bunun yanında da yumurta, karpuz gibi ürünler çıktı. Bu verilerden yola çıkarak insanlarımızın yaz aylarında özellikle hafif yemeklere yöneldiklerini özellikle salatanın çok fazla tüketildiğini bunun yanında domatesin ve yumurtanın çok fazla satılmasından menemenin de çok tüketilen yemekler arasında olduğunu ayrıca meyvelerin de yazın yüksek miktarda tüketildiğini söyleyebiliriz.” Ngai ve arkadaşları (2008) veri madenciliğinin müşteri ilişkileri yönetimi alanında ilk tanımlayıcı alanyazın taramasını gerçekleştirmişlerdir. 2000-2006 yılları arasında 900 makale incelenmiş ve 87’si ilgili bulunup seçilmiştir. Çalışma bu alanda araştırma yapan yazarlar için çok önemli bir alanyazın taraması olarak göze çarpmaktadır [5]. 7 Akbulut (2006) yaptığı yüksek lisans tez çalışmasında bir kozmetik markasının müşterilerini kümeleme ve sınıflandırma veri madenciliği yöntemlerini kullanarak müşteri segmentasyonu gerçekleştirmiştir [17]. Emel ve Taşkın (2005) birliktelik kuralları ile veri madenciliği üzerinden pazarlama stratejisi oluşturmaya çalışmışlardır. Oluşturdukları bu stratejiyi Boston Danışma Grubu’nun matrisinden faydalanarak formüle etmişlerdir.[18]. Emel ve Taşkın’ın 2010 yılında yaptıkları bir başka çalışmada, perakendeci işletmenin belirli bir dönem boyunca alışveriş yapmış müşterilerini Kohonen tekniği ile kümelemişlerdir. Yapılan analiz ile işletmenin mevcut pazarının etkin pazar bölümlerine ayrılabilmesi için önceden bilinmeyen önemli müşteri özellikleri ve önem dereceleri de ortaya çıkarılmıştır [19]. Ulaş (1999) gerçekleştirdiği yüksek lisans çalışmasında bir perakendeci işletmenin mal satışları arasındaki ilişkileri incelemek üzere ilişki madenciliği çalışması gerçekleştirmiştir. Ana Bileşen Analizi ve k-Ortalama Öbeklemesi istatistiksel tekniklerini kullanarak mal satışları arasındaki ilintileri bulmaya çalışmışlardır[8]. Timor ve Şimşek (2008) yine perakendeci bir işletmenin verilerini Clementine programı aracılığıyla analiz ederek birliktelik analiz ve karar ağaçları kullanarak müşterilerin satın alma davranışını etkileyen değişkenleri ortaya çıkarmışlardır [20]. Birant ve arkadaşları (2010) bir mağaza zincirinden edindikleri verilerle hangi şubede, hangi gün, hangi ürünlerin satıldığını belirlemeye yönelik bir uygulama yapmışlardır. Müşterilerin satın alma alışkanlıklarını anlamaya çalışan yazarlar bu çalışmayı gerçekleştirirken birliktelik kurallarını kullanmışlardır [21]. Chung and Grimes (2005) veri madenciliği ve pazarlama araştırmalarının gizlilik ilkesiyle olan ilişkisini irdeleyen bir tarama gerçekleştirmişlerdir. Yazarlar özellikle çocukların kullandığı oyun sitelerinin üzerinde durmuşlardır ve veri madenciliğinin etik yönüyle ilgilenmişlerdir [22]. 8 Kalikov (2006) gerçekleştirdiği bir lisansüstü çalışmada bir yayınevinden elde ettiği veriler ile e-ticaret üzerine bir veri madenciliği çalışması gerçekleştirmiştir. Yazar müşterilerin ilgi alanlarına göre kitap tavsiyesinde bulunacak bilgiler üretmeyi amaçlamıştır [23]. Aydoğan ve Gencer (2007) kaba küme teorisinin genel kavramları üzerinde durmuş ve sınıflandırma amacıyla yapılan çalışmaları inceleyen bir yayın taraması sunmuşlardır [24]. Schertel (2002) yazdığı doktora tezinde veri madenciliğinin tekstil sektörü üzerinde olası kullanım alanlarını incelemiş ve iplik fabrikasında elde ettiği veriler ve SAS Enterprise Miner yazılımı aracılığıyla bir uygulama gerçekleştirmiştir [25]. Hui ve Jha (2000) uluslararası bir firmayla ortaklaşa gerçekleştirdiği veri madenciliği çalışmasında müşteri hizmetleri üzerinde çalışmışlardır ve yaptıkları uygulama kapsamında iki müşteri hizmetleri aktivitesi üzerine veri madenciliği gerçekleştirmişlerdir; karar destek ve makine hatası tanımlama [26]. Lien (2005) yaptığı lisansüstü çalışmada müşteri segmantasyonu üzerine çalışmış ve iki aşamalı bir veri madenciliği uygulaması gerçekleştirmiştir. İki aşamalı olarak müşteri grubuna uygulanan çalışmada ilk olarak k-ortalamar tekniği daha sonra SOMs (Özdüzenleyici haritalar) uygulanmıştır [29]. Liu ve Schumann (2005) kredi puanlamasında nitelik seçimi üzerine bir çalışma yapmışlardır. Çalışma dört adet nitelik seçimi algoritmanın kredi puanlama modeli üzerindeki şu üç özelliğe etkisini araştırmıştır: modelin sadeliği, modelin hızı ve modelin doğruluğu. Gerçek bir veri seti üzerinde çalışan yazarlar 4 adet sınıflandırma algoritması kullanmıştır; model ağacı, sinir ağları, lojistik regresyon ve k ortalamalar [30]. 9 Chen ve arkadaşları (2005) çok mağazalı çevrelerde veri madenciliğinde karşılaşılan sorunlardan birisine dikkat çekmişlerdir. Çok mağazalı çevrelerde çalışılan ürünün bütün mağazalarda her zaman rafta olacağı varsayımını problem olarak tanımlamışlardır ve zincir mağaza birliktelik kuralı isimli bir algoritma geliştirmişlerdir [31]. Giudici ve Passerone (2002) istatistiksel birliktelik kuralları ve özellikle logaritmik lineer ve grafiksel modellerin tüketici davranış araştırmalarına nasıl etkili bir şekilde uygulanabileceğini anlatmışlardır. Yazarlar ayrıca sepet analizinde karşılaşılan bazı metodolojik sorunları ve model seçme prosedürlerini de tartışmışlardır [32]. Ay ve Çil (2008) mağaza içi yerleştirme de veri yönelimli bir karar destek uygulaması sunmuşlardır. Çalışmada birliktelik kuralları kullanılmış ve yazarlar veri madenciliği kullanılarak yerleşim düzeni oluşturmayı gerçekleştiren bir metodoloji sunmuşlardır. Çalışma Türkiye’nin önde gelen perakende işletmelerinden olan Migros A.Ş üzerinde gerçekleştirilmiş olup yazarlar çok boyutlu ölçekleme analizi ile ürün haritası oluşturmuşlardır ve birliktelik kurallarıyla önemli bulgulara ulaşmışlardır. Bulgulardan bazıları aşağıdaki gibidir [33]: “Yumurta ürününü alan müşteriler %77 olasılıkla Süt ve süt ürünlerini de almaktadır. Bu ürünlerin veri setindeki işlemlerde birlikte bulunma olasılığı %5,58’tir. Tatlılar ve hamur işleri ürününü alan müşteriler %69 olasılıkla Çerezler ürününü de almaktadır. Bu ürünlerin veri setindeki işlemlerde birlikte bulunma olasılığı %5,00’dir.” Veri madenciliği konusundaki ilgili yayınlar oldukça farklı alanlardan çalışma barındırmaktadır. İşletmeleri ilgilendiren finans, sigortacılık gibi diğer alanlarda da yapılmış oldukça fazala veri madenciliği çalışması bulunmaktadır. Govea ve arkadaşları (2011) kendi geliştirdikleri restoran öneri sisteminde inceledikleri restoranlar hakkındaki veriler üzerinden bir çalışma 10 gerçekleştirmişlerdir ve kavramsal bilginin bu öneri sistemindeki etkisini sorgulamışlardır [15]. 2009 yılında Küçüksille tarafından gerçekleştirilen bir doktora tezinde ise veri madenciliği kullanılarak hisse senedi portföyü oluşturulmaya çalışılmıştır. 122 adet işletmenin 1995 – 2007/06 dönemindeki aylık ortalama getirileri üzerinden genetik algoritma kullanılarak farklı portföyler oluşturulmuştur [16]. Sermaye Piyasası Kurulu’nun Araştırma Raporu’nda bulunan bir çalışmada Koyuncugil (2008) tarafından, borsa şirketlerine yönelik olarak veri madenciliğine dayalı bir gözetim sistemi sunulmuştur. Veri madenciliği kullanılarak riskli şirketlerin ortaya çıkarılması hedeflenmiştir [13]. Xiong ve arkadaşları (2013) banka müşterilerinin kredi kartı bilgilerini veri madenciliğiyle inceleyerek kişisel iflası tahmin etmeye dayalı bir sitem kurmuşlardır [27]. Guo (2003) sigorta sektöründe çalışanlar için veri madenciliği tekniklerine ışık tutmuştur. Yaptığı çalışmada sigorta riskini modellemede veri madenciliği yaklaşımını anlatan yazar ayrıca bir uygulama gerçekleşmiştir [28]. İleride bu çalışmaların sayısının ilerleyen teknoloji ve gelişen veri madenciliği araştırma yöntemleriyle artması beklenmektedir. Takip eden kısımda veri madenciliğine pazarlama bakış açısıyla nasıl yaklaşılabileceğini göstermek ve doğrudan pazarlamanın bir aracı olan tele pazarlamanın kavramsal çerçevesini kavramak amacıyla takip edilen kısımda genel pazarlama teorisi, doğrudan pazarlama ile doğrudan pazarlama araçları ve tele pazarlama hakkında bilgiler paylaşılacaktır. 11 3. DOĞRUDAN PAZARLAMA VE TELE PAZARLAMA Amerikan Pazarlama Derneğine göre pazarlama; müşteriler, alıcılar, paydaşlar ve toplumun bütünü için değer ifade eden pazar önerilerinin yaratılması, iletişimi, ulaştırılması ve değişimini kapsayan bir dizi kurum ve süreçtir [34]. Pazarlama faaliyetlerini bir bütün olarak ele alınan ve literatürde sıkça kullanılan pazarlama karması kavramı ise 1984 yılında Culliton tarafından işletme yöneticilerinin “sanatkâr” olarak ifade edilmesi ile doğmuştur. Zamanla çeşitli yazarlar tarafından irdelenen pazarlama karması kavramı günümüzde en yaygın ve bilinen bir şekilde ifade edilmesi McCharty tarafından oluşturulmuştur. Buna göre pazarlama karması elemanları; ürün, fiyat, dağıtım ve tutundurma şeklinde ifade edilmektedir [35]. Bu ifadelerin İngilizce baş harfleri kullanılarak (product, price, place, promotion) 4P olarak kısaltılmıştır. Çizelge 3.1 Pazarlama Karması Elemanları [35] ÜRÜN Üretilmekte olan ürünler Fonksiyonellik, kalite, ile müşterilerin istek ve görünüm, ambalajlama, ihtiyaçları marka, hizmet, garanti. karşılnabilmekte midir? FİYAT Müşterilerimiz satın alma Liste fiyatı, indirimler, isteği içinde bulundukları kredi şartları. mal ve hizmetlere ne kadarlık ödeme yapmayı düşünmektedirler? DAĞITIM Ürünlerimiz doğru yerde, Yer, Lojistik, kanal doğru zamanda ve doğru üyeleri miktarlarda mı müşterilerimize sunulmaktadır? 12 Çizelge 3.1 Pazarlama Karması Elemanları (Devamı) [35] TUTUNDURMA Hedef kitle işletme ve Reklam, halkla ilişkiler, işletmenin ürünleri doğrudan pazarlama, hakkında ne kadar bilgi satış geliştirme, kişisel sahibidir? satış. Tutundurma bir işletme de satışları arttırmaya yönelik her türlü faaliyet olarak tanımlanabilir [36]. Bu faaliyetler ise; reklam, kişisel satış, halkla ilişkiler, tanıtım, satış özendirme ve doğrudan pazarlamadır. Genellikle pazarlamanın tutundurma çabaları iki tür yaklaşımla sergilenmektedir. Bunlardan birincisi kitlesel pazarlamayken diğeri doğrudan pazarlama olmaktadır. Kitlesel pazarlama televizyon, radyo, gazete, internet gibi araçların herkese ayrım yapılmadan kullanılmasını ifade eder. Bu yöntem genellikle ürün ve hizmetlerin yoğun bir talebe tabi olduğu durumlarda başarı göstermektedir [5]. Resim 3.1 Kitlesel pazarlama örneği: Coca-Cola’nın ilk gazete reklamı 13 Ne var ki bu yaklaşım günümüz dünyasında gitgide etkisini kaybetmektedir. Ürünlerin kişilere özel olarak üretildiği ve pazarların yüksek rekabet barındırdığı bir ortamda kitlesel pazarlama yaklaşımının başarısı sorgulanmaktadır. Hatta bazı çalışmalar bu reklam ve tutundurma çabalarıyla karşılaşıp ürünü veya hizmeti satın alan müşterilerin oranını %1 olarak ifade etmişler ve kitlesel pazarlamanın düşük etkisini gözler önüne sermişlerdir [5]. Doğrudan pazarlama ise muhataplarını ayrıma tutarak, onların karakteristiklerini, ihtiyaçlarını, tercih ve isteklerini çalıştıktan sonra hedef kitlesini belirler. Böylece daha fazla tepki almayı umar [5]. Doğrudan pazarlama doğrudan müşteri (consumerdirect) kanallarını kullanarak, pazarlama aracılarını kullanmadan ürün ve hizmetleri müşterilerine ulaştırır [34]. Doğrudan Pazarlama Birliği (Direct Marketing Assosication) tarafından ise şöyle tanımlanmıştır [36]: “Herhangi bir yerde ölçülebilir bir tepki ya da ticari işlemi etkilemek için bir veya birden fazla reklam medyasını kullanan etkileşimci bir pazarlama sistemidir.” Genel olarak tercih edilen doğrudan pazarlama kanalları aşağıda sıralanmıştır [34]: - Doğrudan posta - Tele pazarlama - E-mail pazarlama - Sesli posta pazarlama - Kuponlar - Televizyon üzerinden doğrudan geri dönüş ile pazarlama - Doğrudan satış - Kioks Makinaları - Mobil Cihazlar - Elektronik pazarlama Doğrudan pazarlama firmalara çok fazla fayda sağlamaktadır. Firmalar için başarımı kolay ölçülebilmesi, müşteriyle devamlı ilişkiler kurulabilmesi, rakipler tarafından daha az görünür stratejilerin izlenebilmesi gibi avantajları pazarlamacıları bu alana 14 teşvik etmektedir. Ayrıca yarattığı çabuk tepki önemli bir avantajdır. Bilgisayarlar, kablolu yayınlar, tele pazarlama gibi teknolojiler ile müşterilerden anında tepki alınabilmektedir. Günümüzde müşteriler hakkında veri toplamanın bu kadar kolay olduğu bir dönemde doğrudan pazarlama da aynı oranda kolaylaşmakta daha fazla uygulama alanı ve başarı elde etmektedir. Ayrıca pazarlama yöneticilerinin başlıca hedeflerinden biri olan pazar bölümleme ve müşteri bölümlendirme de veri madenciliği araçları oldukça rağbet görmektedir. Gelişen teknoloji ve tüketicilerin bireyselleşmesi bu iki alanı; veri madenciliği ve doğrudan pazarlama çok sık bir araya getirmeye başlamıştır. Doğrudan pazarlamanın en bilinen yöntemlerinden birisi ise yukarıda da paylaşıldığı üzere tele pazarlamadır. Tele pazarlama ilk olarak 1970’li yıllarda müşteri etkileşimli satış programları vesilesiyle doğmuştur. Konsept olarak müşterilerin 7 gün 24 saat arayabildikleri ücretsiz bir telefon numarası vardır ve müşterileri burayı arayarak ekranda gördükleri ürünü evlerine sipariş ederler [37]. Tele pazarlama zamanla yaygınlaşmıştır. 1990 yılına gelindiğinde Amerika’da 24 saat yayın yapan 3 televizyon kanalı ve bunların yaklaşık olarak 70 milyon izleyicisi olduğu göze çarpmaktadır. Genel bir tanımla tele pazarlama; potansiyel müşterileri çekme, mevcut müşterilere satış yapabilme ve müşterilerin sorularına yanıt vererek veya sipariş alarak hizmet sağlama amacıyla telefonların ve çağrı merkezlerinin kullanımı olarak ifade edilebilir [34]. Firmalar müşterilerden gelen çağrılar için gelen (veya içe doğru) tele pazarlama, müşterilere yaptıkları çağrılarda ise giden (veya dışa doğru) tele pazarlama kullanırlar [34]. Tele pazarlama firmaların, satış maliyetlerini düşürmelerine, müşteri tatminini arttırmalarına ve gelirlerini arttırmalarına yardım etmektedir. Bu avantajına rağmen e 15 yüz yüze iletişime imkân vermemesi, bazen aranılan kişinin yerinde olmaması veya görüşme talebini reddetmesi, telefonların meşgul olması, uzmanlık gerektirmesi ve sınırlı bilgi sunması gibi dezavantajları bulunmaktadır. [37]. Zamanla tele pazarlama müşterileri rahatsız edecek seviyelere ulaşmıştır. Dışa doğru tele pazarlama tarihi olarak en temel doğrudan pazarlama araçlarından biri olarak kullanılmasına rağmen izinsiz kullanıma açık doğası nedeniyle Amerika Federal Ticaret Komisyonu tarafından 2003 yılında ”Ulusal Arama Engelleme Kayıt Merkezi” nin kurulmasına sebep olmuştur. Yaklaşık 191 milyon kişi evlerinin tele pazarlamacılar tarafından aranmasını istemeyen insan 2009 yılı itibariyle bu merkeze kayıt olmuştur [34]. Firmalar tele pazarlama faaliyetlerini yönetebilmek için çoğunlukla kendi kurdukları veya anlaşmalı oldukları çağrı merkezlerini kullanmaktadırlar. Bir çağrı merkezi bilgisayarlarla desteklenmiş çalışanların, içe doğru aldıkları veya dışa doğru yaptıkları telefon çağrılarının, otomatik çağrı dağıtım sistemi veya tahmine dayalı çevirme sistemleriyle kontrol edildiği ve işleme sokulduğu bir operasyonlar bütünüdür [38]. Günümüzde özellikle hizmet sektöründe çağrı merkezi yaygın bir şekilde kullanılmaya başlanmıştır. Çünkü müşteriyle yüz yüze iletişime göre daha ucuzdur [39]. Bu nedenle bütün bankalar çağrı merkezleri kurmakta ve yönetmektedirler. Ayrıca müşteri tatmininin artması ve müşteri sadakati sağlamaya yönelik büyük bir fırsat olarak görülen çağrı merkezleri bankalar kadar tüketicilere de avantaj sağlamaktadır. Aşağıda çağrı merkezlerinin tüketicilere sağladığı faydalar sıralanmıştır [39]: 1. Müşteriler günümüzde artık hemen hemen bütün bankacılık işlemlerini çağrı merkezleri aracılığıyla gerçekleştirebilirler. 2. Banka şubesine ulaşmada ve şubede kuyrukta bekleme gibi zaman ve maliyetlerden tasarruf edebilir. 3. Tüketiciler bulunduğu hemen hemen her yerden telefon aracılığıyla bankacılık faaliyetlerini gerçekleştirebilir. 16 4. Çağrı merkezlerinde aynı anda çok fazla sayıda müşteriye hizmet sağlanmakta dolayısıyla müşteri çok fazla bekletilmemektedir. 5. Çoğu 24 saat hizmet veren çağrı merkezleri sayesinde mesai saatleri dışında hizmet alabilir. Bütün bu avantajlarına ek olarak çağrı merkezleri bilgisayarlar ile desteklendiği için oldukça kolay veri toplayabilmektedir. Veri tabanı pazarlaması üzerine gerçekleştirilecek çalışmaların bu sebeple tele pazarlama veri tabanını kullanması oldukça kolay olabilmektedir. Firmalar müşterilerine çağrı merkezleri aracılığıyla sadece bir ürün veya hizmet teklif etme veya bu ürün veya hizmeti satma işlemiyle meşgul olmazlar. Ayrıca anket gibi birçok veri toplama araçlarını bu merkezler aracılığıyla kullanabilirler. Pazarlama araştırmaları, değişken ve tahmin etmesi zor insan istek ve ihtiyaçlarıyla ilgilendiği için mutlaka geçerli ve güvenilir veri setlerine ihtiyaç duyar. Güvenilir ve geçerli veri setlerini tele pazarlama ile oluşturmak mümkündür. Ancak elde tutulan veri tabanı ne kadar kaliteli olursa olsun sonuçların değerliliği kullanılacak analizlerin yerinde seçilmesine de bağlıdır. Bu sebeple takip eden kısımda kısaca veri madenciliği analiz yöntemleri, bir başka ifadeyle veri madenciliği teknikleri paylaşılacaktır. 17 4. VERİ MADENCİLİĞİ Günümüzde veri depolama teknik ve sosyal açıdan çok kolay bir hale gelmiştir. Yaygın elektronik cihazlar kararlarımızı, tercihlerimizi, süpermarket alışverişlerimizi, finansal alışkanlıklarımızı, kazandıklarımızı ve harcadıklarımızı kaydetmektedir. İnternet bize yığınla bilgi sunmakta aynı zamanda da bütün tercihlerimizi kayıt etmektedir [2]. Ticari ürünlerin neredeyse tamamına yakınında barkodların kullanılması, devletlerin ve işletmelerin bilgisayarlaşması bu kayıt işlemini kolaylaştırmakta ve milyonlarca veri tabanının oluşmasına sebep olmaktadır. Oluşan bu veri tabanları güçlü ve düşük maliyetli veri tabanı sistemleriyle desteklenebilmektedir. Bunca veriyi işlemek ve manalı bir hale dönüştürmek yeni teknikler ve araçlara duyulan ihtiyacı oluşturmuştur [36]. İşte bu süreç veri madenciliğini doğurmuştur. Tanımı itibariyle bilgi bir amaca yönelik işlenmiş veridir. İşlenmemiş bilgi ise veri olarak ifade edilir. Veriden hareket ederek karar almak mümkün değildir [40]. Bu yüzden veriyi işlemek gerekir. Bu işleme ve analizler karar almaya yönelik madencilikle gerçekleştirilmektedir. Ancak tek başına veriyi işlemek yeterli olmamaktadır. Yani veri madenciliği kendi başına bir çözüm değil karar alma sürecini destekleyen ve bu süreçte gerekli bilgileri sağlayan araçtır [9]. Seçme, araştırma ve modellemeyi kapsayan bu araç daha önce bilinmeyen örüntüleri ve anlaşılabilir nihai bilgilerin büyük veri tabanlarından açığa çıkarılmasını kapsar [41]. Ortaya çıkarılan maden yapısal örüntü, olarak da ifade edilebilir. Veri tabanındaki bu çeşitli örüntülerin keşfi işlemi otomatik de gerçekleşebilir veya daha büyük bir olasılıkla yarı otomatik olarak da gerçekleştirilebilir [2]. Veri madenciliği için alanda çok çeşitli tanımlamalar ve yaklaşımlar gerçekleştirilmiştir. Hand’a göre veri madenciliği ikincil bir faaliyettir. Birincil faaliyet ise verilerin toplanma sürecidir [42]. Frawley ve arkadaşları ise bilgi keşfini, basit olmayan ve önceden bilinmeyen örüntülerin ortaya çıkarılması ve potansiyel olarak faydalı olan bilgilerin verilerden çıkarılması olarak ifade etmiştir [1]. 18 Veri tabanı ise bilgisayarlarda depolanmış, yapılandırılmış veriler biriktirisidir. Buradaki yapılandırılmış ifadesi her kaydın belirli bir formatta depolandığını ifade etmektedir. Örneğin; bir telefon rehberindeki bütün girdiler; abonelere ait bir isim, bir adres ve bir de telefon numarası barındırır [43]. Veri ambarı ile veri tabanı ifadesi birbirinden farklıdır. Veri ambarını tanımlamak gerekirse [44]: “Veri ambarı, pek çok farklı kaynaktan ve genellikle de farklı yapıda verinin depolandığı ve hepsinin de aynı birleşik çatı altında kullanılmasının ümit edildiği yapılardır.” Pazarlama bakış açısından ise veri tabanı müşterilerin karakteristikleri ve hareketleri hakkında bilgiler barındıran bir müşteri listesidir [45]. Pazarlama ve veri tabanı teknolojisi arasındaki yoğun etkileşim veri tabanı pazarlaması kavramını doğurmuştur. İşletmenin mevcut ve potansiyel müşterileri hakkında bilgi toplaması, satın almada veya statüleri hakkındaki değişiklikleri gözlemlemesi, elde edilen verilerin müşteriler ile ilişki geliştirmek ve yeni pazarlama stratejileri oluşturmak amacıyla kullanılması veri tabanı pazarlaması olarak tanımlanmaktadır [46]. Veri tabanından bilgi keşfi ilk olarak 1989 yılında A.B.D’nin Detroit Eyaleti’nde gerçekleştirilen 11. Uluslararası Müşterek Yapay Zekâ Konferansı’nda ele alınmıştır [47]. Fayyad ve arkadaşlarına göre veri tabanından bilgi keşfi yararlı bilginin keşfedilmesinin genel sürecini ifade ederken, veri madenciliği bu sürecin belirli bir kısmını temsil etmektedir [48]. Bu kısım örüntünün ortaya çıkarılabilmesi için belirli bir algoritmanın uygulanmasıdır. Fakat ilgili yayınlarda bu iki kavramın birbirinin yerine kullanılması daha yaygın bir anlayıştır. Bunun sebebi ise veri madenciliğinin, veri tabanından bilgi keşfinin en önemli kısmını oluşturmasıdır [49]. Genel bir tanımla ifade etmek gerekirse [16]: “Veri madenciliği; veri ambarlarındaki çeşitli verileri kullanarak yeni bilgileri ortaya çıkarma ve bu bilgileri karar verme ve uygulama aşamasında kullanma sürecidir.” 19 Veri madenciliği ile benzer ifadelerin karıştırılmaması için karşılaştırılması faydalı olacaktır. Veri madenciliği ile istatistiksel analizler benzer olsa da aşağıdaki gibi bir takım farklılıklar teşkil etmektedir. Bu farklılıklar Çizelge 4.1’de ifade edilmiştir. Çizelge 4. 1 Veri madenciliği ile istatistiksel analizlerin karşılaştırılması [44] İstatistiksel Analiz Veri Madenciliği İstatistikçiler genellikle bir hipotez ile Veri başlarlar. madenciliği hipoteze gerek duymaz. Hipotezlerini eşleştirmek için kendi Veri eşitliklerini geliştirmek zorundadırlar. madenciliği alogritmaları eşitlikleri otomatik olarak geliştirir. Kirli veriyi analizler sırasında bulur ve Veri madenciliği temiz veriye dayanır. filtre eder. İstatistikçiler kendi sonuçlarını Veri madenciliğinin yorumlar ve bu sonuçları yöneticilere yorumlamak iletirler. Sonuçlarını sonuçlarını kolay analiz değildir. etmede ve yorumlamada ve bulguları yöneticilere iletmede mutlaka istatistikçiye ihtiyaç duyulmaktadır. Zhang ve Zhang’a göre geleneksel istatistik varsayım odaklıdır. Yani hipotezler veriye göre onaylanmakta ve şekil almaktadır. Veri madenciliği ise buna zıt olarak keşif odaklıdır ve örüntüler ve hipotezler otomatik olarak veri tabanından çıkartılır. Özetle veri madenciliği veri odaklıyken istatistik insan odaklıdır [50]. 20 Veri madenciliği sistematik bir süreçtir. Veri madencileri bu analizleri gerçekleştirirken belirli bir amaç güderler. Bu amaç doğrultusunda sonuca giden bir rota takip edilir. Amacın belirlenmesiyle başlayan ve sonuçların yorumlanmasıyla sonlanan bu sürece veri madenciliği süreci denilebilir. 4.1 Veri Madenciliği Süreci Veri madenciliği bir analiz ve araştırma sürecidir. Birçok çalışma da bu süreç aşağıdaki gibi bir altılı sıralıdüzen süreç olarak takip edilmiştir [51, 52, 53, 54, 55]: 1. İşi kavrama, 2. Veriyi kavrama, 3. Veriyi hazırlama, 4. Modelleme, 5. Değerlendirme, 6. Yayılım. Bu altı basamaklı sürecin geliştiricileri Daimler-Chrysler (sonradan Daimler Benz AG, Almanya), NCR Sistem Mühendisliği Kopenhag (Danimarka), SPSS (İngiltere) ve OHra Verzegeringen en Bank Groep B.V (Hollanda) isimli firmalardır. Süreç CRISP-DM olarak tanımlanmıştır. Çapraz Endüstri Veri Madenciliği Standart Süreci olarak Türkçe ifade edilmektedir [16, 52]. 21 Şekil 4.1 Çapraz Endüstri Veri madenciliği Standart Süreci [51] İlgili yayınlarda çok farklı veri madenciliği süreçlerine rastlamak mümkündür. Başka bir örnek veri madenciliği süreci Hui ve Jha (2000) tarafından Şekil 4.2 de ifade edilmiştir [26]: Şekil 4.2 Hu ve Jha ‘nın Veri Madenciliği Süreci [26] 22 Örnekleri çoğaltmak mümkündür. İlerleyen kısımda Çapraz Endüstri Veri Madenciliği Süreci basamakları ile beraber anlatılacaktır. 4.1.1 İşi kavrama Veri madenciliği sürecinin doğru bir şekilde çalışabilmesi için ilk şart işin ve verinin kavranmasıdır. Bu anlayış gerçekleşmeden kullanılan algoritma ne olursa olsun sonuçlar istenilen güven seviyesinde gerçekleşmeyecektir. Bu altyapıdan yoksun bir veri madenciliği süreci verileri doğru hazırlama ve sonuçları doğru yorumlama konusunda sıkıntılar içerecektir. Veri madenciliği sürecini en iyi şekilde gerçekleştirebilmek için açık hedefler belirlenmelidir. Bu hedeflerin gereklilikleri açık bir şekilde belirlendikten sonra bütün bu bilgiler veri madenciliği problemine dönüştürülmeli ve hedefe yönelik giriş seviyesinde bir proje planı tasarlanmalıdır [53]. Temel olarak aşağıdaki faaliyetlerin gerçekleşmesi beklenmektedir [54]: - İşe yönelik hedeflerin belirlenmesi - Mevcut durumun değerlendirilmesi - Veri madenciliği hedeflerinin belirlenmesi - Proje planının yapılması 4.1.2 Veriyi kavrama Bu süreç verinin toplanması ile başlar ve veriyi tanıyabilmek için şu süreçleri takip eder; verinin kalite sorunlarının tanımlanması, verinin içyüzünü keşfetme veya gizli bilgilerin keşfedilmesi için verinin alt setlerinin belirlenmesi [53]. Veriyi kavrama ile işi kavrama arasında çok yakın bir ilişki vardır. Veri madenciliği probleminin tasarımı ve projenin gereklilikleri, az da olsa kullanılacak veri hakkında bir anlayış gerektirmektedir [53]. Bu sürecin sonunda istatistiksel özetlere bakmak gibi verinin keşfine yönelik bazı işlemler gerçekleştirilebilir. Ayrıca yine bu süreç esnasında kümeleme gibi bazı modeller veri içindeki örüntüleri kavrayabilmek için veri setine uygulanabilir [54]. 23 4.1.3 Veriyi hazırlama Veriyi hazırlama aşaması model araçlarını besleyecek nihai veri setinin ham verilerden oluşturulması aşamasıdır. Bu aşama belli bir sıralama olmaksızın, birden fazla kere gerçekleşebilir. Süreç, tablo, kayıt ve nitelik seçimi, veri temizleme, yeni niteliklerin oluşturulması ve verinin model araçlarına dönüştürülmesini kapsayabilir [53]. Yine veri içindeki örüntüleri görebilme amacıyla veri keşfi ve bazı modeller daha derin bir şekilde gerçekleştirilebilir [54]. Şekil 4.1’ de görüldüğü gibi modelleme aşamasından işlemler gerçekleşirken tekrar bu aşamaya dönülebilir. 4.1.4 Modelleme Bu adımda çeşitli modelleme teknikleri seçilir ve uygulanır. Ayrıca bu tekniklerin parametreleri en uygun değerlere ayarlanılır. Veri hazırlama ve modelleme arasında sıkı bir ilişki vardır [53]. Modellemeyi aşağıdaki gibi aşamalara ayırmak mümkündür [51]: - Model tekniğini seçme, - Modelin sınama tasarımını oluşturma, - Modelin inşa edilmesi, - Modelin değerlendirilmesi. 24 Çıktılar Şekil 4.3 Modelleme süreci [51] İlk aşamada veriyi haritalayabilmek ve ilişki kurabilmek için görselleştirme ve hangi değişkenlerin bir arada daha iyi bulunduğunu görebilme için kümeleme gibi analizler daha uygun olacaktır. Genelleştirilmiş kural atama gibi başlangıç birliktelik kuralları yine başlangıç için uygulanabilir. Veri hakkındaki kavrayış arttıkça, daha detaylı modeller uygulanabilir. Yine veriyi eğitim ve öğrenme setlerine bölmek gerekebilir [54]. 4.1.5 Değerlendirme Bu adımda 3 aşamada gerçekleşir [51]: - Sonuçların değerlendirilmesi, - Sürecin gözden geçirilmesi, - Bir sonraki adıma karar verilmesi. 25 Bundan önce gerçekleşen modeli değerlendirme aşaması modelin tamlığı ve doğruluğuyla ilgiliydi. Bu adım ise hangi modelin proje hedeflerini daha iyi karşıladığını veya model yetersiz ise bunun sebeplerini sorgulamakla ilgilenir. Sürecin gözden geçirilmesi noktasına gelindiğinde, modelin sonuçları projenin gerekliliklerini karşıladığı ve tatminkâr olduğu varsayılır. Bu aşamada önemli bir faktör veya görevin gözden kaçırılıp kaçırılmadığı kontrol edilir [51]. Sürecin gözden geçirilmesi sonunda projeyi oluşturanlar işin nasıl devam edeceğine karar verirler. Karar vericiler sürecin yayılıp yayılmayacağına veya yeni bir veri madenciliği projesinin kurulması gerekip gerekmediğine karar verirler [51]. Genel olarak ulaşılan sonuçlar CRISP-DM’ nin ilk aşaması olan işi kavrama aşamasında belirlenilen hedefler kapsamında değerlendirilmelidir. 4.1.6 Yayılım Modelin oluşturulması çoğunlukla projenin sonuna gelindiği anlamına gelmemektedir [53]. Projenin son ayağı yayılımdır. Bu adımı da 4 aşamada incelemek mümkündür [51]: - Yayılım planın oluşturulması, - Planın gözetimi ve sürdürülmesi, - Final raporunun üretilmesi, - Projenin gözden geçirilmesi. Yayılım planı aşamasında sonuçlar değerlendirilmeye alınır ve yayılım stratejisi belirlenir. Planın gözetimi ve sürdürülmesi veri madenciliği sonuçlarının yanlış yorumlanmasından doğan uzun süreçleri engelleyecektir [51]. 26 Çıktılar Şekil 4.4 Yayılım süreci [51] Süreç boyunca edinilen sağlıklı modeller farklı amaçlarla çeşitli iş operasyonlarına uygulanabilir. Bu modeller koşullar değiştikçe kontrol edilmelidir. Çünkü bugün doğru olan sonuçlar bundan bir yıl sonra yine doğru olacağı anlamına gelmez. Eğer koşullarda önemli değişiklikler meydana gelirse model yeniden inşa edilmelidir. Yine sonuçları belgelendirmek ve kayıt altına almak gelecek adına akıllıca bir adım olacaktır [54]. Bu sürecin altı adımlık sıralaması değiştirilemez değildir. Aynı yolu tersten izlenildiği gene yaygın bir anlayıştır. Yine analistler tarafından her basamak eksiksiz olarak uygulanılmaz. Ancak CRISP-DM bu alanda çalışanlar için uygun bir taslak arz etmektedir [54]. 27 Modelleme aşamasında bahsediliği gibi sürecin önemli aşamalarından birisi veri madenciliği analizini gerçekleştirecek tekniğin seçilmesidir. Bir sonraki bölümde kısaca bu teknikler paylaşılacaktır. 4.2 Veri Madenciliği Teknikleri Veri madenciliği alanında birçok tekniğin kullanıldığı ve bu tekniklerin çeşitli kaynaklarda farklı şekillerde tasnif edildiği görülmektedir. Bu teknikleri en temel olarak 3 grupta toplamak mümkündür [17]: - Sınıflandırma ve regresyon - Kümeleme - Birliktelik kuralları ve sıralı örüntüler Sınıflama ve regresyon modelleri tahmin edici (predictive) modeller olarak nitelendirilir. Kümeleme ve birliktelik kuralları modelleri ise tanımlayıcı (descriptive) modellerdir [56]. Çeşitli kaynaklarda farklı tasniflere rastlamak mükündür. Örneğin Koyuncugil ve Özgülbaş veri madenciliği tekniklerini geleneksel teknikler ve yeni teknikler olarak ikiye ayırmışlardır [44]: 1. Geleneksel Teknikler - Regresyon - K-en yakın komşuluk - Kümeleme 2. Yeni Teknikler - Karar ağaçları - Birliktelik kuralları - Sinir ağları Burada en başta verilen üçlü sınıflandırma (Sınıflandırma ve regresyon, kümeleme, Birliktelik kuralları ve sıralı örüntüler) kullanılarak kısaca veri madenciliği teknikleri anlatılacaktır [17]. 28 4.2.1 Sınıflandırma ve regresyon Tahmine dayalı modellerde amaç veri tabanındaki bazı alanları diğer alanları temel alarak kestirebilmektir. Eğer tahmin edilecek alan sayısal değişkenlerden oluşuyor ise bu tahmin problemi regresyon problemidir [57]. Fakat alan kategorik ise bu bir sınıflandırma problemidir. Sınıflandırmada temel amaç kategorik değişkenleri saptamaktır [58]. Örneğin; bir GSM operatörü belli bir gün içeresinde ve belirlenmiş bazı saatler arasında indirimli veya ücretsiz konuşma kampanyası başlatmak istediğinde, kampanyayı uygulayacağı saatler arasında en çok konuşan müşterilerini tespit etmek isteyebilir. Veri tabanında geçmişte müşterilerin konuşma verilerinin mevcut olduğunu varsayalım; o müşterilerin ne kadar süre telefonla konuştuklarını gösteren alan bağımlı değişken olacaktır. Müşterilerin diğer nitelikleri ise (yaş, cinsiyet, gelir düzeyi gibi) bağımlı değişken üzerinde etkisi araştırılan bağımsız değişken olacaktır [17]. Söz konusu firmanın veri madenciliği uygulamaları sonucunda 24 yaşındaki bayanların o saatlerde daha fazla telefonla konuştuğunu tespit ettiğini varsayalım. Firma başlattığı bu kampanyanın tutundurma çabalarını bu kitle üzerine yoğunlaştırarak daha hızlı ve olumlu sonuçlar alacaktır. Sınıflandırma (veya sınıflama) algoritmaları aşağıda sıralanmıştır [17]: - Diskriminant analizi - Naive Bayes - Karar ağaçları - Sinir ağları - Kaba kümeler - Genetik algoritmalar - Regresyon analizi Diskriminant Analizi Bu yöntem en eski matematiksel sınıflandırma tekniğidir. İlk uygulamaları 1936 yılında gerçekleştirilmiştir. Sonuçları yorumlamak kolaydır. Tıp, sosyal bilimler ve saha biyolojisinde çok sık kullanılmaktadır [52]. 29 Diskriminant analizi bir dizi gözlemi önceden tanımlanmış sınıflara atar. Model ait oldukları sınıf bilinen gözlem kümesi üzerine kurulur ve bu küme öğrenme kümesi olarak tanımlanır. Öğrenme kümesine bağlı olarak diskriminant fonksiyonları olarak bilinen doğrusal fonksiyonların bir kümesi oluşturulur. Diskriminant fonksiyonu, yeni gözlemlerin sınıflandırılması için kullanılır. Yeni bir gözlem oluştuğunda tüm diskriminant fonksiyonları hesaplanır ve bu yeni gözlem diskriminant fonksiyonunun en yüksek olduğu sınıfa tayin edilir [17]. Naive Bayes Naive Bayes sınıflandırma aracı istatistiksel bir sınıflandırıcıdır. İsmini Thomas Bayes’den almıştır. Bayesyen sınıflandırıcılar büyük veri tabanlarına uygulandıklarında yüksek doğruluk ve hız sergilemişlerdir [59]. Navie Bayes sınıflandırıcısı bir nitelik değerinin verilen bir sınıf üzerindeki etkisini diğer nitelik değerlerinden bağımsız olarak varsayar. Bu varsayım sınıf-koşullu bağımsızlık olarak ifade edilir. Bu hesaplamaları basitleştirmek için yapılır. Bunun için “naive” yani saf olarak nitelendirilmiştir [59]. Karar ağaçları Karar ağaçları kurulum maliyetlerinin düşük olması, yorumlanmasının kolay olması, veri tabanı sistemlerine bütünleşmesinin kolay olması sebebiyle sınıflama teknikleri arasında en çok kullanılan tekniktir [16]. Hiyerarşik ayrıştırıcı metotlar olarak da bilinen bu ağaçlar grup üyelerini 2 veya daha fazla alt gruba ayırarak çalışmaya başlar ve önceden belirlenmiş istatistiksel ölçütlere göre ayırma yaklaşımıyla devam eder. En fazla bilinen çeşitleri aşağıdakilerdir[60]: - Automatic Interaction Detection (AID) - Chi-Square Automatic Interaction Detection (CHAID) - Classification and Regression Tree (CART) 30 Bir karar ağacı yaklaşımı bütün üyelerin bağlı olduğu ve farklı alt gruplara ayrıldığı (şube veya düğüm) ağacın kökünde başlar. Bir ağaç gruplar arası bağımlı değişkenin varyansının maksimum olması ve grup içinde minimum olması yoluyla kurulur. Örneğin; bir müşteri grubu, hane halkı gelirinin (bağımlı değişken) varyansını yaş grupları arasında maksimize etmek için, farklı yaş (bağımsız değişken) gruplarına bölünebilir [60]. Sinir ağları Yapay sinir ağları, insan beyninin çalışma şekline benzetilmeye çalışılarak üretilmiştir. İnsan beynindeki birçok sinir hücresinin birbirlerine değişik etki seviyeleri ile bağlanması sonucu oluşan karmaşık bir sistem olarak düşünülebilir. Çok farklı yapıda ve formlarda bulunabilen verileri hızlı bir şekilde tanımlayabilmek ve algılayabilmek için kullanılır [16]. Sinir ağları veri tabanındaki örüntüleri, sınıflandırmak ve tahmin yürütmede kullanmak üzere genelleştirir. Sinir ağları algoritmaları sayısal veriler üzerinde çalışırlar [17]. Kaba kümeler Bu yöntem sayesinde eksik, yetersiz ve belirsiz bilgiler düzenlenilerek veri analizi için yeterli hale getirilebilir [61]. İlk olarak 1970’li yıllarda Pawlak tarafından oraya atılmıştır ve günümüzde birçok bilim dalına hizmet etmektedir [17]. Kaba kümeler analizinde temel amaç edinilen veri setinden benzer konseptleri sentezlemektir [62]. Veri madenciliği kapsamında kaba küme teorisi temel alınarak birçok algoritma geliştirilmiştir. Verinin indirgenmesi, niteliklerin minimal alt kümelerinin bulunması, kuralların en iyi minimal kümesinin hesaplanması, verinin sınıflandırılması amacıyla kullanılan bu algoritmalar son yıllarda en fazla verinin sınıflandırılması amacıyla kullanılmaktadır [24]. 31 Genetik algoritma Temel ilkeleri John Holland tarafından atılan genetik algoritmalar, doğal seçim ilkelerine dayanan bir arama ve optimizasyon yöntemidir [63]. Model Darwin’in Evrim Teorisine dayanmaktadır [17]. Şekil 4.5’de Genetik algoritma blok diyagramı gösterilmiştir. Veri madenciliği uygulamalarında genetik algoritmalar çözüm uzayının hepsi yerine belirli bir kısmını incelediği için diğer yöntemlere göre daha hızlı çalışmaktadır. İşlemelerde mali kayıpların araştırılması, finansal opsiyonların geliştirilmesi gibi konularda da kullanılmaktadır [63]. 32 Şekil 4.5 Genetik Algoritma Blok Diyagramı [64] Regresyon analizi Regresyon analizi iki veya daha fazla değişkeni ilişkilendirilmek üzere kullanılan istatistiksel bir araçtır. Regresyon analizindeki amaç bir veya daha fazla bağımsız değişkenli bağımlı değişken ile ilişkili regresyon modeli veya tahmin denklemi kurmaktır. Model, ilgili değişkeni bağımsız değişken temelinde tanımlamak, tahmin ve kontrol amacıyla kullanılabilir [45]. 33 4.2.2 Kümeleme Kümeleme basit olarak veri setlerini alt setlere parçalama işlemidir. Her alt set bir kümedir ve bir kümedeki bütün nesneler birbirine benzerdir. Bu kümeler bir kümeleme işleminden doğmuştur. Bu bağlamda farklı kümeleme teknikleri farklı aynı veri seti üzerine uygulandığında farklı kümelemeler oluşturacaktır. Parçalama işleme bireyler tarafından değil algoritmalar tarafından gerçekleşir. Bundan dolayı kümeleme veriler arasındaki önceden bilinmeyen grupları ortaya çıkarabileceğinden kullanışlıdır [59]. Kümelemenin uygulama alanı çok geniştir. İş zekâsı, görüntü biçimi algılama, web aramaları, biyoloji, güvenlik gibi. Örneğin iş zekâsı uygulamalarında kümeleme çok sayıda müşteriyi benzer karakteristik özellikler gösteren müşterileri bir arada toplamak suretiyle organize etmek için kullanılabilir [59]. Kümeleme teknikleri; parçalama metotları, hiyerarşik metotlar, yoğunluk-tabanlı metotlar, hücre tabanlı (grid-based) metotlar olarak sıralanmaktadır [59]. En yaygın kullanılan kümeleme parçalama metotları arasında gösterilen metodu “k ortalamalar algoritması” dır [59,17]. K ortalamalar algoritması K ortalama algoritması, küme içeresindeki noktaların ortalama değeri olarak kümenin ağırlık merkezini tanımlar. Algoritma çalışırken aşağıdaki işlemleri takip eder [59]: - İlk olarak rastgele veri tabanındaki nesnelerden her biri bir merkezi olan k adet küme oluşturulur. - Kalan nesnelerin, küme merkezine olan uzaklıkları Öklid teorisine göre hesaplanır ve en yakın olana atılır. - Daha sonra küme içi iyileştirme işlemleri başlar ve her atamadan sonra her küme için yeni ortalama hesaplanır. Bütün nesneler güncellenmiş ortalamalara göre yeniden tayin edilir. 34 Şekil 4.6 k ortalamalar tekniğiyle objeler setinin kümelenme süreci1 [59] 4.2.3 Birliktelik kuralları ve sıralı örüntüler Hareketli veri tabanlarındaki nesneler seti arasındaki yaygın örüntüleri, birliktelikleri, korelasyonları ve tesadüfi yapıları bulmak için kullanılan tekniklerdir. İlk olarak 1993 yılında uygulanmaya başlanmış olan birliktelik kuralları çok geniş bir araştırma sahasına ulaşmıştır [31]. Yaygın uygulama alanları; pazar sepet analizi, çapraz pazarlama katalog tasarım, müşteri kazanmak için yapılan zararına satışların analizinde kullanılmaktadır. Bir pazar sepet analizi örneği verecek olursak; müşteri hareketlerini barındıran bir veri tabanı olduğunu varsayalım. Bu veri tabanında hangi ürünlerin sıklıkla bir arada müşteriler tarafından alındığı bulunmaya çalışılırsa şöyle bir bulguya rastlanılabilir: “Sosis ve kola alan müşteri, yüksek olasılıkla hardalda alacaktır.” Bu bilgiye dayanarak mağaza içi ürün yerleştirme tasarımı, tutundurma çabaları güncellenebilir. Farklı birliktelik kuralları aşağıda sıralanmıştır [50]: - 1 Eldeki veri tipine göre: Yineleme işleminde kümelerin merkezleri güncellenir ve nesneleri otomatik olarak yeniden tasnif eder. (+) Küme merkezlerini göstermektedir 35 o Boolean birliktelik kuralları o Niceliksel birliktelik kuralları - Soyutlama düzeyine göre: o Tek seviyeli birliktelik kuralları o Çok seviyeli kuralları - Kullanılan verinin boyutuna göre: o Tek boyutlu birliktelik kuralları o Çok boyutlu birliktelik kuralları Birliktelik kuralları ile beraber anılan ardışık örüntüler ise birbiriyle ilişkili fakat farklı dönemlerde gerçekleşen ilişkileri tanımlamada kullanılır [17]. Örneğin ardışık analizle ilgili şöyle bir önek verilebilir; basketbol topu alan müşteriler, bir ay içerisinde top şişirme pompası da almaktadır. Veri madenciliği süreci ve tekniklerine ek olarak uygulama alanlarından bahsetmekte manidar olacaktır. 4.3 Veri Madenciliği Uygulama Alanları Veri madenciliği veri ambarlarının oluşturulduğu hemen hemen her alanda uygulama alanı bulabilmektedir. Bilim ve mühendislik, sağlık ve ilaç, telekomünikasyon gibi çeşitli alanlarda da uygulama alanı bulabilmektedir [57]. İş ve işletmeciliğe yönelik ise genel olarak üç alanda hizmet vermektedir [54]: 1. Müşteri profili belirleme: İşletme için en karlı müşterileri alt kümelere ayırma. 2. Hedef Belirleme: Rakipler tarafından ele geçirilmiş karlı müşterilerin karakterlerini belirleme. 3. Sepet Analizi: Müşterilerin birlikte satın aldığı ürünlerin çapraz satışa yönelik tespit edilmesi. 36 Bir başka kaynakta ise veri madenciliğinin iş hayatındaki kullanım alanları daha detaylı bir şekilde aşağıda görüldüğü üzere maddeler halinde sıralanmıştır [57]: - Pazarlama ve perakendecilik o Müşteri segmentasyonunda o Müşterilerin demografik özellikleri arasındaki bağlantıların kurulmasında o Pazarlama kampanyalarında o Müşterilerin elde tutulmasına yönelik stratejilerinin oluşturulmasında o Sepet analizinde o Müşteri ilişkileri yönetiminde o Satış tahminlerinde - Bankacılık o Farklı finansal göstergeler arasındaki gizli korelâsyonların bulunmasında o Kredi kartı dolandırıcılıklarının tespitinde ve usulsüzlük tespitinde o Kredi taleplerinin değerlendirilmesinde o Risk analizleri ve yönetimi - Sigortacılık o Yeni poliçe talep edecek müşterilerin tahmin edilmesinde o Dolandırıcılıklarının tespitinde o Riskli müşterilerin tespitinde - Perakendecilik o Satış noktası veri analizleri o Alış-veriş sepeti analizleri o Tedarik ve mağaza yerleşiminde - Borsa o Hisse senedi fiyat analizi o Genel piyasa analizi o Alım-satım stratejileri - Endüstri o Lojistik 37 o Üretim Süreçleri Bankacılık ve finans sektöründe faaliyet gösteren işletmelerin müşterileri hakkında dolandırıcılık algılama, risk analizi, kredi değerliliği gibi konularında veri madenciliğini kullandıkları görülmektedir. Sigorta şirketlerinin de hedef kitlesini tanıma, müşterilerini elde tutmada veri madenciliği çözümlerine başvurduğu yükselen bir eğilimdir. Ayrıca yine dolandırıcılık tespiti (fraud detection) kapsamında da sigorta şirketlerinin veri madenciliğine başvurdukları bilinmektedir [9]. Veri madenciliğin en kolay uygulanabileceği alanlardan birisi ise elektronik ticarettir [65]. E-ticaret kapsamında faaliyet gösteren firmaların veri tabanlarını oluşturmaları, bütün faaliyetlerin elektronik ortamda gerçekleşmesinden dolayı daha kolay olmaktadır. Yine insan kaynakları yönetiminde de veri madenciliği çözümlerinin kullanıldığı görülmektedir. Muhtemel personel devirlerini tahmin etmede kullanılabilmektedir [54]. Veri madenciliği süreci, tekniği ve uygulama alanları kısaca özetlenmiştir. Tez kapsamında gerçekleştirilecek olan uygulamanın hem bu kavramları hem de pazarlama ve veri madenciliği ilişkisini aydınlatacağı umulmaktadır. Ancak uygulama aşamasına geçilmeden önce hem gelecekte yapılacak çalışmalara ışık tutması amacıyla hem de uygulamanın daha iyi kavranabilmesi ümüdiyle çalışmayı gerçekleştirdiğimiz WEKA yazılımı hakkında bir takım aydınlatıcı bilgiler paylaşılacaktır. 38 5. WEKA YAZILIMI Veri madenciliği uygulamalarını gerçekleştirebilmek için çeşitli bilgisayar yazılımlarına ihtiyaç duyulmaktadır. Bu kapsamda, SPSS Clementine, Excel, SPSS, SAS, Angoss, KXEN, SQL Server, MATLAB ticari ve RapidMiner (YALE), WEKA, R, C4.5, Orange, KNIME açık kaynak gibi bazı yazılımlar geliştirilmiştir [66]. WEKA, makine öğrenmesi algoritmalarını ve veri önişleme araçlarını barındıran bir yazılımdır. Veri tabanı üzerinde veri madenciliği metotlarını kolay bir şekilde ve esnek yollardan uygulayabilmek için tasarlanmıştır. Deneysel veri madenciliğinin bütün sürecine kapsamlı bir destek vermektedir; veri hazırlama, öğrenme şemasını istatistiksel olarak değerlendirme ve girilen veriyi görselleştirme ve öğrenme sonuçları gibi [2]. İlk olarak 1992 yılında ortaya çıkan WEKA Yeni Zelanda Waikato Üniversitesi’nde tasarlanmıştır; açılımı “Waaikato Environment for Knowledge Analysis” dır [67]. Sistem Java üzerine yazılıdır ve genel kamu lisansı şartları altında kullanıcılara dağıtılmaktadır. Hemen hemen bütün platformlarda çalışmaktadır; Linux, Windows ve Macintosh gibi [2]. 2010 yılında yapılan bir çalışmada veri madencilerinin en çok kullandığı 5 yazılımdan birinin WEKA olduğu ortaya konmuştur [68]. WEKA’nın veri madenciliği alan yazınına katkısı güncel bir araştırmada şöyle ifade edilmiştir [69]: “Sadece “IEEE Xplore” ve “ScienceDirect” veri tabanlarında “WEKA” anahtar kelimesiyle yapılan aramalarda, ilki için 144 akademik çalışma ve diğeri için 1415 makale, 88 kitap ve 6 tane referans çalışması bulunmaktadır. Sadece son beş yıl içinde, bu çalışmanın hazırlandığı 2012 yılı ilk 2 ayı için 121 makale ve 8 kitap, 2011 yılı için 357 makale ve 27 kitap, 2010 yılı için 220 makale (+2 referans çalışması) ve 3 kitap, 2009 yılı için 182 makale (+2 referans çalışması) ve 7 kitap, 2008 yılı için 138 makale ve 5 kitap bulunduğu görülmektedir.” 39 Hem iş sahasında hem akademik sahada oldukça fazla ilgi gören WEKA SourceForge isimli web sitesine yüklendiği 2000 yılı Nisan ayından bugüne kadar yaklaşık 1,5 milyon kere kullanıcılar tarafından indirilmiştir [67]. 2005 yılında WEKA’ yı geliştiren ekip Veri Madenciliği ve Keşfi Ödülüne2 layık görülmüştür. 2003 yılı Mayıs Ayı’nın 15’i ile Haziran Ayı’nın 2’si arasında bir web sitesi üzerinde gerçekleştirilen bir ankete göre WEKA gerçek bir projede kullanılmak üzere en çok tercih edilen veri madenciliği ve diğer veri yazılımları arasında 4. Sırada yer almaktadır. EK-1’ de anket sonuçları gösterilmiştir [68]. Resim 5.2. WEKA ekran çıktısı Resim 5.2’de görüldüğü üzere WEKA 4 farklı arayüz içermektedir. Analizlerin gerçekleştirldiği arayüzün ismi WEKA Explorer’dır. WEKA Explorer ve içerdiği paneller bir sonraki başlık altında paylaşılacaktır. 5.1 WEKA Explorer WEKA birkaç kullanıcı ara yüzüne sahiptir. WEKA’nın temel grafiksel kullanıcı ara yüzü Explorer’dır. Panel temelli bir arayüz olan Explorer, WEKA’nın desteklediği veri madenciliği tekniklerine tekabül eden 6 farklı panel içermektedir [2, 67]. 2 SIGKDD (Data Mining and Discovery Service Award) 40 Pencerenin aşağısında bulunan Log butonu ise tıklanıldığı takdirde WEKA’nın gerçekleştirdiği işlemlerin metinsel loglarını zaman damgalarıyla beraber göstermektedir. Bahsi geçen paneller ve işlevleri aşağıda belirtilmiştir [2, 67,69]: - Preprocess (Veri hazırlama): İlk paneldir. Bu panelden veri seti seçilir ve çeşitli yollarla düzenlenilir. Burada filtreler olarak ifade edilen veri düzenleme araçları mevcuttur. Veri 3 yoldan yüklenilebilir; dosyadan, veri tabanından veya URL üzerinden. Desteklenilen veri formatları şunlardır; CSV, LibSVM ve C4.5. - Classify (Sınıflandırma): İkinci panel Sınıflandırmada veya regresyon algoritmalarının bulunduğu paneldir. Panele sınıflandırma denmesinin sebebi regresyon tekniklerinin kesintisiz sınıfları kestiricisi olarak görülmesinden dolayıdır. Panel kestirici performansı belirlemek üzere seçilen öğrenme algoritmasıyla veri hazırlama panelinde hazırlanmış veri seti üzerinde bağımsız geçerlilik sınaması (cross-validation) gerçekleştirir. Ayrıca veri setinin metinsel temsilini de göstermektedir. Eğer veriyle ilgili şartlar elverişliyse panel ayrıca modelin veya karar ağaçlarının grafiksel gösterimini de sunmaktadır. Ayrıca saçılım grafiğindeki tahmin hatalarını görselleştirme ve ROC gibi eğrilerle değerlendirme imkânı sağlamaktadır. Model bu panel de kalıcı olarak kayıt edebilir ve tekrar yüklenilebilir. - Cluster (Kümeleme): Veri hazırlama paneline yüklenmiş veri setlerine kümeleme algoritmalarının uygulandığı paneldir. Kümeleme işlemi gerçekleştiğinde WEKA kaç küme olduğunu ve her küme içindeki örnek sayısını gösterir. Panel kümeleme performansını değerlendirmek için basit istatistikler sağlamaktadır. Eğer veri uygunsa kümeleme yapısını görselleştirme imkânı mevcuttur. Ayrıca model kalıcı olarak kayıt edilebilir. - Associate (Birleştirme): Veri hakkındaki birliktelik kuralları öğrenildiği ve değerlendirildiği bu panel nispeten kümeleme ve sınıflandırma panellerinden 41 daha kolay bir kullanıma sahiptir. WEKA birliktelik kuralları için 6 adet algoritma barındırmaktadır. - Select attributes (Nitelik Seçimi): Bu panel veri seti içindeki en önemli nitelikleri belirlemek için geniş bir algoritma yelpazesine ve değerlendirme ölçütlerine ulaşım sağlamaktadır. Bu sayede farklı arama metotlarıyla farklı değerlendirme ölçütlerini kombine etmek ve çok çeşitli muhtemel aday tekniklerini yapılandırmak mümkün olabilmektedir. Nitelik seçimi tam eğitim veri seti kullanılarak gerçekleştirilebileceği gibi bağımsız geçerlilik sınaması kullanılarak da gerçekleştirilebilir. - Visualize (Görselleştirme): Görselleştirme, veri setinin görselleştirilmesine yardım eder. Burada dikkat edilmesi gereken nokta bu panelde sınıflandırma veya kümeleme modelinin sonuçları değil veri setinin kendisi görselleştirilir. İki boyutlu bir matriks üzerinden bütün nitelik çiftlerinin saçılım grafiğini gösterir. Resim 5.3 WEKA Explorer ekran çıktısı 42 WEKA’nın bu kadar çok tercih edilmesi ve bu çalışmada da tercih edilmesinin nedenleri aşağıda sıralanmıştır [2, 67, 69]: - Çok farklı algoritmalar sağlamaktadır, - Yazılım açık kaynaklı ve ücretsiz temin edilebilir, - Veri madenciliği uzmanı olmayan kişiler bile kolayca kullanabilir, - Sonuçlar için esnek çıktılar sağlamaktadır, - Güncel algoritmalar eklenilmesi suretiyle yazılım güncel kalmaktadır. Veri madenciliği ve pazarlama konusundaki genel teorik bilgiler burada sonlandırılmaktadır. Bu alanda özellikle son dönemde gelişen teknolojik araçlar ve bilgi sistemleri ile oldukça fazla kaynağa ulaşmak mümkündür. Buraya kadar temel bilgiler ve kavramsal çerçeve paylaşılmaya çalışılmıştır. Tezin son bölümü olan takip eden kısımda ise bu alanda gerçekleştirilen uygulama anlatılacaktır. 43 6. UYGULAMA Uygulama kapsamında kullanılan veri tabanından bahsedilmeden önce bu veri tabanının kullanılmasına izin veren ve sağlayan veri seti kaynağından bahsetmek manidar olacaktır. The UCI Machine Learning Repository3 Uygulama kapsamında kullanılan veri tabanı UCI Makine Öğrenmesi ve Akıllı Sistemler isimli veri tabanı deposundan alınmıştır. Kaynak birçok bilimsel çalışma da kullanılan veri setlerini barındırmaktadır [54]. UCI Makine Öğrenmesi deposu bir veri tabanı, makine öğrenme toplulukları tarafından deneysel analizler için kullanılan evlek kuramları ve veri jeneratörleri biriktirisidir. Arşiv 1987 yılında oluşturulmuştur ve günümüze kadar öğrenciler, eğitmenler ve araştırmacılar tarafından sıklıkla kullanılmaktadır. Amerika Birleşik Devletleri’nde bulunan Ulusal Bilim Kurumu4 tarafından (The National Science Foundation) desteklenmektedir [70]. Resim 6.1. The UCI Machine Learning Repository (http://archive.ics.uci.edu/ml/datasets.html) 3 4 Daha fazla bilgi için bkz: http://archive.ics.uci.edu/ml/index.html Daha fazla bilgi için bkz: http://www.nsf.gov/ 44 6.1 Kullanılan Veri Tabanı Seçilen veri tabanının ismi “Bank Marketing” dir. Paulo Cortez ve Sérgio Moro tarafından oluşturulan bu veri tabanındaki veriler 2008 yılının Mayıs ayından 2010 Kasım ayına kadar geçen sürede oluşturulmuşlardır. Veri setinin en son kullanımı yine bahsi geçen yazarlar tarafından, çalışmanın dördüncü bölümünde veri madenciliği süreci olarak bahsi geçen CRISP-DM yöntemine göre 2011 yılında gerçekleştirilmiştir. Bu tez çalışması da büyük oranda bahsi geçen çalışmadan esinlenmiştir. İlerleyen kısımda çalışmadan ve bulgularından kısaca bahsedilecektir. Veri tabanındaki veriler Portekiz’deki bir bankanın doğrudan pazarlama kampanyaları hakkındadır ve 17 farklı kampanyayı kapsamaktadır. Bu kampanyalar telefon görüşmesi suretiyle müşterilere iletilmiştir. Sıklıkla bir müşteriye teklifi ulaştırabilmek için birden fazla kez görüşüldüğü görülmektedir. Toplam 79354 telefon görüşmesi yapılmıştır. Bu görüşmeler sırasında uzun vadeli ve iyi bir faiz oranında mevduat önerilmiştir [71] Veri tabanı sıkıştırılmış arşiv dosyası (.rar) formatındadır ve içinde üç farklı dosyayı barındırmaktadır. İlk dosyada 45211 örneklem barındıran tam veri tabanı bulunurken, diğer dosyada bu örneklem grubundan rastgele ve %10 oranında seçilmiş 4521 örneklem bulunmaktadır. Her iki veri tabanında da 17 nitelik bulunmaktadır. Bu nitelikler aşağıda sıralanmıştır: 1. Yaş: Müşterilerin yaşı sayısal olarak mevcuttur. 2. Meslek: Meslekler gruplar halinde veri tabanına girilmiştir. Üst kademe yönetici, bilinmeyen, işsiz, yönetim, müstahdem, girişimci, öğrenci, mavi yakalılar, serbest meslek erbabı, emekli, teknisyen, hizmet sektöründe çalışan. 3. Evlilik durumu: Evlilik durumu da gruplar halinde bulunmaktadır; evli, boşanmış ve bekâr. Boşanmış dul olan müşteriler içinde kullanılmıştır. 4. Eğitim: Bilinmeyen, orta dereceli, ilk dereceli, üçüncü dereceli olarak gruplar halinde belirtilmiştir. 45 5. Yükümlülüğü yerine getirilmeyen kredinin olup olmaması: Evet ve hayır olarak ikili terim olarak ifade edilmiştir. 6. Bakiye: Yıllık ortalama bakiye sayısal olarak ve Avro Para Birimi’ne göre ifade edilmiştir. 7. Konut kredisi: Evet veya hayır olarak ikili terim olarak ifade edilmiştir. 8. Bireysel kredi: Evet veya hayır olarak ikili terim olarak ifade edilmiştir. 9. İletişim: İletişim kurma tarzı da 3 değişkenden oluşan grup halinde ifade edilmiştir; bilinmeyen, cep telefonu veya sabit telefon. 10. Gün: Ay içerisinde en son görüşülen gün sayısal olarak ifade edilmiştir. 11. Ay: Yıl içerisinde iletişim kurulan en son ay; kategorik olarak 12 aydan oluşmaktadır. 12. Süre: En son iletişim süresi sayısal olarak saniye bazında ifade edilmiştir. 13. Kampanya: Kampanya süresince bu müşteriyle kurulan iletişim sayısı (son görüşme de dâhil olmak üzere). 14. Geçen gün: Müşteriyle bir önceki kampanya sırasında en son ulaşıldığı günden bu yana geçen gün sayısı sayısal olarak ifade edilmiştir (-1 daha önce müşteriyle iletişime geçilmediğini ifade etmektedir). 15. Önceden kurulan iletişim sayısı: Müşteriyle bu kampanyadan önce gerçekleştirilen iletişim sayısı sayısal olarak ifade edilmiştir. 16. Önceki Çıktı: Bir önceki kampanyanın başarılı olup olmadığı 3 şekilde ifade edilmiştir; bilinmeyen, diğer, başarısız, başarılı. 17. Çıktı-Hedef değişken (y) : Önerilen teklifin kabul edilip edilmediği ikili olarak evet ve hayır şeklinde ifade edilmiştir. Gayet düzenli bir şekilde bulunan verilerde herhangi bir kayıp değere rastlanmamıştır. Veri seti ikincil veri seti olduğu için aynı set üzerinde gerçekleştirilen çalışmayı analiz etmek faydalı olacaktır. 46 Resim 6.2 Kullanılan verilerin Microsoft Excel dosyası olarak görünümü Using Data Mining For Bank Direct Marketing: An Application Of The Crisp-Dm Methodology Veri tabanı üzerinde en son gerçekleştirilen uygulama Sérgio Moro, Raul M. S. Laureano ve Paulo Cortez tarafından 2011 yılında bir konferans bildirisi olarak yayınlanmıştır. Bildirinin künyesi aşağıdaki gibidir: “Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.” 47 Bildiriye kısaca bankaların doğrudan pazarlamayla olan ilişkisinden bahsedilerek başlanılmıştır. Daha sonra iş zekâsı ve veri madenciliği incelenmiş, CRISP-DM yönteminden bahsedilmiştir. Takip eden kısımda pazarlama kampanyaları ve veri madenciliği ilişkisi bu alanda yapılan çalışmalar desteğiyle anlatılmıştır. Uygulama kısmında kullanılan veri tabanı anlatılmış ve kullanılan R yazılımının açık kaynak kodlu paketi olan rminer library’den bahsedilmiştir. Bu yazılımın avantajları ve yazılımın sağladıkları anlatıldıktan sonra yazılımın çalışmasıyla ilgili birkaç örnek kod gösterilmiştir. Uygulama CRISP-DM yöntemine göre 3 tekrarlı olarak gerçekleştirilmiştir. Çalışma sonucunda veriler hakkında en iyi tahmin edici modeller incelendikten sonra; müşteriyle konuşma süresinin en anlamlı nitelik olduğu ve bu nedenle uzun telefon görüşmelerinin başarıyı arttırdığı ifade edilmiştir. Ayrıca iletişimin gerçekleştiği ayların öneminden bahsedilmiş ve en başarılı aylar Mart, Ocak ve Eylül olarak sıralanmıştır. 6.3. Uygulamanın CRISP-DM Yöntemine Göre Gerçekleştirilmesi Geliştirilen uygulama çalışmanın dördüncü bölümünde bahsi geçen çapraz endüstri veri madenciliği süreci takip edilerek aşama aşama anlatılacak ve elde edilen bulgular ve sürecin nasıl takip edildiği paylaşılacaktır. 6.3.1 İşi kavrama Bankalar müşterileriyle en sık iletişim kuran işletmelerdendir. Banka yönetimleri bu alanda yapacakları istihdamı buna göre şekillendirip, amaç ve stratejileri doğrultusunda müşteri ilişkileri yönetimi stratejileri geliştirip, çalışanlarını bu yönde hizmet içi eğitime tabi tutarlar. Müşteriyle iletişimin bu kadar önemli olduğu bir sektörde müşteri ilişkileri yönetimi, veri tabanı pazarlaması gibi kavramlar oldukça önem arz etmektedir. Tele pazarlama faaliyetleri, ise daha önce bahsediliği gibi müşteriler tarafından olumsuz karşılanabilmektedir. Burada geçmişte kurulan 48 iletişimlerden hareketle yeni ve faydalı doğrudan pazarlama stratejileri için kullanılacak bilgiler üretmek amaçlanmıştır. Başarı kıstası olarak iletişimin başarılı olarak sonuçlanması seçilmiştir. Yani müşteriye önerilen kampanyanın kabul edilmesini önceden tahmin edebilecek bilgiler ve yöntemler geliştirebilmek amaçlanmıştır. Bu kapsamda sorunsuz bir örnek süreç ve model geliştirmek hedeflenmiştir. 6.3.2. Veriyi kavrama Bu aşamada verilerin toplama işlemi tarafımızca gerçekleştirilmediği için doğrudan veriyi anlamak amaçlanmıştır. Kullanılan veri tabanı başlığı altında bu aşama gerçekleştirilmiştir. Burda yapılan işlemler kısaca özetlenecektir. Öncelikle verinin elde edildiği kaynağın güvenilirliği araştırılmıştır. Kaynak birçok akademik çalışmaya veri tabanı sağladığından yeterince güvenli olduğu düşünülmüştür. Edinilen veri setinden önce bu veri seti kullanılarak yapılan çalışma analiz edilmiştir. Daha sonra veriler detaylı bir şekilde analiz edildikten sonra veri hakkında gerekli açıklamaları sağlayan metin dosyası bilgisayara indirilip dikkatli bir şekilde irdelenmiştir. Veri setindeki örneklem sayısı, niteliklerin anlamları ve açıklamaları incelenmiştir. 6.3.3. Veriyi hazırlama Veriler öncelikle internetten sürecin uygulanacağı bilgisayara indirildikten sonra temel olarak görüntüleyebilmek için esas olan ve 45211 örneklem barındıran veri tabanı dosyası Microsoft Excel’de çalıştırılmıştır. İlgili metin dosyasında kayıp verinin olmadığıyla ilgili bilginin teyit edilmesi amacıyla veriler kontrol edilmiş ve herhangi bir kayıp veriye rastlanmamıştır. Daha sonra aynı veri tabanı dosyası WEKA’da çalışabilecek bir formata dönüştürülmüştür. İhtiyaç halinde kullanılabilmesi amacıyla veri tabanı dosyası aynı zamanda Microsoft Excel ve SPSS programlarında çalışabilecek uzantıda da kayıt edilmiştir. Bu şekilde üzerinde çalışılacak verinin son hali verilmiştir. Daha sonra veriye ait bazı niteliklerinin daha 49 kolay incelenebilmesi için istatistiksel olarak görselleştirilmesi gerçekleştirilmiştir. Çizelge 6.1’de bu görselleştirme paylaşılmıştır. Çizelge 6.1 Verilerin istatistiksel görünümü Nitelik Yaş Özellekler En düşük: 18 En yüksek: 95 Ortlama: 40.936 Meslek ( Kişi Sayısı) Yönetim: 9458 Teknisyen:7597 Girişimci:1487 Mavi Yakalı:9732 Bilinmeyen:288 Emekli:2264 Yönetici:5171 Müstahdem:4154 Serbest Meslek Erbabı:1579 İşsiz:1303 Ev Hanımı:1240 Öğrenci:938 Evlilik Durumu (Kişi Sayısı) Eğitim ( Kişi Sayısı) Evli:27214 Bekâr:12790 Boşanmış:5207 Birinci Derece:6851 İkinci Derece:23202 Üçüncü Derece:13301 Bilinmeyen:187 Yükümlülüğü yerine getirilmeyen kredi olup olmaması (Kişi Sayısı) Var: 815 Yok: 44396 50 Çizelge 6.1 Verilerin istatistiksel görünümü (Devam) Bakiye (Avro) En az:-8019 € En fazla:102127 € Ortalama:1362.272 € Konut Kredisi( Kişi Sayısı) Bireysel Kredi( Kişi Sayısı) Var:25130 Yok:20081 Var:7244 Yok:37967 İletişim Bilinmeyen:13020 Cep Telefonu:29285 Sabit Hat:2906 Ay ( Kişi) Mayıs:13766 Temmuz:6895 Ağustos:6247 Haziran:5341 Kasım:3970 Nisan:2932 Şubat:2649 Ocak: 1403 Ekim:738 Eylül:579 Mart:477 Aralık:214 Süre (Saniye) En Düşük:0” En Yüksek:4918” Ortalama:258.163 Kampanya En Düşük: 1 En Yüksek:63 Ortalama:2.764 51 Çizelge 6.1 Verilerin istatistiksel görünümü (Devam) Başarılı:1511 Önceki Çıktı Başarısız:4901 Diğer:1840 Bilinmeyen:36959 Çıktı-Hedef değişken (y) Evet:5289 Hayır:39922 6.3.4. Modelleme Bu aşamada ilk olarak “y” çıktısı olarak tanımladığımız müşterinin kampanyayı kabul edip etmediğine ilişkin nitelik için en önemli olan diğer nitelikler belirlenmeye çalışılmıştır. Nitelik seçimi sonucunda üzerinde çalışılması gereken önemli nitelikler saptanabilir. Burada da bu işlem 2 kere olmak üzere farklı algoritmalarla gerçekleştirilmiştir. Çizelge 6.2 Nitelik seçme işlemleri ve sonuçları Nitelik Değerlendirici Arama Metodu (Attribute Evaluator) (Search Method) CfsSubsetEval BestFirst Evlilik durumu Konut kredisi Bireysel kredi Süre Önceki çıktı ChiSquaredAttributeEval Ranker Süre :7725.66922 Önceki Çıktı:4391.50659 Geçen Gün: 3516.24129 Ay: 3061.83894 Yaş: 1498.63049 Sonuçlar Nitelik seçme işlemi gerçekleştirilirken kullanılan ilk değerlendirici CfsSubsetEval olmuştur. Araştırma yöntemi olarak ise BestFirst seçilmiştir. Müşterilerin teklifi 52 kabul edip etmeyeceğine dair bir tahminde bulunabilmek için bilinmesi gereken en önemli nitelikler; müşterinin evlilik durumu, konut kredisi kullanıp kullanmadığı, bireysel kredi kullanıp kullanmadığı, konuşma süresi ve bir önceki kampanyanın çıktısı olarak sıralanmaktadır. Tekrar bütün nitelikler ChiSquaredAttributeEval değerlendiricisiyle uygulamaya konmuştur. Uygulanan araştırma metodu ise Ranker olmuştur. Burada ise bir önceki analizle aynı olarak süre ve önceki çıktı niteliği ortaya çıkmıştır. Farklı olarak ise ay niteliği ortaya çıkmıştır. Kampanyanın müşteriye sunulduğu ayın önemli olması doğaldır. Zira tüketicilerin mevduat teklif edip etmemesi ekonomik durumlarına göre aydan aya değişebilir. Müşteriler Portekiz’de bulunmaktadır dolayısıyla o coğrafyanın kültürü, tatiller, önemli zaman dilimleri vs. harcamalarına yansıyacaktır. Bu durumda elde edilen sonuçların bu yönde yorumlanması sağlıklı olacaktır. Daha sonra bütün nitelikleri birliktelik kuralları analizine sokulmuştur. Burada PredictiveApriori algoritması kullanılmıştır. Çizelge 6.3 Bütün niteliklerin PredictiveApriori algoritması ile analiz edilmesi Kural Doğruluk Meslek= Öğrenci ve Hedef değişken(y)=Evet ise 0.94555 Evlilik durumu= Bekâr Meslek= Girişimci ve Evlilik= Boşanmış ise 0.90195 Hedef değişken(y)= Hayır Burada elde edilen bir kurala göre mesleği öğrenci olanların ve kampanyayı kabul edenlerin büyük oranda bekâr müşteriler olmasıdır. Yine mesleği öğrenci olup boşanmış veya evli olanların yüksek güven aralığında kampanyayı reddettikleri görülmektedir. Daha sonra eğitim düzeyi ile kampanya başarısı PredictiveApriori ile incelenmiş ve aşağıdaki sonuçlara ulaşılmıştır. Burada gerçekleşen analiz Çizelge 6.4’de görüldüğü gibi en yüksek doğruluk oranına sahip kural bile oldukça düşük doğrulukla sonuçlanmıştır (0.55752). 53 Çizelge 6.4 Eğitim düzeyi ile Hedef değişken (y) arasındaki ilişkin PredictiveApriori ile analiz edilmesi Kural Doğruluk Eğitim=Birincil ise Hedef değişken (y) = Hayır 0.55752 Takip eden kısımda konut kredisi, bireysel kredi, yükümlülüğü yerine getirilmeyen kredinin olup olmaması ve kampanya başarısı Apriori yöntemiyle incelenmiştir. Çizelge 6.5 Konut kredisi, bireysel kredi ve yükümlülüğü yerine getirilmeyen kredinin olup olmaması ile y arasındaki ilişkinin Apriori ile analiz edilmesi Kural Güven Bireysel kredi=Yok ve Yükümlülüğü yerine getirilmeyen 0.99 kredi= Yok Bireysel kredi=Yok ve Hedef değişken=Hayır ise Yükümlülüğü 0.99 yerine getirilmeyen kredi=Yok Konut kredisi= Var ve Bireysel kredi= Yok ise Yükümlülüğü 0.99 yerine getirilmeyen kredi=Yok Konut kredisi= Var ise Hedef değişken= Hayır 0.92 Burada anlamlı gözüken kurallardan birisinde konut kredisi kullanan müşterilerin %92 doğrulukla teklifi kabul etmediği görülmektedir. Ödeme şartları genellikle ağır olan konut kredilerini bu sonucu vermesi doğal olarak karşılanmalıdır. Ayrıca bu diğer değişkenlerle beraber yorumlanarak, müşterilerin risk algısıyla ilgili bize bir yorum getirme imkânı sunabilir. Aynı nitelikler PredictiveApriori yöntemiyle ölçüldüğünde aşağıdaki sonuçlar üretilmiştir. 54 Çizelge 6.6 Konut kredisi, bireysel kredi, yükümlülüğü yerine getirilmeyen kredinin olup olmaması ile y arasındaki ilişkinin PredictiveApriori ile analiz edilmesi Kural Doğruluk Konut kredisi=Var ve Bireysel kredi=Var ise Hedef 0.97224 değişken=Evet Yükümlülüğü yerine getirilmeyen kredi= Yok Konut kredisi=Yok ve Bireysel kredi=Var ve Hedef 0.96263 değişken=Evet ise Yükümlülüğü yerine getirilmeyen kredi= Yok En önemli kurallardan biri; hem konut kredisi bulunan hem bireysel krediden faydalanan hem de kampanya teklifini kabul eden müşterilerin yasal takibe girmiş bir borcunun olmamasıdır. Bu müşteriler bankalar için birinci sınıf müşteri olarak nitelendirilebilir. Çizelge 6.1 de görüldüğü gibi müşterilerin büyük çoğunluğunun kampanyayı reddettiği kolaylıkla görülebilir. Bu oran analizlere de yansımaktadır. Model bu şekilde kurulduğu zaman sonuçların sağlıklı olmayacağına kanaat getirilmiş ve müşteri ile görüşme süresini barındıran niteliğin kategorik olarak yeninden düzenlenmesine ve bu niteliğin başarı kıstası olarak alınmasına karar verilmiştir. Çünkü müşteri ile görüşme süresinin artması veri tabanı üzerinde son gerçekleştirilen çalışmada da ifade edildiği gibi kampanya başarısını arttırmaktadır [71]. CRISP-DM yöntemi izlenirken Şekil 4.1’ de görüldüğü üzere modelleme aşamasından tekrar veri hazırlama aşamasına dönülmesi gerekebilir. Bu çerçevede tekrar veri hazırlama aşamasına dönülmüş ve verideki konuşma süresi niteliği kategorik olarak SPSS yazılımı aracılığıyla yeniden düzenlenmiştir; 0-100 saniye arası konuşmalar çok düşük, 101-200 saniye arası konuşmalar düşük, 201-300 saniye arası konuşmalar orta, 301-400 saniye arası konuşmalar iyi, 55 401-500 saniye arası konuşmalar çok iyi, 500 ve daha fazla konuşma süresi mükemmel olarak tanımlanmıştır. Bu işlem sonrası yapılan ilk analiz meslek, konuşma süresi ve evlilik durumu arasındaki ilişkinin PredictiveApriori algoritması ile incelenmesi olmuştur. Çizelge 6.7 Meslek, konuşma süresi ve evlilik durumu durum arasındaki ilişkinin PredictiveApriori algoritması ile analiz edilmesi Kural Doğruluk Meslek=Girişimci ve Konuşma Süresi=Çok iyi ise Evlilik 0.75832 durumu=Evli Bulunan kurallardan bir tanesi yukarıda paylaşılmıştır. Veri tabanı bizlere mesleği girişimci olan ve görüşme süresi uzun olan müşterilerin genelde evli olduğunu söylemektedir. Bu süreçte kullanılan veri tabanı üzerinde kuşkusuz çok daha fazla veri madenciliği uygulaması ve tekniği gerçekleştirilebilmektedir. En başarılı algoritmalar tespit edilebilir, sayısal nitelikler tekrar kategorik olarak düzenlenilebilir ve oldukça çeşitli analizler (kümeleme, sınıflandırma gibi) gerçekleştirilebilir. Çalışma kapsamında yapılan bu analizler yeterli görülmüştür ve burada modelleme aşaması sonlandırılmıştır. 6.3.5 Değerlendirme Kampanya oldukça fazla bir şekilde ret edilmiştir. Günümüz müşterilerinin tele pazarlama konusundaki rahatsızlıkları zaten bilinmektedir [34]. Çağrı merkezi tarafından yapılan her çağrının bir maliyeti vardır. Müşteriler daha iyi tanındıkça hedef müşteri kitlesi oluşturulmalı ve çağrı sayısı azaltılmalıdır. Bu aynı zamanda pazarlama maliyetlerininde azaltılması anlamına gelmektedir. Başarılı çağrılar genelde uzun süreli olduğundan, başarı kıstası olarak konuşma süresi kabul edilmiştir ve veritabanı bundan sonra bu analizlere uygun bir hale 56 getirildikten sonra ilk deneme gerçekleştirilmiştir. Yapılan ilk analizde mesleği girişimci olan ve görüşme süresi uzun olan müşterilerin genelde evli olduğu veya evli ev hanımlarının telefonla konuşma sürelerinin genelde uzun olduğu gibi sonuçlar elde edilmiştir. 6.3.6 Yayılım Veri madenciliği süreklilik isteyen bir süreçtir. Sürecin sağlıklı olarak ilerleyebilmesi için verilerin güncel ve güvenilir bir şekilde saklanması gerekmektedir. Gerçekleştirilen veri madenciliği sürecinin yayılımı için öncelikle müşterilere sunulan öneri üzerinde makul değişiklikler yapılarak yeni bir veri madenciliği süreci başlatılmalı ve elde edilen sonuçlar karşılıklı olarak analiz edilmelidir. Bu yolla banka müşterilerinin reflekslerini daha iyi tanıyacak ve daha işlevsel örüntüler yakalayabilecektir. Burada veri tabanına sahip firma tele pazarlama stratejilerini oluştururken öncelikle konuşma süresini nasıl uzatabileceğine karar vermelidir. Yapılan analizler sonucunda telefon ile uzun konuşan müşterilerin özelliklerine odaklanmalı ve hedef kitlesini buna göre oluşturduktan sonra tele pazarlama kaynaklarını daha çok bu kitleye yönlendirmelidir. Ayrıca bir sonraki aşamada sayısal yapıda olan bazı verileri de yaş örneğinde yapıldığı gibi tekrar gruplayarak yeni birliktelik kurallarının işletilebilir. Süreç gerekli veri düzeltme işlemlerini gerçekleştirmek üzere ve farklı algoritmaların denenmesi suretiyle devam etmelidir. Ayrıca konuşma süresi niteliği temel alınarak bazı sınıflandırma ve kümeleme analizlerinin gelecekte gerçekleştirilerek modelin tazelenmesi gerçekleştirilebilir. 57 7. SONUÇLAR Bu tez çalışmasında veri madenciliğinin kullanım alanları, veri madenciliği teknikleri ve veri madenciliği süreci CRISP-DM yöntembilimine göre özetlenmiştir. Veri madenciliği ve makine öğrenmesi yazılımı WEKA hakkında bilgiler verilmiştir. Doğrudan pazarlama ve tele pazarlama hakkında genel bilgiler verildikten sonra, alan yazında veri madenciliğiyle ilgili farklı çalışmalar anlatılmaya çalışılmıştır. Tele pazarlamada veri madenciliğinin kullanılabilirliği Portekiz’deki bir bankadan sağlanan ikincil veriler aracılığıyla analiz edilerek gösterilmeye çalışılmıştır. Bütün süreç aşama aşama değerlendirilmiş ve süreçte yaşanan her şey özetlenmiştir. Veri madenciliği istatistiksel analizden farklı olarak hipotezlerden yola çıkarak hareket etmediği için sonuçları yorumlamak kolay değildir. Genel bulgular müşterilerin psikografik özellikleri ve yıllık ortalama bakiyeleri müşteriye sunulacak teklifin sonuçlanmasını önceden kestirmede önemli olduğunu göstermektedir. Müşteriye teklifin sunulduğu tarihte bu konuda etkilidir. Daha önce kredi kullanan müşterilerin ve bu kampanyaya olumlu bakan müşterilerin herhangi bir yasal takibi olmaması dikkat çekmiştir. Genel olarak kampanyanın oldukça fazla ret edildiği daha önce de bahsedilen tele pazarlamadaki müşteri tepkisiyle çelişmemektedir. Daha önce aynı veri tabanı üzerinde yapılan çalışmada da belirtildiği gibi konuşma süresinin kampanya başarısında önemli bir nitelik olduğu kabul edilmiş ve konuşma süresi kategorik olarak düzenlendikten sonra bu model kıstas alınarak yeni analizlerin yapılmasına karar verilmiştir. Örnek olarak gerçekleştirilen ilk analizde ise girişimci müşterilerin telefonla istenilen düzeyde konuştuğu ve bunların genelde bekâr olduğu gibi tatmin edici ve bankanın pazarlama stratejilerini aydınlatabilecek sonuçlar elde edilmiştir. İlgili tele pazarlama firmasının konuşma süresi niteliğini baz alarak hedef kitlesini belirlemesine yönelik ve kaynaklarını bu kitleye yöneltmesine yönelik bir yayılım sürecine karar verilmiştir. 58 Bu çalışmada tele pazarlama verilerinin özellikle WEKA aracılığıyla nasıl kullanılabileceğine dair literatüre örnek bir süreç olarak katkıda bulunmuştur. Bu alanda atılım yapmak isteyen işletmeler ve akademisyenler için yol gösterici olacağı umulmaktadır. Çalışma kapsamında sonuçların yorumlanmasında en önemli kısıtlılık verilerin Portekiz’deki müşteriler hakkında olmasıdır. Bu verilerin daha iyi yorumlanabilmesi ve faydalı çıktılar elde edilebilmesi için sonraki çalışmalarda Türkiye’deki bankacılık sektöründen elde edilen verilerin kullanılması ve analizlerin bu veriler üzerinde yapılması önerilmektedir. 59 KAYNAKLAR 1. Frawley, W.J., Piatetsky-Shapiro, G., ve Matheus, C.J., “Knowledge Discovery in Databases: An Overview”, AI Magazine, 13(3): 57-70 (1992). 2. Witten, I., ve Frank, E., “Data Mining: Practical Machine Learning Tools and Techniques, 3rd edition”, Morgan Kaufmann, San Francisco (2011). 3. Hilbert, M. Ve Lopez, P., “The World’s Technological Capacity to Store, Communicate, and Compute Information”, Science, 332(6025):60-65 (2011). 4. Bose, I. ve Mahapatra, R. K., “Business data mining - a machine learning perspective”, Information & Managment, 39: 211-225 (2011). 5. Ngai, E.W.T., Xiu, L. ve Chau, D.C.K., “Application of data mining techniques in customer relationship management: A literature review and classification.”, Expert Systems with Applications, 36: 2592–2602 (2009). 6. Leaming, M., Ferris, B., Wedderburn, A., Meek, J., Binder, S., Mena, J., Pridgen, M., Streeter, R. ve Goodman, M., “Survey of DHS Data Mining Activites”, U.S Deparment of Homeland Security, Washington D.C. (2006). 7. Baykasoğlu, A., “Veri Madenciliği ve Çimento Sektöründe Bir Uygulama”, Akademik Bilişim Konferansı, Gaziantep, 82-83 (2005). 8. Ulaş, M.A., “Market Basket Analysis For Data Mining”, Yüksek Lisans Tezi, Boğaziçi University Institute for Graduate Studies in Science and Engineering, İstanbul (2001). 9. Baykal, A., “Veri Madenciliği Uygulama Alanları”, D.Ü.Ziya Gökalp Eğitim Fakültesi Dergisi, 7:95-107 (2006). 10. Rygielski, C., Jyun-Cheng, W. ve Yen., D. C. “Data mining techniques for customer relationship management”, Technology in Society, 24: 483–502 (2002). 60 11. Ling, C. X. ve Li, C., “Data Mining for Direct Marketing: Problems and Solutions”, The Fourth International Confernece On Knowledge Discovery And Data Mining, New York, (1998). 12. Emel, G.G ve Taşkın, Ç., “Veri Madenciliği Karar Ağaçları ve Bir Satış Analizi Uygulaması”, Eskişehir Osmangazi Üniversitesi SBE Degisi, 6(2): 221239 (2005). 13. Koyuncugil, A., “Borsa Şirketlerinin Risk Bazlı Gözetimine Yönelik Veri Madenciliğine Dayalı Metodoloji ve Sistem Önerisi”, Sermaye Piyasası Kurulu Araştırma Dairesi, Ankara, (2008). 14. Ulaş, M. A., Apaydın, E., Sönmez, N., ve Kalkan, A., “Veri Madenciliğinde Sepet Analizi Uygulamaları”, Bilişim 2001, İstanbul(2001). 15. Vargas-Govea, B., González-Serna, G., ve Ponce-Medellín, R., “Effects of relevant contextual features in the performance of a restaurant recommender system”, 18th ACM Conference on Computer and Communications Security, Chicago, (2011). 16. Küçüksille, E., “Veri Madenciliği Süreci Kullanılarak Portföy Performansının Değerlendirilmesi ve İMKB Hisse Senetleri Piyasasında Bir Uygulama”, Doktora Tezi, Süleyman Demirel Üniversitesi SBE, Isparta, (2009). 17. Akbulut S., “Veri Madenciliği Teknikleri ile Bir Kozmetik Markanın Ayrılan Müşteri Analizi ve Müşteri Segmentasyonu”, Yüksek Lisans Tezi, Gazi Üniversitesi FBE, Ankara (2006). 18. Emel, G. G., ve Taşkın, Ç., “Pazarlama Stratejilerinin Oluşturulmasında Bir Karar Destek Aracı: Birliktelik Kuralı Madenciliği”, Dokuz Eylül Üniversitesi SBE 7(3):30-59 (2005). 61 19. Taşkın, Ç., ve Emel, G. G., “Veri Madenciliğinde Kümeleme Yaklaşımları ve Kohonen Ağları ile Perakendecilik Sektöründe Bir Uygulama” Süleyman Demirel Üniversitesi İİBF Dergisi, 15(3): 395-409(2010). 20. Timor, M. ve Şimşek, U. T., “Veri Madenciliğinde Sepet Analizi ile Tüketici Davranışı Modellemesi”, Yönetim, 59, (2008). 21. Birant, D., Kut, A., Ventura, M., Altınok, H., Altınok, B., Altınok, E. ve Ihlamur, M., “İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi”, Akademik Bilişim’10, Muğla, 256 (2010). 22. Chung, G. ve Grimes, S.M., "Data mining the kids: Surveillance and market research strategies in children's online games" Canadian Journal of Communication, 30(4):527-548 (2005). 23. Kalikov, A., “Veri Madenciliği ve Bir E-Ticaret Uygulaması” Yüksek Lisans Tezi, Gazi Üniversitesi FBE, Ankara (2006). 24. Aydoğan, E.K. ve Gencer, C., “Veri Madenciliği Problemlerinde Kaba Küme Yaklaşımı Kullanılarak Sınıflandırma Amaçlı Yapılmış Olan Çalışmalar”, Kara Harp Okulu Savunma Bilimleri Dergisi, 6(2): 17-32 (2007). 25. Schertel, S.L.,” Data Mining And Its Potential Use In Textiles: A Spinning Mill”, Doktora Tezi, Graduate Faculty of North Carolina State University, North Carolina, (2002). 26. Hui, S.C. ve Jha, G., “Data mining for customer service support“, Information & Management, 38:1-13, (2000). 27. Xiong, T., Wang, S., Mayers, A., ve Monga, E., “Personal bankruptcy prediction by mining credit card data”, Expert Systems with Applications, 40:665-676 (2012). 62 28. Guo, L., “Applying data mining techniques in property/casualty insurance”, Casualty Actuarial Society Forum, Virgina, 1-25 (2003). 29. Lien C., “Revisiting The Problem Of Market Segmentation: A new Approach Using Self-Organizing Maps, A Data Mining Technique, In Database Marketing”, Doktora Tezi, Carleton University Faculty of Graduate Studies and Research, Ottowa, (2005). 30. Liu Y. ve Schumann M., “Data Mining Feature Selection for Credit Scoring Models”, The Journal of the Operational Research Society, 56 (9):1099-1108 (2005). 31. Chen, Y. L., Tang, K., Shen, R. J., ve Hu, Y. H., “Market basket analysis in a multiple store environment” Decision support systems, 40(2): 339-354 (2005). 32. Giudici, P., ve Passerone, G., “Data Mining Of Association Structures To Model Con Sumer Behaviour”, Computational Statistics & Data Analysis, 38:533–541(2002). 33. Ay, D. ve Çil, İ., “Migros Türk A.Ş. de Birliktelik Kurallarının Yerleşim Düzeni Planlamada Kullanılması” Endüstri Mühendisliği Dergisi, 21(2):1429(2008). 34. Kotler P. ve Keller K.L., “Marketing Management, 14th Edition”, Pearson, Upper Saddle River, N.J, 557-561 (2012). 35. Sümer, S. I. ve Eser, Z., “Pazarlama Karması Elemanlarının Evrimi”, Gazi Üniversitesi İİBF Dergisi, 8(1): 165-186 (2006). 36. Chen, M. S., Han, J., ve Yu, P. S., “Data mining: an overview from a database perspective”, Knowledge and data Engineering, IEEE Transactions on, 8(6): 866-883 (1996). 63 37. Nakip, M., Varinli, İ., ve Gülmez, M. Güncel Pazarlama Yönetimi, Detay Yayıncılık, Ankara, (2012). 38. Taylor, P. ve Bain, P., "An assembly line in the head’: work and employee relations in the call centre", Industrial Relations Journal 30(2): 101-117 (1999). 39. Sarıyer, N., “Banka Çağrı Merkezi Pazarının Bölümlendirilmesi -Yozgat İl Merkezi’nde Bir Uygulama”, ZKÜ Sosyal Bilimler Dergisi, 3(6):149162 (2007). 40. Savaş, S., Topaloğlu, N., ve Yılmaz, M., “Veri Madenciliği ve Türkiye'deki Uygulama Örnekleri”, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 21: 1-23 (2012). 41. Shaw, M. J., Subramaniam, C., Tan G. W., ve Melge, W. E., “Knowledge management and data mining for marketing”, Decision Support Systems, 31:127137 (2001). 42. Hand, D.J., “Data Mining: Statistics and More?”, The American Statistician, 52(2): 112-118 (1998). 43. Bhalla, S., ve Bai, Y., “Practical Database Programming With Visual Basic.Net.” , Cambridge University Press, Cambridge, 11-89 (2008). 44. Koyuncugil A.S. ve Özgülbaş N., “Veri Madenciliği: Tıp ve Sağlık Hizmetlerinde Kullanımıve Uygulamaları”, Bilişim Teknolojileri Dergisi, 2(2):21-32 (2009). 45. Aaker D.A., Kumar, V., Day, G.S., ve Leone, R.P., “ Marketing Research, International Student Version, 10th edition”, Wiley, Hoboken, NJ, 618,445 (2011). 46. Korkmaz, S., Işın, F.B., Öztürk, S.A., ve Eser, Z., “ Pazarlama: Kavramlarİlkeler-Kararlar”, Siyasal Kitabevi, Ankara (2009). 64 47. Piatetsky-Shapiro, G., “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop”, AI Magazine, 11(5): 68-70 (1990). 48. Fayyad, U., Piatetsky-Shapiro, G., ve Smyth P., “From Data Mining to Knowledge Discovery in Databases”, AI Magazine 17(3): 37-54 (1996). 49. Akpınar, H., “Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği”, İ.Ü. İşletme Fakültesi Dergisi, 29(11): 1-22 (2000). 50. Zhang, C., ve Zhang, S., “Association Rule Mining, Models and Algorithms”, Springer, Berlin Heidelberg, (2002). 51. Chapman, P., Clınton, J., Kerber, R., Khabaz T., Reinartz, T., Shearer, C. ve Wırth, R. “CRISP-DM 1.0 Step-by-step data mining guide”, SPSS Inc. (2000). 52. Edelstein, H. A., “Introduction to Data Mining and Knowledge Discovery” , Two Crows Corporation, Maryland (1999). 53. Wirth, R., ve Hipp, J., “CRISP-DM: Towards a Standard Process Model for Data Mining” , Proceedings of the Fourth International Conference on the Practical Application of Knowledge Discovery and Data Mining, Manchester, 29-39 (2000). 54. Olson, D. L., ve Delen, D., “Advanced Data Mining Techniques”, Springer, Berlin Heidelberg, (2008). 55. Cešpivová, H., Rauch, J., Svátek, V., Kejkula, M. ve Tomecková, M., “Roles of medical ontology in association mining CRISP-DM cycle”, InECML/PKDD04 Workshop on Knowledge Discovery and Ontologies (KDO’04), Pisa (2004). 56. Özekes, S., ve Çamurcu, A.Y., “Veri Madenciliğinde Sınıflama ve Kestirim Uygulaması”, T.C. Marmara Üniversitesi Fen Bilimleri Dergisi, 18:159-174 (2002). 65 57. Çankırı, S., Kartal E., Yıldırım, K., ve Gülseçen, S., “Organizasyonlarda Bilgi Yönetimi Sürecinde Veri Madenciliği Yaklaşımı”, ÜNAK ’09, İstanbul, 148-167 (2009). 58. Fayyad, U., “Mining Databases: Towards Algorithms for Knowledge Discovery”, Data Engineering, 21(1): 39-48 (1998). 59. Han, J., Kamber, M. ve Pei, J., “Data Mining Concepts and Techniques, 3rd edition”, Morgan Kaufmann, U.S.A (2011). 60. Chiu, S. ve Tavella D., “ Data Mining and Market Intelligence for Optimal Marketing Returns, 1st Edition”, Butterworth Heinemann, San Francisco, 157162 (2008). 61. Telçeken, S., ve Doğan M., “Kaba Kümeler Teorisi Yardımı İle Büyük Veveri Topluluklarının Analizi”, Eleco2004, Bursa, 410-414 (2004). 62. Komorowski, J., Pawlak, Z., Polkowski, L., ve Skowron, A. “Rough sets: A tutorial”, Rough fuzzy hybridization: A new trend in decision-making, 1st Edition, Pal S.K. ve Skowron A., Springer-Verlag, New York, 3-98 (1999). 63. Emel, G. G., ve Taşkın, Ç., “Genetik Algoritmalar Ve Uygulama Alanları”, Uludağ Üniversitesi İİBF Dergisi, 21(1): 129-152 (2002). 64. Tuğ, E., “Genetik Algoritmalar ve Tıbbi Veri Madenciliği”, Yüksek Lisans Tezi, Selçuk Üniversitesi FBE, Konya (2005). 65. Vahaplar, A., ve İnceoğlu, M. M. “Veri Madenciliği ve Elektronik Ticaret”, Türkiye’de İnternet Konferansları, Harbiye İstanbul, 1-3 (2001). 66. Dener, M., Dörterler, M., ve Orman, A., “Açık Kaynak Kodlu Veri Madenciliği Programları: WEKA’da Örnek Uygulama”, Akademik Bilişim’09 – XI, Şanlıurfa, 787-796 (2009). 66 67. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., ve Witten, I. H., “The WEKA data mining software: an update”, ACM SIGKDD Explorations Newsletter, 11(1): 10-18 (2009). 68. İnternet: Kd Nuggets http://www.kdnuggets.com/polls/2013/analytics-big-data-mining-data-sciencesoftware.html 69. İşler, Y., ve Narin A., “WEKA Yazılımında k-Ortalama Algoritması Kullanılarak Konjestif Kalp Yetmezliği Hastalarının Teşhisi”, SDÜ Teknik Bilimler Dergisi, 2(4): 21-29 (2012). 70. İnternet: The UCI Machine Learning Repository http://archive.ics.uci.edu/ml/about.html 71. Moro, S., Laureano, R.M. S., ve Cortez, P., “Using Data Mining For Bank Direct Marketing: An Application Of The CRISP-DM Methodology”, Proceedings of the European Simulation and Modelling Conference ESM'2011, Guimarães, 117-121 (2011). 67 EKLER 68 EK-1 En çok tercih edilen veri madenciliği yazılımları [68] Çizelge 1.1 En çok tercih edilen veri madenciliği yazılımları[68] Son 12 ayda gerçek bir projede hangi Analitik, Büyük veri, Veri madenciliği veya Veri yazılımı kullandınız? [1880 katılımcı] Kullanıcılar Kırmızı punto ücretsiz/açık kaynak kodlu yazılımları göstermektedir. Yeşil punto ticari araçları göstermektedir. % 2013 deki kullanıcılar % 2012 deki kullanıcılar Rapid-I RapidMiner/RapidAnalytics free edition (737), 30.9% 39.2% 26.7% R (704), 6.5% 37.4% 30.7% Excel (527), 0.9% 28.0% 29.8% Weka / Pentaho (269), 5.6% 14.3% 14.8% Python with any of numpy/scipy/pandas/iPython... packages(250), 0% 13.3% 14.9% Rapid-I RapidAnalytics/RapidMiner Commercial Edition (225), 52.4% 12.0% SAS (202), 2.0% 10.7% 12.7% MATLAB (186), 1.6% 9.9% 10.0% StatSoft Statistica (170), 45.9% 9.0% 14.0% IBM SPSS Statistics (164), 1.8% 8.7% 7.8% Microsoft SQL Server (131), 1.5% 7.0% 5.0% Tableau (118), 0% 6.3% 4.4% IBM SPSS Modeler (114), 6.1% 6.1% 6.8% KNIME free edition (110), 1.8% 5.9% 21.8% SAS Enterprise Miner (110), 0% 5.9% 5.8% Rattle (84), 0% 4.5% JMP (77), 7.8% 4.1% 4.0% Orange (67), 13.4% 3.6% 5.3% Other free analytics/data mining software(64), 3.1% 3.4% 4.9% 69 Çizelge 1.1 En çok tercih edilen veri madenciliği yazılımları (Devam) [68] Gnu Octave (54), 0% 2.9% Revolution Analytics R Enterprise (53), 1.9% 2.8% 1.4% Predixion Software (51), 43.1% 2.7% 0.4% KNIME Professional (46), 4.3% 2.4% Revolution Analytics R free edition (46), 2.2% 2.4% IBM Cognos (45), 2.2% 2.4% 2.0% Other commercial analytics/data mining/data science software (45), 0% 2.4% 4.0% QlikView (45), 2.2% 2.4% Salford SPM/CART/MARS/TreeNet/RF(42), 26.2% 2.2% 1.1% Mathematica (39), 0% 2.1% 2.9% Stata (39), 2.6% 2.1% 1.9% KXEN (35), 54.3% 1.9% 1.8% Miner3D (34), 41.2% 1.8% 2.4% SAP (including BusinessObjects/Sybase/Hana) (27), 3.7% 1.4% 0.9% TIBCO Spotfire / S+ / Miner (26), 3.8% 1.4% 4.6% C4.5/C5.0/See5 (21), 0% 1.1% 1.6% Bayesia (19), 15.8% 1.0% 1.8% Oracle Data Miner (19), 5.3% 1.0% 4.4% Zementis (17), 41.2% 0.9% 1.8% XLSTAT (16), 0% 0.9% 0.9% F# (14), 14.3% 0.7% 0.6% RapidInsight/Veera (9), 0% 0.5% 0.6% Teradata Miner (9), 0% 0.5% 0.5% 70 Çizelge 1.1 En çok tercih edilen veri madenciliği yazılımları (Devam) [68] Lavastorm (8), 25.0% 0.4% WordStat (7), 0% 0.4% 0.4% Angoss (6), 16.7% 0.3% 0.9% 11 Ants Analytics (5), 0% 0.3% 0.5% Alteryx (5), 0% 0.3% Megaputer Polyanalyst/TextAnalyst (2), 0% 0.1% 71 EK-2 Nitelik Seçimi analiz sonuçlarının WEKA’daki görünümü Şekil 2.1 Nitelik seçiminin bütün niteliklere CfsSubsetEval ile uygulanması === Run information === Evaluator: weka.attributeSelection.CfsSubsetEval Search:weka.attributeSelection.BestFirst -D 1 -N 5 Relation: bank-full2-weka.filters.unsupervised.attribute.RemoveR18 Instances: 45211 Attributes: 17 age job marital education default balance housing loan contact day month duration campaign pdays previous poutcome y Evaluation mode:evaluate on all training data === Attribute Selection on all input data === Search Method: Best first. Start set: no attributes Search direction: forward Stale search after 5 node expansions Total number of subsets evaluated: 95 Merit of best subset found: 0.082 Attribute Subset Evaluator (supervised, Class (nominal): 17 y): CFS Subset Evaluator Including locally predictive attributes Selected attributes: 3,7,8,12,16 : 5 marital housing loan duration poutcome 72 Şekil 2.2 Nitelik seçiminin bütün niteliklere Chisquaredattributeeval ile uygulanması == Run information === Evaluator: weka.attributeSelection.ChiSquaredAttributeEval Search:weka.attributeSelection.Ranker -T -1.7976931348623157E308 -N -1 Relation: bank-full2-weka.filters.unsupervised.attribute.RemoveR18 Instances: 45211 Attributes: 17 age job marital education default balance housing loan contact day month duration campaign pdays previous poutcome y Evaluation mode:evaluate on all training data === Attribute Selection on all input data === Search Method: Attribute ranking. Attribute Evaluator (supervised, Class (nominal): 17 y): Chi-squared Ranking Filter Ranked attributes: 7725.66922 12 duration 4391.50659 16 poutcome 3516.24129 14 pdays 3061.83894 11 month 1498.63049 1 age 1326.00827 15 previous 1035.71423 9 contact 875.69372 7 housing 836.10549 2 job 529.3653 10 day 503.96 6 balance 350.63271 13 campaign 238.92351 4 education 210.19493 8 loan 196.49595 3 marital 22.7235 5 default Selected attributes: 12,16,14,11,1,15,9,7,2,10,6,13,4,8,3,5 : 16 73 EK-3 Birliktelik Kuralları Analizi Sonuçlarının WEKA’daki Görünümü Şekil 3.1 Bütün niteliklerin PredictiveApriori ile analiz edilmesi PredictiveApriori =================== Best rules found: 1. job=student y=yes 269 ==> marital=single 258 acc:(0.94665) 2. job=entrepreneur marital=divorced 179 ==> y=no 164 acc:(0.90195) 3. job=housemaid marital=divorced 184 ==> y=no 166 acc:(0.89301) 4. job=unknown marital=divorced 17 ==> y=no 16 acc:(0.89172) 5. job=unknown marital=married 203 ==> y=no 182 acc:(0.89044) 6. job=entrepreneur marital=single 238 ==> y=no 211 acc:(0.88653) 7. job=unknown 288 ==> y=no 254 acc:(0.88495) 8. job=retired marital=single 108 ==> y=no 95 acc:(0.88287) 9. job=self-employed marital=divorced 140 ==> y=no 118 acc:(0.8602) 10. job=unemployed marital=divorced 171 ==> y=no 144 acc:(0.8574) 11. job=housemaid marital=single 144 ==> y=no 120 acc:(0.85112) 12. job=student marital=married 54 ==> y=no 44 acc:(0.84226) 13. job=student marital=divorced 6 ==> y=no 5 acc:(0.82215) 14. job=unknown y=no 254 ==> marital=married 182 acc:(0.7245) 15. job=unknown 288 ==> marital=married 203 acc:(0.71582) 74 Şekil 3.2 Eğitim düzeyi ile Hedef değişken (y) arasındaki ilişkin PredictiveApriori ile analiz edilmesi PredictiveApriori =================== Best rules found: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. education=primary 6851 ==> y=no 6260 acc:(0.55752) education=secondary 23202 ==> y=no 20752 acc:(0.52894) education=unknown 1857 ==> y=no 1605 acc:(0.41759) education=tertiary 13301 ==> y=no 11305 acc:(0.38172) y=no 39922 ==> education=secondary 20752 acc:(0.31706) y=yes 5289 ==> education=secondary 2450 acc:(0.23449) y=yes 5289 ==> education=tertiary 1996 acc:(0.1863) y=no 39922 ==> education=tertiary 11305 acc:(0.14981) y=no 39922 ==> education=primary 6260 acc:(0.10672) education=tertiary 13301 ==> y=yes 1996 acc:(0.0982) education=unknown 1857 ==> y=yes 252 acc:(0.08969) y=yes 5289 ==> education=primary 591 acc:(0.0647) education=secondary 23202 ==> y=yes 2450 acc:(0.06033) education=primary 6851 ==> y=yes 591 acc:(0.04043) y=yes 5289 ==> education=unknown 252 acc:(0.03878) y=no 39922 ==> education=unknown 1605 acc:(0.02736) 75 Şekil 3.3 Konut kredisi, bireysel kredi ve yükümlülüğü yerine getirilmeyen kredinin olup olmaması ile y arasındaki ilişkinin Apriori ile analiz edilmesi Apriori ======= Minimum support: 0.4 (18084 instances) Minimum metric <confidence>: 0.9 Number of cycles performed: 12 Generated sets of large itemsets: Size of set of large itemsets L(1): 5 Size of set of large itemsets L(2): 7 Size of set of large itemsets L(3): 4 Size of set of large itemsets L(4): 1 Best rules found: 1. loan=no 37967 ==> default=no 37453 conf:(0.99) 2. loan=no y=no 33162 ==> default=no 32685 conf:(0.99) 3. housing=yes loan=no 20763 ==> default=no 20461 conf:(0.99) 4. housing=yes loan=no y=no 19093 ==> default=no 18813 conf:(0.99) 5. housing=yes 25130 ==> default=no 24695 conf:(0.98) 6. housing=yes y=no 23195 ==> default=no 22789 conf:(0.98) 7. housing=no 20081 ==> default=no 19701 conf:(0.98) 8. y=no 39922 ==> default=no 39159 conf:(0.98) 9. housing=yes 25130 ==> y=no 23195 conf:(0.92) 10. default=no housing=yes 24695 ==> y=no 22789 conf:(0.92) 76 Şekil 3.4 Konut kredisi, bireysel kredi, yükümlülüğü yerine getirilmeyen kredinin olup olmaması ile y arasındaki ilişkinin PredictiveApriori ile analiz edilmesi PredictiveApriori =================== Best rules found: 1. housing=yes loan=yes y=yes 265 ==> default=no 258 acc:(0.97224) 2. housing=no loan=yes y=yes 219 ==> default=no 211 acc:(0.96263) 3. default=yes housing=no loan=yes 168 ==> y=no 160 acc:(0.94799) 4. default=yes housing=yes loan=yes 133 ==> y=no 126 acc:(0.94245) 5. default=yes housing=no loan=no 212 ==> y=no 197 acc:(0.928) 6. default=yes housing=yes y=yes 29 ==> loan=no 22 acc:(0.76272) 7. default=yes y=yes 52 ==> loan=no 37 acc:(0.69879) 8. housing=no loan=no y=yes 3135 ==> default=no 3120 acc:(0.62926) 9. housing=no y=yes 3354 ==> default=no 3331 acc:(0.61872) 10. loan=no y=yes 4805 ==> default=no 4768 acc:(0.61548) 11. y=yes 5289 ==> default=no 5237 acc:(0.61456) 12. housing=no loan=no 17204 ==> default=no 16992 acc:(0.61455) 13. loan=no 37967 ==> default=no 37453 acc:(0.61455) 14. housing=yes 25130 ==> default=no 24695 acc:(0.61454) 15. y=no 39922 ==> default=no 39159 acc:(0.61454) acc:(0.52663) 77 Şekil 3.5 Meslek, konuşma süresi ve evlilik durumu durum arasındaki ilişkinin PredictiveApriori algoritması ile analiz edilmesi === Run information === Scheme: weka.associations.PredictiveApriori -N 100 -c -1 Relation: Durationweka.filters.unsupervised.attribute.Remove-R1,4-17 Instances: 45211 Attributes: 3 job marital Duration_kategorik === Associator model (full training set) === PredictiveApriori =================== Best rules found: 1. job=student Duration_kategorik=Düþük 292 ==> marital=single 278 acc:(0.9486) 2. job=student Duration_kategorik=Orta 193 ==> marital=single 184 acc:(0.94777) 3. job=student Duration_kategorik=Çok Ýyi 57 ==> marital=single 54 acc:(0.94095) 4. job=student Duration_kategorik=Ýyi 90 ==> marital=single 83 acc:(0.93289) 5. job=student Duration_kategorik=Mükemmel 92 ==> marital=single 84 acc:(0.92726) 6. job=student Duration_kategorik=Çok Düþü 214 ==> marital=single 195 acc:(0.92015) 7. job=entrepreneur Duration_kategorik=Çok Ýyi 78 ==> marital=married 63 acc:(0.75832) 8. job=retired Duration_kategorik=Ýyi 252 ==> marital=married 194 acc:(0.75385) 9. job=housemaid Duration_kategorik=Orta 187 ==> marital=married 140 acc:(0.74076) 10. job=retired Duration_kategorik=Çok Ýyi 150 ==> marital=married 112 acc:(0.73856) 11. job=unknown Duration_kategorik=Çok Düþü 87 ==> marital=married 65 acc:(0.7341) 12. job=housemaid Duration_kategorik=Ýyi 110 ==> marital=married 81 acc:(0.73127) 13. job=entrepreneur Duration_kategorik=Orta 246 ==> marital=married 177 acc:(0.72419) 14. job=housemaid Duration_kategorik=Çok Ýyi 53 ==> marital=married 39 acc:(0.71776) 15. job=unknown 288 ==> marital=married 203 acc:(0.71365) 78 ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, adı : AYTAÇ, Muhammed Bilgehan Uyruğu : T.C. Doğum tarihi ve yeri : AKSARAY 24/07/1989 Medeni hali : Bekâr Telefon : 0 382 288 24 01 Faks : 0 382 288 2398 e-mail : bilgehanaytac@gmail.com Eğitim Derece Eğitim Birimi Mezuniyet tarihi Yüksek lisans Gazi Üniversitesi/Yönetim Bil. Sis. 2013 Lisans Gazi Üniversitesi/İşletme Bölümü 2011 Lise Cumhuriyet Anadolu Lisesi 2007 Yıl Yer Görev 2012 Aksaray Üniversitesi Araştırma Görevlisi İş Deneyimi Yabancı Dil İngilizce Hobiler Basketbol, Müzik, Roman