BİRLİKTELİK KURALLARI VE UYGULAMALARI: LİTERATÜR TARAMASI (2000-2014) Doç. Dr. Namık Kemal ERDOĞAN* - Araş. Gör. Bayezid GÜLCAN** - Araş. Gör. Çağlar KARAMAŞA*** Özet Günümüz iş ortamında en değerli varlık olan bilgiye büyük miktardaki veri yığını arasından ulaşılmasını sağlayan veri madenciliği firmaların başarısında önemli bir yer tutmaktadır. Veri madenciliği tekniklerinden olan birliktelik kuralları ise veri tabanlarında yığın halinde olan bilgi yada kayıtlar arasındaki bağlantıyı açıklayan işlemler dizisidir. Birliktelik kuralı madenciliği çalışmalarının internetin genel kullanıma açıldığı 2000’den 2014 yılına kadar nasıl bir değişim gösterdiğinin incelenmesi amacıyla bu çalışmada yazın taraması gerçekleştirilmiştir. Anahtar kelime indisleri ve makale özetlerinden yararlanarak birliktelik kuralları ile ilişkili sayıda akademik dergiden sayıda makaleye ulaşılmıştır. Ayrıca birliktelik kuralı madenciliği uygulamalarına yönelik gelecekte yapılabilecek düzenlemeler tartışılmıştır. Anahtar kelimeler: Veri Madenciliği, Literatür Taraması, Birliktelik Kuralları, Birliktelik Kuralları Uygulamaları Abstract Data mining which enables discovering information from data, the most valuable asset in today’s business environment, plays important role for firms. Association rule, a data mining technique, is a sequence of operations that considers relation between information or records stacked in data bases. This paper analyses the change of association rule mining applications through literature review from 2000, starting period of general Internet usage, to 2014. For the period from 2000 to 2014 articles were found from journals with usage of keyword indices and article abstracts. Furthermore future arrangements towards association rule mining applications was discussed. Keywords: Data Mining, Literature Review, Association Rules, Association Rules Applications 1.Giriş Günümüz toplumunda bilgisayar ve iletişim teknolojilerinde yaşanan ilerlemeler büyük miktarda verinin depolanıp işlenmesini zorunlu hale getirmiştir. Bilgi hacimi ve dolayısıyla veri tabanındaki olağanüstü artış bilgiyi zeki biçimde kullanan teknolojilerin geliştirilmesini gerekli kılmıştır. Karar vericilerin toplanan büyük miktardaki verilerden yararlanma ve nihai ürün olan bilgiyi elde etmede konusunda veri madenciliği önemli bir araştırma disiplini haline gelmiştir (Fayyad, Djorgovski ve Weir, 1996). Veri madenciliği değerli bilginin elde edilmesi için büyük miktardaki verinin incelenmesine olanak sağlar (Weiss ve Indurkhya, 1998). Verilerin nitelikli biçimde analiz edilip gizli örüntülerin ortaya çıkarılmasını sağlayan veri madenciliği veriyi pratik hale dönüştürerek eylem planları oluşturur (Ay ve Çil, 2010). Veri madenciliğinin tanımlayıcı modellerinden olan birliktelik kuralları büyük miktardaki veriler arasındaki ilginç örüntüleri bulmada yararlanılan tekniklerden birisidir. Literatürde pazar sepeti analizi olarak da adlandırılan birliktelik kuralları birlikte satın alınma eğilimi olan ürünlere ilişkin bilgi sağlamakta ve müşterilerin çapraz satın alma davranışları hakkında bilgi vermektedir (Yang ve Lai, 2006). * Anadolu Üniversitesi İktisadi ve İdari Bilimler Fakültesi İşletme Bölümü, nkerdoga@anadolu.edu.tr Karamanoğlu Mehmetbey Üniversitesi İktisadi ve İdari Bilimler Fakültesi İşletme Bölümü, bgulcan@kmu.edu.tr *** Anadolu Üniversitesi İşletme Fakültesi İşletme Bölümü, ckaramasa@anadolu.edu.tr ** Bu çalışmada internetin genel kullanıma açıldığı 2000’den 2014 yılına kadar olan dönemde birliktelik kuralı madenciliği çalışmalarının nasıl değişim gösterdiği literatür taraması yoluyla incelenmiştir. Bu amaçla anahtar kelime indisleri ve makale özetlerinden yararlanarak beş elektronik veritabanı ( EbscoHost, Elsevier SCOPUS, SpringerLink, Ieeexplore ve WileyInterscience) üzerinde literatür taraması gerçekleştirilmiştir. Öncelikle birliktelik kuralı ifadesini içeren makale özetleri bulunmuş daha sonrasında ise birliktelik kuralı uygulamaları anahtar kelimesiyle ilişkili olacak şekilde filtreleme yapılmıştır. 2.Birliktelik Kuralları Birliktelik kuralları verideki güçlü birliktelik özelliklerini tanımlayan örüntüleri keşfetmek için kullanılan bir analiz yöntemidir. Keşfedilmiş olan örüntüler, özel olarak çıkarılan kurallar veya özellik alt grupları şeklinde temsil edilebilir. Araştırma uzayının üssel büyüklüğünden dolayı birliktelik analizinin amacı önemli örüntülerin (affinity) analizi olarak da anılır. Bu teknik genellikle diğer olayların meydana gelişi verildiğinde belirli bir olayın ortaya çıkışının olasılıklarını veya meyillerinin ölçülmesiyle ilgilidir. Bu metodolojiler veritabanındaki tüm olası ilginç örüntülere erişir. Tüm noktaları incelemesi bu yöntemin olumlu yanını gösterirken, büyük miktardaki yeni bilgi altında analizin zor ve zaman alıcı olması bu yöntemin olumsuz yanıdır. Birliktelik kuralları veri öğeleri arasındaki ilişkileri göstermek için kullanılır. Birliktelik kuralları açısından süpermarket nakit kayıt işlemlerine yönelik veriler aşağıdaki tabloda gösterilmiştir. Tablo 1. Birliktelik Kurallarını Göstermek İçin Örnek Veri Seti İşlem/Hareket Elemanlar t1 t2 t3 t4 t5 Ekmek, Jöle, Yerfıstığı yağı Ekmek, Yerfıstığı yağı Ekmek, Süt, Yerfıstığı yağı Bira, Ekmek Bira, Süt Kaynak:Dunham, 2003 Özel kural formundaki bu kurallar sol ve sağ kısım olmak üzere birbiriyle bağlantılı iki kısımdan oluşur. Bu iki kısımda yapılan iş veya nesneler yer alır ve veriler arasındaki ilişkiler eğer-sonra ifadeleri vasıtasıyla gösterilir. Eğer kısmı ile ilgili durumlar öncül ve sonra kısmı ile ilgili durumlar sonuç olarak ifade edilir (Tüzüntürk, 2010:82). Birliktelik kurallarında önemli olan konu gürültülü veriden değerli bilgiyi ayırt etmeyi sağlayan eşik değerini bulmaktır. Bu amaçla ilginç birliktelik kurallarından ilginç olmayanları ayırmak için destek (support) ve güven (confidence) adı verilen iki önemli ölçütten faydalanılır (Dolgun ve Zor, 2006). Pazar sepet analizi için ürünlerin satın alınıp alınmamasına yönelik verilerin olması durumunda ürünler arasındaki ilişkiler destek ve güven ölçütleri yardımıyla bulunur. Büyük destek ve güvenilirlik ölçütleri ilginç kurallar için ön koşuldur (Tuğ ve Bulun, 2006). Güvenilirlik kuralın gücünü ölçerken destek ise kuralın veritabanında ne kadar sıklıkla görüldüğünün bulunmasında kullanılır. Tipik olarak büyük güvenilirlik ve küçük destek değerleri kullanılır (Dunham, 2003). Tablo 1’de bulunan elemanların tüm alt kümelerinin destek değerleri Tablo 2’de gösterilmiştir. Tablo 2’de beş elemandan oluşan orijinal kümeden 31 tane eleman kümesi elde edildiği görülmektedir. Tablo 2. Tablo 1’deki elemanların tüm kümelerinin destek değerleri Küme Destek Değeri Bira 40 Ekmek 80 Jöle 20 Süt 40 Yerfıstığı yağı 60 Bira, Ekmek 20 Bira, Jöle 0 Bira, Süt 20 Bira, Yerfıstığı yağı 0 Ekmek, Jöle 20 Ekmek, Süt 20 Ekmek, Yerfıstığı yağı 60 Jöle, Süt 0 Jöle, Yerfıstığı yağı 20 Süt, Yerfıstığı yağı 20 Bira, Ekmek, Jöle 0 Bira, Ekmek, Süt 0 Bira, Ekmek, Yerfıstığı yağı 0 Bira, Jöle, Süt 0 Bira, Jöle, Yerfıstığı yağı 0 Bira, Süt, Yerfıstığı yağı 0 Ekmek, Jöle, Süt 0 Ekmek, Jöle, Yerfıstığı yağı 20 Ekmek, Süt, Yerfıstığı yağı 20 Jöle, Süt, Yerfıstığı yağı 0 Bira, Ekmek, Jöle, Süt 0 Bira, Ekmek, Jöle, Yerfıstığı yağı 0 Bira, Ekmek, Süt, Yerfıstığı yağı 0 Bira, Jöle, Süt, Yerfıstığı yağı 0 Ekmek, Jöle, Süt, Yerfıstığı yağı 0 Bira, Ekmek, Jöle, Süt, Yerfıstığı yağı 0 Kaynak:Dunham (2003) Birliktelik kuralları oluşturulurken öncelikle minimum destek eşik değerini sağlayan sık nesne kümeler bulunur daha sonrasında ise bu nesne kümeleri kullanılarak minimum güvenilirlik eşik değerini sağlayan ilginç kurallar bulunur. Birliktelik kurallarının oluşturulmasında karşılaşılan en önemli problem sık geçen nesne kümelerinin fazlalığı olup bu durum birliktelik kurallarında yararlanılan algoritmaların performansını belirler (Ay ve Çil, 2008).Birliktelik kuralı algoritmalarının verimliliği veritabanı için gerekli olan taranma sayısı ve sayılması gereken eleman kümelerinin maksimum sayısı ile ilişkilidir. Birliktelik kurallarının bulunmasına yönelik en yaygın yaklaşıma göre ilk önce gerçekleşme sayısı bir eşik değerinin üzerinde olan büyük eleman kümeleri bulunur. Daha sonrasında ise bu eleman kümelerinden kurallar oluşturulur. Büyük eleman kümelerinin sayısının üstel olarak artmasından dolayı birliktelik kuralı problemini çözme sorunu genellikle tüm büyük eleman kümelerinin nasıl verimli şekilde belirleneceği ile ilişkilidir. Birçok birliktelik kuralı algoritması sayılacak eleman kümelerinin sayısını azaltmak için akıllı yollara dayalı olarak ortaya konulmuştur (Dunham, 2003). Aşağıda tablo 1’deki veri setinden elde edilen bazı birliktelik kuralları için bulunan destek ve güvenilirlik değerleri gösterilmektedir: Destek değeri (s) Güvenilirlik değeri Ekmek Yerfıstığı yağı %60 %75 Ekmek %60 %100 %20 %50 %20 %33,3 %20 %100 %0 %0 Yerfıstığı yağı Ekmek Yerfıstığı yağı Jöle Jöle Yerfıstığı yağı Jöle Süt Bira ( ) Kaynak:Dunham, 2003 Birliktelik kurallarının güçlü yönleri açık ve anlaşılır sonuçlar üretmesi, yönlendirilmemiş veri madenciliğini desteklemesi, çeşit sayısı fazla ve büyük miktardaki veri üzerinde çalışabilmesi, hesaplamaların anlaşılma kolaylığı olurken zayıf yönleriyse problem boyutunun hesaplama karmaşıklığı nedeniyle artması, doğru özellik sayısının bulunmasındaki güçlük, nadir görülen özelliklerin göz ardı edilmesi olarak sıralanmaktadır. Birliktelik kurallarına ilişkin modelde kümesine nesneler kümesi denmekte ve i’ler nesneleri oluşturmaktadır. İşlemler kümesi olarak adlandırılan D veri tabanındaki tüm hareketleri gösterirken bir işlemdeki ürünleri gösteren T ise ürünlerin her bir hareketini simgeler. TID her hareketi ifade eden belirteçtir. I kümesindeki bazı iş yada nesneler seti olan A için bir T işlemler kümesi burada ise T, A’yı kapsıyor denilir. Birliktelik kuralı , ve biçiminde tanımlanabilir ve olmaktadır. Birliktelik kuralları oluşturulurken kuralların ilginçliğini ve ilgililiğini ifade eden destek ve güven ölçütleri belirlenir. kuralının destek değeri ’nin D işlemler kümesinde bulunma olasılığı iken kuralının güven değeri D işlemler kümesinde A’yı içeren işlemlerin B’yi de içerme olasılığıdır (Agrawal, 1994). Başka bir ifade ile kuralı için destek gösterilebilir: ve güvenilirlik değerlerine yönelik formüller aşağıdaki biçimde Destek değeri: P(A ve B)= A ve B mallarını satın alan müşteri sayısı/ Toplam müşteri sayısı Güvenilirlik değeri : P(A/B)= P(A ve B)/P(A)= A ve B mallarını satın alan müşteri sayısı/ A malını satın alan müşteri sayısı Birliktelik kuralları oluşturmada ele alınan yönteme göre her sık nesne kümesi I ve boş olmayan altkümeleri için minimum destek ve güvenilirlik eşik değerini sağlayan biçiminde olası kurallar oluşturulur (Han ve Kamber, 2006). Güvenilirlik değeri %100 olduğu durumlarda kurallar kesin kural adını almakta ve bütün veri analizlerinde doğru olmaktadır. Birliktelik kuralı madenciliğine yönelik geliştirilen algoritmalara örnek olarak AIS, SETM, Apriori, Partition, RapidAssociaitonRuleMining (RARM), CHARM verilebilir. Bunlar arasında en yaygın kullanılan ise önsel (Apriori) algoritmasıolmaktadır (Özçakır ve Çamurcu, 2007). 3. Yazın Taraması Yapılan literatür taraması sonucunda çeşitli kriterler açısından (makale sayısı, uygulandığı disiplinler, çözümde kullanıldığı problem türleri ve yararlanılan algoritma yapıları) elde edilen sonuçlar aşağıdaki tablolarda gösterilmektedir: Tablo 4. 2000-2014 yılları arasındaki birliktelik kurallarına yönelik yapılan makale sayısı Anahtar Kelime: Birliktelik Kuralları 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 Makale Sayısı 0 0 0 1 0 0 0 2 1 3 0 1 2 3 2 Tablo 5. Birliktelik kurallarının uygulandığı disiplinler Disiplinler Telekomünikasyon Ulaştırma Deniz balıkçılığı Yazarlar Li (2009) Lanka ve Jena (2014) Su, Zhou ve Shi (2004) Tablo 6. Birliktelik kurallarının çözümde kullanıldığı problem türleri Problem türleri Trafik kaza hacminin tahmini Yazarlar Zhou vd. (2009) Tablo 7. Yararlanılan algoritma yapıları Algoritma yapıları Bulanık kümeleme üzerinde sayısal birliktelik kuralı algoritması Yazarlar Li (2009) 4.Sonuç Veri madenciliği uygulamaları kâr amacı güden veya gütmeyen sanayi ve hizmet sektöründe çok geniş bir kullanım olanağına sahiptir. İçerisinde birçok farklı yöntem ve teknik barındıran veri madenciliği konularından birisi de birliktelik kurallarıdır(association rules). Müşteri ilişkileri yönetimi(CRM) denilince akla ilk gelen müşteriyi ve alışkanlıklarını çok iyi tanıyıp uzun vadeli ilişkileri yönetmek akla gelir. Müşteri satın alma alışkanlıklarından perakendecilik dâhilinde sepet analizi gibi alanlarda birliktelik kurallarının teşkili ve bunlara dayalı olarak bilgi üretimi ve bu bilginin yönetsel kararlarda kullanımı çok verimli bir yoldur. Fakat görülmektedir ki alan yazında çalışma sayısı kısıtlıdır. Türkiye’deki akademik çalışmalarda veri madenciği tekniklerinin ve bu tekniklerden birliktelik kurallarının kullanımı çok yoğun değildir. Fakat tekniğin sağlayabileceği faydalar göz önüne alındığında bu tekniğin piyasada kullanımı çok önem arzetmektedir. Bu çalışmada buna dikkat çekilmek istenmiştir. Kaynaklar Agrawal, R.,Srikant, R. (1994) Fastalgorithmsforminingassociationrules, Proceedings of the 20th VLDB Conference, Santiago, pp.487-499. Ay, D. ve Çil, İ. (2010) Migros Türk A.Ş.’de Birliktelik Kurallarının Yerleşim Düzeni Planlamada Kullanılması, Endüstri Mühendisliği Dergisi, 21(2), 14-29. Dolgun, M.Ö. ve Zor, İ. (2006) Bir Alışveriş Merkezinden Yapılan Satışlar İçin Sepet Analizi, www.spss.com.tr/bilisim06_dosyalar/muhsin_ozgur_dolgun.pdf. Dunham, M. H. (2003) Data Mining: Introductoryand Advanced Topics, PrenticeHallPublication. Han, J., Kamber, M. (2006) Data Mining: ConceptsandTechniques, Morgan KaufmannPublishers, pp. 105-259. Lanka, S ve Jena, S.K. (2014) A Study on Time BasedAssociationRuleMining on Spatial-Temporal Data forIntelligentTransportation Applications, First International Conference on Networks&Soft Computing, 395-399. Li, Q. (2009) An Algorithm of QuantitativeAssociationRule on Fuzzy Clustering with Application to Cross-selling in TelecomIndustry, International Joint Conference on ComputationalSciencesandOptimization, 759-762. Timor, M.,Ezerçe, A. ve Gürsoy, U.T. (2011) Müşteri Profili ve Alışveriş Davranışlarını Belirlemede leKümeleme ve Birliktelik Kuralları Analizi: Perakende Sektöründe Bir Uygulama, Yönetim, 22(68), 128-147. Timor, M. ve Şimşek, U.T. (2008) Veri Madenciliğinde Sepet Analizi ile Tüketici Davranışı Modellemesi, Yönetim, 19(59), 3-10. Liao, S.,Chu, P. ve Hsiao, P. (2012) Data miningtechniquesandapplications- A decadereviewfrom 2000 to 2011, ExpertSystemswith Applications, 39, 11303-11311. Özçakır, F.C. ve Çamurcu, A.Y. (2007) Birliktelik Kuralı Yöntemi İçin Bir Veri Madenciliği Yazlımı Tasarımı ve Uygulaması, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 6(12), 21-37. Su, F.,Zhou, C. ve Shi, W. (2004) Geo-eventassociationruleDiscovery model based on rough set withmarinefisheryapplication, Weiss, S.H. ve Indurkhya, N. (1998) Predictive Data Mining: A Practical Guide. San Francisco, CA: Morgan KaufmannPublishers. Yang, T.C.,Lai, H. (2006) Comparison of Product BundlingStrategies on DifferentOnline ShoppingBehaviors, Electronic Commerce Researchand Applications, 4(5), 295-304. Tuğ, E. ve Bulun, M. (2006) Tıbbi Veri Tabanlarında Gizli Bilgilerin Keşfedilmesi, www.tbd.org.tr Fayyad, U.,Djorgovski, S.G. ve Weir, N. (1996) Automatingtheanalysisandcataloging of skysurveys. In U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, ve R. Uthurusamy (Eds.), Advances in Knowledge Discoveryand Data Mining (pp.471-494). Cambridge, MA: MIT Press. Zhou, H.,Mabu, S., Mainali, M.K., Li, X., Shimada, K. ve Hirasawa, K. (2009) GeneralizedAssociation RulesMiningwith Multi-Branches: Full PathsandIts Application toTraffic Volume Prediction, ICROSSICE International Joint Conference, 147-152.