1. VERİ MADENCİLİĞİNE GİRİŞ 1.1 Veri Madenciliği Nedir? Bilgisayar sistemleri, her geçen gün ucuzlaması ve güçlerinin giderek artması nedeniyle yaşamın her alanına hızla girmektedir. İşlemcilerin hızlanması, disk kapasitelerinin artması, bilgisayar ağlarındaki ilerleme sonucu her bir bilgisayarın başka bilgisayarlardaki verilere ulaşması olanağı, bilgisayarların çok büyük miktardaki verileri saklayabilmesine ve daha kısa sürede işleyebilmesine olanak sağlamaktadır. Teknolojinin büyük hızla gelişmesi sonucu bu şekilde durmadan büyüyen ve işlenmediği sürece değersiz gibi görünen veri yığınları oluşmaktadır. Bu veri yığınlarını, içlerinde altın madenleri bulunan dağlara benzetmek mümkündür. Bu madenlere ulaşmak için kullanılan yöntem ise, temelinde istatistik uygulamaları yatan “VERİ MADENCİLİĞİDİR”. Veri madenciliği en basit tanımı ile çok büyük miktardaki ham veriler içinden amaca uygun modellerin ortaya çıkarılması işlemidir. Başka bir tabirle karmaşık ve düzensiz veriler içindeki modellerin ortaya çıkarıp bunları karar verme ve eylem planını gerçekleştirmek için kullanma sürecidir. Veri içersindeki gizli bilgilerin açığa çıkarılması ve verinin karar destek tabanlı bilgiye dönüştürülmesi süreci. Verileri kaydetmek, yalnızca maden yataklarının yerlerini tespit etmektir. Bu veriler operasyonel amaçlarla kullanılırsa (satış rakamları ile ilgili raporlar hazırlamak, muhasebe işlemlerini yürütmek gibi) müşteri ilişkileri açısından bir çöp olmaktan ileriye gidemezler. Veri çöplüğünden kurtulup değerli bir veri madenine sahip olmak için elimizdeki bu bilgileri değerlendirmemiz şarttır. Bir altın madeninde kazı yapacak olsanız, altını çıkarmak için ekonomik değeri olmayan bir sürü madde içerisinden altını çıkartmanız, ve çıkardığınız bu altını işleyerek ona değer katmanız gerecektir. Bir veri madeninde değerli bilgiler ararken de durum pek farklı değil, gerekli bilgiyi çıkarıp, daha sonrasında da bu bilgiyi işlemek için stratejiler uygulamazsak sonuca ulaşmamız mümkün değil Veri madenciliği tanımlarda öne çıkan noktalar şunlardır: Veri Madenciliği; 1- Büyük ve karmaşık verilerle çalışır. 2- Her türlü veriyi kullanarak çözümler üretebilir. 3- İstatistik, yapay zeka, makine öğrenmesi, Veri tabanlarında bilgi keşfi, bilgisayar bilimi, yapı tanıma vb. gibi disiplinlerden faydalanır. 4- Daha önceden bilinmeyen, doğrulanabilir, etkinleştirilebilir enformasyon arar. 5- Otomatik veya yarı otomatik olarak çalışan çözüm araçları kullanır. 6- Birçok endüstride kullanılmaktadır. 7- Sorunlara göre değişen çözüm araçları vardır. -1- 8- Hızla büyümekte olan bir sektördür. 1.2 Veri Madenciliğinin Tarihçesi İnsanoğlu geçmişten bugüne her zaman verileri yorumlayıp bilgi edinmeye çalışmıştır ve bunun için çeşitli donanımlar oluşturmuştur. Bu donanımlar bilginin taşınmasını sağlamıştır. Zamanla her alanda bilgi toplanmaya başlanmış ve kronolojik olarak gelişimi aşağıdaki çizelgede özetlenmiştir. (Çizelge aldana 2000’den alınmıştır) 1.3 Veri madenciliğine neden ihtiyaç duyulmuştur? Günümüzde bankacılık, sigorta ve borsa gibi birçok alandaki bütün bilgiler bilgisayar sistemleri sayesinde çeşitli veri tabanlarına kaydedilmektedir. Bütün bunlara bir de uydulardan elde edilen veriler katıldığından, ulaşılan veri hacminin inanılmaz boyutlara vardığı açık bir gerçektir. Veri madenciliği,eldeki yapısız veriden,anlamlı ve kullanışlı bilgiyi çıkarmaya yönelik çalışmalarının bütünü olmuştur.Sonuç olarak yıllar ilerledikçe ortaya çıkan veri yığınlarına bir düzen verme,başka bir anlamda potansiyel olarak kullanışlı bilgi haline getirme amacıyla Veri Madenciliği ortaya çıkmıştır. 1.4 Veri madenciliğinin kullanıldığı sahalar Satış ve Pazarlama: Müşteri sınıflandırma, hedef müşteri belirleme Bankacılık: Kredi onaylama Sigortacılık: Poliçe onaylama Borsa Üretim ve planlama Sistem yönetimi ve yardım masası Eğitim Taşımacılık-Ulaşım Konaklama -2- 1.5 Veri Madenciliğinin Faydaları Veri madenciliği rekabetin oldukça güçlendiği piyasalarda, firmaların konumlarını sağlamlaştırmak adına birtakım değerlerinin yönetilmesinde büyük rol oynamaktadır. Bu değerlerin başında müşteri bilgileri gelmektedir. Maddeler halinde veri madenciliğinin faydalarından bahsetmek gerekirse.. Müşterilerin elde tutulmasına yardımcı olur. Müşteri profilinin ortaya çıkarılmasını sağlar, bu sayede müşteri davranışlarının anlaşılmasını sağlar. Müşteri kazanımı için yapılan harcamaları düşürür. Yüksek kazanç getirecek müşterilerin hedeflenmesine yardımcı olur. Yapılan araştırmalarda daha kolay yöntemler kullanılması ile yapılan harcamalar minimize edilmiş olur. Araştırma maliyeti kullanılan istatistiksel yöntemlerle hissedilir derecede düşürülür. Sigortacılık, bankacılık ve telekomünikasyon alanlarında geçmiş veriler kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranışlar gösterenleri belirleme konusunda veri madenciliğinin önemli rollerinin olduğunu söyleyebiliriz. Örnek; Araba sigortası, sağlık sigortası, kredi kartı başvurusu yapanların geçmiş alışkanlıklarının incelenerek başvurunun kabul edilmesi veya reddedilmesi gibi. 1.6 Veri Madenciliğindeki Problemler Veri madenciliği girdi olarak ham veriyi sağlamak üzere veri tabanlarına dayanır. Bu da veri tabanlarının dinamik, eksiksiz, yeterli sayıda ve net veri içermemesi durumunda sorunlar doğurur. Sınıflandırmak gerekirse başlıca sorunlar şunlardır: Sınırlı bilgi Veri tabanı boyutu Aykırı ve eksik veriler Sınırlı Bilgi: Veri tabanları genel olarak basit öğrenme işlerini sağlayan özellik veya nitelikleri sunmak gibi amaçlar için hazırlanmışlardır. Bu yüzden, öğrenme görevini kolaylaştıracak bazı özellikler bulunmayabilir. Örneğin, hasta veri tabanı kırmızı kan hücreli hasta bilgilerini barındırmıyorsa hasta veri tabanından sıtma teşhisi yapılamaz. Veri tabanı boyutu: Veri tabanı boyutları inanılmaz bir hızla artmaktadır. Veri tabanı algoritması çok sayıda küçük örneklemi ele alabilecek biçimde geliştirilmiştir. Aynı algoritmaların yüzlerce kat büyük örneklemlerde kullanılabilmesi için çok dikkat gerekmektedir. Örneklemin büyük olması, tahminlerin doğruluğu açısından bir avantaj olsa da dikkatsizlikten kaynaklanacak hatalar göz ardı edilemez. Aykırı veri: Veri girişi veya veri toplanması sırasında oluşan sistem dışı hatalara gürültü adı verilir. Verilerde ne kadar çok gürültü varsa o derece güvenilir sonuçlara ulaşmak zorlaşacaktır. Bu gürültüler geleceğe dair tahminlerin doğruluğunun azalmasına neden olur. Gürültülü verilerden kurtulmak için yanlış, çok fazla ya da çok küçük araştırmalara dair tutarsız bilgiler yerine anlamlı, özümsenmiş bilgiler kullanılmalıdır. Gürültülü verilerin teşhis edilmesi amacıyla histogram, kümeleme analizi ve regresyon kullanılır. -3- Eksik veri: Veri kümesinin büyüklüğünden ya da doğasından kaynaklanmaktadır. Eksik veriler olduğunda yapılması gerekenler şunlardır: Eksik veri içeren kayıt veya kayıtlar çıkarılabilir. Değişkenin ortalaması eksik verilerin yerine kullanılabilir. Var olan verilere dayalı olarak en uygun değer kullanılabilir. Eksik veriler, yapılacak olan istatistiksel analizlerde önemli problemler yaratmaktadır. Çünkü istatistiksel analizler ve bu analizlerin yapılmasına olanak veren ilgili paket programlar, verilerin tümünün var olduğu durumlar için geliştirilmiştir. Bu analizler, eksik veri içeren veri setlerine uygulandıklarında istatistiklerin geçerliliğini düşürmektedir. 2. VERİ TABANINDA BİLGİ KEŞFİ SÜRECİ 2.1 Veri Tabanı Kavramı Veri tabanında bilgi keşfi, verilerin doğru, faydalı ve anlaşılır modeller ve kalıplar elde etmede kullanılan özel bir süreçtir. Veri tabanı, sistematik erişim imkanı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen bilgiler kümesidir. Belirli bir amaca yönelik düzen verilmiş kayıt ve dosyaların tümüdür. Örneğin; Bilgisayarınızda düzenlenmiş arkadaş adresleri. Belirli bir sıraya göre topladığınız mektuplarınız birer veri tabanıdır. Veri tabanının genel özellikleri Veritabanları, gerçek dünyanın belli bir açısını temsil eden daha küçük bir dünyadır. Veritabanı mantıksal çerçevede birbiriyle tutarlı bir veri topluluğudur. Bu haliyle rasgele toplanmış yani belirli bir sıralama veya gruplama yapılmamış bilgilere veritabanı demek doğru değildir. Veritabanı önceden belirlenmiş bir amaca hizmet etmek üzere tasarlanır ve yapılır. Veritabanı, herhangi bir büyüklükte ve karmaşıklıkta olabilir. Veritabanı elle veya bilgisayar ile oluşturulup idare edilebilir. Veri tabanın faydaları Herhangi bir evrak saklamaya gerek kalmaz. Makineler bilgileri daha çabuk güncelleştirebilirler. Bu nedenle çok daha hızlı olur. Yalnızca istediğimiz bilgiye istediğimiz zaman ve istediğimiz gibi ulaşabiliriz. Verilerin merkezi kontrolü sağlanır. Veri tekrarı azalır. Tutarsız (hatalı) bilgiler önlenir. Verinin paylaşımı sağlanır. Bütünlük sağlanır. Genel veya özel raporlar alınabilir. -4- İyi bir veri tabanının özellikleri Veriler hızlı ve kolay girilebilmeli. Güvenli bir şekilde saklanmalı. İstenildiği şekilde ve kolay sorgulanmalı. Veri tabanlarında bilgi keşfi; verilerden Doğru Yeni Faydalı Anlaşılır modeller ve kalıplar elde etmede kullanılan özel bir süreçtir. Bu tanımdaki “özel bir süreç” ifadesinden de anlaşılacağı gibi Veri Tabanlarında Bilgi Keşfi Süreci(VTBK), karmaşık bir işlemdir. “Model elde etmek” ile kastedilen ise, verilere model uydurmak, verilerden yapı ortaya çıkarmak veya genel bir ifadeyle, veri kümesine yüksek dereceli açıklama getirmektir “Süreç” ise, VTBK’nin birçok adımdan ve çeşitli iterasyonlardan oluştuğunu göstermektedir. Bilgi keşfinin belirli bir güven düzeyinde, yeni veriler için geçerli olması, süreç sonunda elde edilen bilginin ise, iş konusunda çeşitli avantajlara olanak sağlayacak şekilde faydalı ve anlaşılır olması gerekmektedir. Problemin tanımlanması Verilerin hazırlanması Veri madenciliği Modelin kurulması ve değerlendirilmesi Modelin izlenmesi Modelin kullanılması Şekil 1 Veri madenciliği buradaki modelin kurulması ve modelin değerlendirilmesi aşamalarından meydana gelmektedir. Geleneksel sorgu veya raporlama araçlarının veri yığınları karşısında yetersiz kalması, Veri Tabanlarında Bilgi Keşfi-VTBK adı altında, sürekli ve yeni arayışlara neden olmaktadır. Şekil 1 de görülen VTBK süreci içerisinde, modelin kurulması ve değerlendirilmesi aşamalarından meydana gelen Veri Madenciliği (Data Mining) en önemli kesimi oluşturmaktadır. -5- Veri tabanlarında bilgi keşfi işlemleri, son yıllarda veri tabanına sahip çevrelerde büyük ilgi toplamaktadır. Bunlara örnek olarak büyük marketler, bankalar, sosyal güvenlik kuruluşları gösterilebilir. Bu tür büyük veri tabanlarında amaç, bu büyük veri kümelerini analiz edip, faydalı kalıplara ve bilgilere ulaşmaktır. 2.2 Veri tabanında bilgi keşfi sürecinin evreleri Problemin tanımlanması Verilerin Hazırlanması, Modelin Kurulması ve Değerlendirilmesi, Modelin Kullanılması, Modelin İzlenmesi 2.2.1 Problemin Tanımlanması Veri madenciliği çalışmalarında başarılı olmanın ilk şartı, uygulamanın işletmenin hangi amacı için yapılacağının açık bir şekilde tanımlanmasıdır. İlgili işletmenin amacı ve problemi üzerine odaklanılmış ve bunlar açık bir dille ifade edilmiş olmalı, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği tanımlanmalıdır. Ayrıca yanlış tahminlerde katlanılacak olan maliyetlere ve doğru tahminlerde kazanılacak faydalara ilişkin tahminlere de bu aşamada yer verilmelidir. 2.2.2 Verilerin Hazırlanması Modelin kurulması aşamasında ortaya çıkacak sorunlar, bu aşamaya sık sık geri dönülmesine ve verilerin yeniden düzenlenmesine neden olacaktır. Bu durum verilerin hazırlanması ve modelin kurulması aşamaları için, bir analistin veri keşfi sürecinin toplamı içerisinde enerji ve zamanının % 50 - % 85’ini harcamasına neden olmaktadır. Verilerin hazırlanması aşaması şu aşamalardan meydana gelmektedir; Toplama, Değer biçme, Birleştirme ve temizleme, Örneklem seçimi, Dönüştürme, a) Toplama Tanımlanan problem için gerekli olduğu düşünülen verilerin ve bu verilerin toplanacağı veri kaynaklarının belirlenmesi adımıdır. Verilerin toplanmasında kuruluşun kendi veri kaynaklarının dışında, nüfus sayımı, hava durumu, merkez bankası kara listesi gibi veri tabanlarından veya veri pazarlayan kuruluşların veri tabanlarından faydalanılabilir. b) Değer Biçme Veri madenciliğinde kullanılacak verilerin farklı kaynaklardan toplanması, doğal olarak veri uyumsuzluklarına neden olacaktır. -6- Bu uyumsuzluklardan başlıcaları ; Farklı zamanlara ait olmaları, Kodlama farklılıkları (örneğin bir veri tabanında cinsiyet özelliğinin e/k, diğer bir veri tabanında 0/1 olarak kodlanması), Farklı ölçü birimleridir. Ayrıca verilerin nasıl, nerede ve hangi koşullar altında toplandığı da önem taşımaktadır. Bu nedenlerle, iyi sonuç alınacak modeller ancak iyi verilerin üzerine kurulabileceği için, toplanan verilerin ne ölçüde uyumlu oldukları bu adımda incelenerek değerlendirilmelidir. c) Birleştirme ve Temizleme Bu adımda farklı kaynaklardan toplanan verilerde bulunan ve bir önceki adımda belirlenen sorunlar mümkün olduğu ölçüde giderilerek veriler tek bir veri tabanında toplanır. Ancak basit yöntemlerle ve baştan savma olarak yapılacak sorun giderme işlemlerinin, ileriki aşamalarda daha büyük sorunların kaynağı olacağı unutulmamalıdır. d) Örneklem Seçimi Bu adımda kurulacak modele bağlı olarak veri seçimi yapılır. Örneğin tahmin edici bir model için, bu adım bağımlı ve bağımsız değişkenlerin ve modelin eğitiminde kullanılacak veri kümesinin seçilmesi anlamını taşımaktadır. Sıra numarası kimlik numarası gibi anlamlı olmayan değişkenler çıkarılmalıdır. Yanlış veri girişinden veya bir kereye özgü olaylardan oluşan veri kümeleri çıkarılır. Modelde kullanılan veri tabanı çok büyük ise uygun bir örnekleme yöntemi kullanılır. e)Dönüştürme Veriler arasında dönüşüm yapılır. Örneğin; Kredi riskinin tahmini için geliştirilen bir modelde, borç/gelir gibi önceden hesaplanmış bir oran yerine, ayrı ayrı borç ve gelir verilerinin kullanılması tercih edilebilir. Ayrıca modelde kullanılan algoritma, verilerin gösteriminde önemli rol oynayacaktır. Örneğin bir uygulamada bir yapay sinir ağı algoritmasının kullanılması durumunda kategorik değişken değerlerinin evet/hayır olması; bir karar ağacı algoritmasının kullanılması durumunda ise örneğin gelir değişken değerlerinin yüksek/orta/düşük olarak gruplanmış olması modelin etkinliğini artıracaktır. 2.2.3 Modelin Kurulması ve Değerlendirilmesi Tanımlanan problem için en uygun modelin bulunabilmesi, olabildiğince çok sayıda modelin kurularak denenmesi ile mümkündür. Bu nedenle veri hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele varılıncaya kadar yinelenen bir süreçtir. Veri madenciliği modelleri Sınıflama (Classification) ve Regresyon (Regression), Kümeleme (Clustering), -7- Birliktelik Kuralları (Association (Sequential Patterns), Rules) ve Ardışık Zamanlı Örüntüler 2.2.4 Modelin Kullanılması Kurulan ve geçerliliği kabul edilen model doğrudan bir uygulama olabileceği gibi, bir başka uygulamanın alt parçası olarak kullanılabilir. Kurulan modeller risk analizi, kredi değerlendirme, dolandırıcılık tespiti gibi işletme uygulamalarında doğrudan kullanılabileceği gibi, promosyon planlaması çalışmasına eklenebilir veya tahmin edilen üretim düzeyleri yeniden sipariş miktarının altına düştüğünde, otomatik olarak sipariş verilmesini sağlayacak bir uygulamanın içine eklenebilir. 2.2.5 Modelin İzlenmesi Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde ortaya çıkan değişiklikler, kurulan modellerin sürekli olarak izlenmesini ve gerekiyorsa yeniden düzenlenmesini gerektirecektir. Tahmin edilen ve gözlenen değişkenler arasındaki farklılığı gösteren grafikler model sonuçlarının izlenmesinde kullanılan yararlı bir yöntemdir. 3. VERİ MADENCİLİĞİNDE KULLANILAN PROGRAMLAR SPSS CLEMENTİNE SAS ENTERPRİSE MİNER Günümüzde en çok kullanılan veri madenciliği programlarının başında büyük çapta istatistik programları olan SAS ve SPSS gelmektedir. SPSS Merkezi Chicago’da bulunan SPSS 1967 yılından bu yana verilerdeki gizli bilgileri keşfetme ve stratejik karar desteği sağlama yönünde ileri analitik çözümler sunmaktadır. SPSS’in veri madenciliği metadolojisi olarak kabul ettiği CRISP DM (cross ındustry standart processing for data mining) %50’nin üzerinde bir kullanıma sahiptir. Internet kayıtlarına ve elde edilen verilere gelişmiş veri madenciliği teknikleri uygulayarak, kullanıcılar ile birebir ilişki kurmayı sağlayacak öngörüler elde edilebilir. Bu aşamada SPSS çözümlerine, teknolojilerine ve danışmanlığına başvurarak, güvenilir sonuçlar elde etme yolunda bir adım atmış oluruz. SPSS veri madenciliği çalışmalarına kendi yeteneğini ve tecrübesini getirerek, öğrenme süresini azaltacak, çalışmalara en hızlı şekilde başlamamızı sağlayacaktır. ÖRNEK 1: Hollanda’da bulunan IGNATIUS Hastanesi ise tedavi sürelerinin ve belirli bir sürede tedavi ihtiyacı olan kişi sayısının ve her bir hasta için tedavi süresinin tahmin edilmesi yönünde uygulamalar geliştirmiş ve yaptığı analizler sonucunda elde ettiği bilgi ile hastane kadro ve kaynak ihtiyaçlarının doğru belirlenmesini sağlamış ve geçmiş hasta verilerinden elde ettiği bilgi ile kalp hastalıklarında bypass ameliyatlarının riskini minimuma indirmeyi başarmıştır. -8- ÖRNEK 2:HSBC Amerika, SPSS veri madenciliği çözümleri ile yaptığı çalışmada müşteri ihtiyaçlarını ve davranışlarını tespit etmiş ve doğru müşteriye doğru önerilerle giderek pazarlama maliyetlerinde %30’luk bir azalma sağlarken, satışlarını %50 artırmıştır. Edinilen deneyim ve başarı ile öğrenen bir organizasyon olma ve bilgiye dayalı yeni bir çalışma stratejisi benimsemiştir. Banco Espírito Santo (BES) SPSS’ in veri madenciliği çözümleri sayesinde, kendisi ile çalışmayı bırakmaya meyilli müşteri profilini tanımlayabilmiştir. Stratejik planlama ekibi, bu müşteri profilini canlı tutan, kaybetmeden önce geri kazanmaya ve müşteriyi memnun etmeye yönelik modeller geliştirmiştir. Sonuç olarak, müşterinin hareketlerinden fayda yaratma kabiliyeti edinerek, müşteri kaybını %15-20 azaltmış, karlılıklarını %10-20 arttırmışlardır. CLEMENTİNE SPSS veri madenciliği çözümü, CLEMENTİNE istatistik ve yapay zeka kökenli algoritmaları bir arada sunan, veri ambarlarına yaptığınız yatırımların geri dönüşü noktasında kritik bir çözümdür. CLEMENTİNE, uygulama kolaylıkları, açık yapısı ve açık metadolojisi ile ülkemizde ve dünyada veri madenciliği uygulamalarında tercih edilirliği en yüksek olan çözümdür. ÖRNEK 3: Amerika’nın en büyük kablosuz iletişim sağlayıcısı olan VERİZON kaybetme olasılığı yüksek olan müşterilerini ve müşteri kaybına neden olan faktörleri belirleme amaçlı bir Veri Madenciliği çalışması yapmıştır. 28 milyon müşterisi olan VERİZON’un en büyük sorunu müşterilerinin %40’nın aylık konuşma sürelerinin düşük olması ve müşteri başına elde edilen aylık gelirin 50$ dan az olmasıdır. Şirket bünyesinde toplanan verilerden faturalama sistem kayıtları, müşterilerin arama ve konuşma detay kayıtları, uygulanan fiyat planı verileri kullanılmıştır. SPSS CLEMENTİNE ile gerçekleştirilen çalışma sonucunda verideki gizli bilgiler açığa çıkarılmış, müşteriler davranışlarına göre gruplandırılmıştır. Belli kanallarda müşteri kaybının daha fazla olduğu görülmüş, az kullanım, kontrat tarihinin bitmiş olması, kullanılan cep telefonunun eski model olması önemli etkenler olarak belirlenmiştir. İlk çalışmada verilerin modellenmesi, modeller baz alınarak bir strateji belirlenmesi ve kampanya oluşturulması, elde edilen veriler ışığında modellerin güncellenmesi ve yeni stratejiler oluşturulması şeklinde 6 aylık bir süreç yaşanmıştır. İlk aşamada dahi edinilen kazanımlar, müşteri kaybını engelleme, pazarlama maliyetlerini azaltma, müşteri karlılığını artırma olarak bakıldığında yapılan yatırımın geri dönüşümü sağlanmıştır. SAS (Statistical Analysis Software) SAS’ın dünya çapında 112 ülkede 44000’i aşkın kullanıcısı bulunmaktadır. En son versiyonu 9.1.3 2007 yılının son aylarında piyasaya sunulmuştur. Kullanımı SPSS programına göre biraz daha zordur. SAS programında komut yazmak gerekir. Veriler üzerinde gerekli istatistik tekniklerini kullanarak tahmini sonuçlar verir. SAS Araştırma, Kamu ,Perakende, Sigorta, Bankacılık, Medya, Eğitim ve Telekomünikasyon sektörlerinde kullanılmaktadır. ÖRNEK 4: Fiyat endekslerinin hesaplanması, işgücü ve istihdam endeksleri, hane halkı bütçe anketleri, gelir dağılımı, yoksulluk çalışmaları, dış ticaret istatistikleri gibi birçok çalışmada SAS çözümlerinden yaralanan TÜİK ‘2003 yılı Hane Halkı Bütçe Anketi’ çalışmasını bu sistem aracılığıyla tamamlamıştır. -9- Enterprise miner Şirketlerin çok büyük veri yığınlarından kritik bilgileri elde etmelerini sağlayan Veri Madenciliği çözümlerinde dünyada önemli bir yere sahip olan SAS, veri üzerinde değil, bilgi üzerinde düşünme ve strateji geliştirme avantajını bir adım öteye taşıyarak SAS Enterprise Miner 5.1’ i geliştirmiştir. Regresyon, sınıflama, istatistiksel analiz gibi fonksiyonları içerir. İstatistiksel analiz araçlarının çeşitliliği en önemli özelliğidir. ÖRNEK 5: Garanti Bankası müşterilerine sunduğu hizmetleri daha iyi bir noktaya taşımak amacıyla SAS’ın veri madenciliği ürününü tercih etmiştir. Müşterilerin finansal davranış modelleri ile ilgili detaylı bilgi elde etmeyi hedefleyen Garanti, böylelikle daha etkin müşteri ilişkileri yönetimi çalışmaları yapabilecektir. 4. VERİ MADENCİLİĞİ MODELLERİ Veri madenciliğinde kullanılan modeller, tahmin edici ve tanımlayıcı olmak üzere iki ana başlık altında incelenmektedir. 4.1. Tahmin edici modeller: Sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi amaçlanmaktadır. Tahmin edici modeller sınıflama ve regresyon yöntemleridir. 4.1.1 Sınıflama ve Regresyon Modelleri: Mevcut verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan ve veri madenciliği teknikleri içerisinde en yaygın kullanıma sahip olan sınıflama ve regresyon modelleri arasındaki temel fark, tahmin edilen bağımlı değişkenin kategorik veya süreklilik gösteren bir değere sahip olmasıdır. Ancak çok terimli lojistik regresyon (multinomial logistic regression) gibi kategorik değerlerin de tahmin edilmesine olanak sağlayan teknik00000000000lerle, her iki model giderek birbirine yaklaşmakta ve bunun bir sonucu olarak aynı tekniklerden yararlanılması mümkün olmaktadır. Sınıflama ve regresyon modellerinde kullanılan başlıca teknikler; ◊ ◊ ◊ ◊ ◊ Karar Ağaçları, Yapay Sinir Ağları, Naive Bayes, Bulanık Mantık, Bellek Temelli Nedenleme Karar Ağaçları Karar ağaçları veri madenciliğinde en sık kullanılan yöntemlerin başında gelmektedir. Bunun başlıca sebepleri ucuz olması, yorumlamalarının oldukça kolay olması ve veritabanı sistemleri ile entegre edilebilmeleridir. Karar ağaçları düğümler ve dallardan oluşan, anlaşılması oldukça kolay olan bir tekniktir. Karar ağacında bulunan her bir dalın belirli bir olasılığı mevcuttur. Bu sayede son dallardan köke veya istediğimiz yere ulaşana dek olasılıkları hesaplamamız mümkündür. - 10 - Karar ağaçları ile ilgili bir örnek verecek olursak; Siz bir şirket yöneticisisiniz ve elinizde şirkete dair yüklü bir miktar para var. Bu parayı sizden en yüksek getiriyi sağlayacak şekilde faiz veya senet alarak değerlendirmeniz isteniyor. İsterseniz bir danışmandan yardım alabilir isterseniz kendiniz karar verebilirsiniz. Olasılıkları çıkartacak olursak; ilk olarak danışmana başvuralım. Danışman size senet al veya faize yatır seçeneklerini sunacaktır. Bu seçeneklerde kendi aralarında başarılı veya başarısız olarak ikiye ayrılacaktır. İlk etapta finans ile ilgili yeterli bilgiye sahip olmadığımız düşünülerek danışmana başvurmak mantıklı gelecektir. Ama bu seçenek sonucunda danışmana da bir miktar ödeme yapmamız gerekecektir. Diğer yandan danışmanlık hizmeti almazsınız ve kendiniz karar verirsiniz. Hisse senedi karlı olacak (karlı olmasına karşın faize yatır veya senet al) veya hisse senedi zararlı olacaktır. Bahsettiğimiz bu olayların karar ağacı aşağıdaki şekilde olacaktır. Yapay Sinir Ağları Yapay sinir ağları(YSA) insan beyninin sinir sistemine ve çalışma prensibine dayanan elektriksel bir modeldir. Bir anlamda insan beyninin ufak bir kopyası gibidir. İnsan beyninin öğrenme yoluyla yeni bilgiler üretebilme, keşfedebilme, düşünme ve gözlemlemeye yönelik yeteneklerini, yardım almadan yapabilen sistemler geliştirmek için tasarlanmışlardır. Yapay Sinir ağı ile hesaplamalarda istenilen dönüşüm için, adım adım yürütülen bir yöntem gerekmez. Sinir ağı ilişkilendirmeyi yapan iç kuralları kendi üretir ve bu kuralları, bunların sonuçlarını örneklerle karşılaştırarak düzenler.Deneme ve yanılma - 11 - ile , ağ kendi kendine işi nasıl yapması gerektiğini öğretir.YSA'larda bilgi saklama,verilen eğitim özelliğini kullanarak eğitim örnekleri ile yapılır.Sinirsel hesaplama, algoritmik programlamaya bir seçenek oluşturan,temel olarak yeni ve farklı bir bilgi işleme olayıdır. Uygulama imkanının olduğu her yerde, tamamen yeni bilgi işleme yetenekleri geliştirebilir. Bu sayede de geliştirme harcamaları ile geliştirme süresi büyük ölçüde azalır. Bir yapay sinir ağı belirli bir amaç için oluşturulur ve insanlar gibi örnekler sayesinde öğrenir. Yapay sinir ağları tekrarlanan girdiler sayesinde kendi yapısını ve ağırlığını değiştirir. Yapay sinir ağları aynen canlıların sinir sistemi gibi adapte olabilen bir yapıya sahiptir. Naive Bayes; Naive Bayes algoritmasında her kriterin sonuca olan etkilerinin olasılık olarak hesaplanması temeline dayanmaktadır. ÖRNEK 6: Elimizde tenis maçının oynanıp oynanmamasına dair bir bilgi olduğunu düşünelim. Ancak bu bilgiye göre tenis maçının oynanması veya oynanmaması durumu kaydedilirken o anki hava durumu, sıcaklık, nem ve rüzgar durumu bilgileri de alınmış olsun. Biz bu bilgileri değerlendirdiğimizde varsayılan tahmin yöntemleri ile hava bugün rüzgarlı tenis maçı bugün oynanmaz şeklinde kararları farkında olmasak da veririz. Ancak veri madenciliği bu kararların tüm kriterlerin etkisi ile verildiği bir yaklaşımdır. Dolayısıyla biz ileride öğrettiğimiz sisteme bugün hava güneşli, sıcak, nemli ve rüzgar yok şeklinde bir bilgiyi verdiğimizde sistem eğitildiği daha önce gerçekleşmiş istatistiklerden faydalanarak tenis maçının oynanma ve oynanmama ihtimalini hesaplar ve bize tahminini bildirir. ÖRNEK 7: Sağlık sektöründe bir kişinin tahlil sonuçlarının değerlendirilerek bir hastalığa yakalanmış olup olmama olasılığının değerlendirilmesinde de sıkça kullanılmaktadır. Bulanık Mantık; Belirsizliklerin anlatımı ve belirsizliklerle çalışılabilmesi için kurulmuş katı bir matematik düzen olarak tanımlanabilir. Bilindiği gibi istatistikte ve olasılık kuramında, belirsizliklerle değil kesinliklerle çalışılır ama insanın yaşadığı ortam daha çok belirsizliklerle doludur. Bu yüzden insanoğlunun sonuç çıkarabilme yeteneğini anlayabilmek için belirsizliklerle çalışmak gereklidir. Bulanık mantığın uygulama alanları çok geniştir. Sağladığı en büyük fayda ise "insana özgü tecrübe ile öğrenme" olayının kolayca modellenebilmesi ve belirsiz kavramların bile matematiksel olarak ifade edilebilmesine olanak tanımasıdır. Bu nedenle lineer olmayan sistemlere yaklaşım yapabilmek için özellikle uygundur. Bulanık mantık konusunda yapılan araştırmalar Japonya'da oldukça fazladır. Özellikle fuzzy process controller olarak isimlendirilen özel amaçlı bulanık mantık mikroişlemci çipi' nin üretilmesine çalışılmaktadır. Bu teknoloji fotoğraf makineleri, çamaşır makineleri, klimalar ve otomatik iletim hatları gibi uygulamalarda kullanılmaktadır. Bundan başka uzay araştırmaları ve havacılık endüstrisinde de kullanılmaktadır. TAI'de araştırma gelişme kısmında bulanık mantık konusunda çalışmalar yapılmaktadır. Bellek Tabanlı Yöntemler; Bellek tabanlı veya örnek tabanlı bu yöntemler istatistikte 1950’li yıllarda önerilmiş olmasına rağmen o yıllarda gerektirdiği hesaplama ve bellek yüzünden kullanılamamış ama günümüzde bilgisayarların ucuzlaması ve kapasitelerinin artmasıyla, özellikle de çok - 12 - işlemcili sistemlerin yaygınlaşmasıyla, kullanılabilir olmuştur. Bu yönteme en iyi örnek en yakın k komşu algoritmasıdır. En yakın komşu yaklaşımı, x noktasının sınıfını, x noktasına en yakın olan noktanın sınıfı olarak belirleme yaklaşımıdır. Sınıfı belirlenen nokta ile komşu nokta aynı sınıfa ait değiller ise hata söz konusudur. Bu yaklaşım sadece en yakın komşu ile sınıflandırma yapar, önceden sınıflandırılmış diğer noktaları önemsemez. 4.2 Tanımlayıcı modeller Tanımlayıcı modellerde; ise karar vermeye rehberlik etmede kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır. Tanımlayıcı modeller kümeleme ve birliktelik kurallarıdır. 4.2.1 Kümeleme Yöntemi Nesneleri benzerleriyle gruplama sürecine kümeleme denir. “Kümeleme analizi, temel amacı nesneleri (birim) sahip oldukları karakteristik özellikleri baz alarak gruplamak olan çok değişkenli teknikler grubudur” (Hair vd,1995). Elimizdeki veriler yardımıyla analiz yaparken, verimli ve güvenilir analiz yapma açısından kümeleme analizi oldukça büyük bir önem taşımaktadır. Örneğin Türkiye’deki şehirlerin profilini çıkarmak üzere bir araştırma yapıyorsunuz. Tarıma dayalı bir gelir sistemi olan bir şehri, geliri sanayiye dayalı olan şehirlerle kıyaslamak ne kadar güvenilir sonuçlar verir tartışılır. Aynı şekilde nüfusu milyonlarla ölçülen şehirleri nüfusu yüz binler olan şehirlerle kıyaslamakta yanlıştır. Belirlediğimiz kriterlere göre benzer özellik gösteren şehirler bir gruba toplanır ve kendi aralarında analiz yapılır. Söz gelimi Hakkari’ yi Ankara ile kıyaslamak yerine profili benzer olabilecek Siirt, Batman, Muş vb. şehirlerle kıyaslamak çok daha güvenilir sonuçlar elde etmemizi sağlayacaktır. - 13 - Kümeler oluşturulurken, kümenin içinde yer alan nesneler arası benzerliği en büyük, kümeler arası benzerliği ise en küçük olacak şekilde yapmamız gerekir. Benzer bir ifade ile kümeleme analizinin amacı, var olan verileri içsel olarak homojen, kümeler arası heterojen olarak ayırmaktır. Kümeleme analizi genellikle market araştırmaları, gen araştırmaları gibi konularda sıklıkla kullanılır. Bu veriler arasında nitelik bakımından ilginç korelasyonlar(ilişkiler, benzerlikler) elde edebiliriz. Örneğin tıp alanında benzer özelliklere sahip genleri aynı küme içine alabiliriz. Literatürde pek çok kümeleme algoritması bulunmaktadır. Kullanılacak olan kümeleme algoritmasının seçimi, veri tipine ve amaca bağlıdır. En iyi bilinen ve en çok kullanılan kümeleme yöntemi, bölme yöntemidir. Bölme Yöntemi: Bölme yöntemlerinde, n veri tabanındaki nesne sayısı ve k oluşturulacak küme sayısı olarak kabul edilir. Bölme algoritması n adet nesneyi, k adet kümeye böler (k n) . Kümeler tarafsız bölme kriteri olarak nitelendirilen bir kritere uygun oluşturulduğu için aynı kümedeki nesneler birbirlerine benzerken, farklı kümedeki nesnelerden farklıdırlar. Bölme yöntemlerinde kullanılan en yaygın metot ise k-means yöntemidir. K-means yöntemi, İlk önce n adet nesneden rasgele k adet nesne seçer ve bu nesnelerin her biri, bir kümenin merkezini veya orta noktasını temsil eder. Geriye kalan nesnelerden her biri kendisine en yakın olan küme merkezine göre kümelere dağılırlar. Yani bir nesne hangi kümenin merkezine daha yakın ise o kümeye yerleşir. Ardından her küme için ortalama hesaplanır ve hesaplanan bu değer o kümenin yeni merkezi olur. Bu işlem tüm nesneler kümelere yerleşinceye kadar devam eder. - 14 - Söylenenleri şekille pekiştirelim; 4.2.2 Birliktelik Kuralı Birliktelik kuralları, büyük veri kümeleri arasında birliktelik ilişkileri bulurlar. Toplanan ve depolanan verinin her geçen gün gittikçe büyümesi yüzünden, şirketler veritabanlarındaki birliktelik kurallarını ortaya çıkarmak istemektedirler. Büyük miktardaki mesleki işlem kayıtlarından ilginç birliktelik ilişkilerini keşfetmek, şirketlerin karar alma işlemlerini daha verimli hale getirmektedir. Birliktelik kurallarının kullanıldığı en tipik örnek market sepeti uygulamasıdır. Bu işlem, müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri bularak müşterilerin satın alma alışkanlıklarını analiz eder. Bu tip birlikteliklerin keşfedilmesi, müşterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarır ve market yöneticileri de bu bilgi ışığında daha etki satış stratejileri geliştirebilirler. Örneğin bir müşteri süt satın alıyorsa, aynı alışverişte sütün yanında ekmek alma olasılığı nedir? Bu tip bir bilgi ışığında rafları düzenleyen market yöneticileri ürünlerindeki satış oranını arttırabilirler. Örneğin bir marketin müşterilerinin süt ile birlikte ekmek satın alan oranı yüksekse, market yöneticileri süt ile ekmek raflarını yan yana koyarak ekmek satışlarını arttırabilirler. Örneğin; bir A ürününü satın alan müşteriler aynı zamanda B ürününü da satın alıyorlarsa, bu durum Birliktelik Kuralı ile gösterilir. 5 VERİ MADENCİLİĞİNDEKİ ÖNEMLİ UYGULAMALAR Yaygın olarak kullanılan iki önemli veri madenciliği uygulaması; 1)Sepet Analizi ve Birliktelik Kuralları 2) Kredi Skor Hesabı - 15 - 5.1 Sepet Analizi ve Birliktelik Kuralları Süpermarketlerde ve perakende sektöründeki alışveriş hareketleri boyunca müşterilerin aldığı mallara ilişkin çok büyük miktarda veri toplanmaktadır. Bu toplanan veri doğrultusunda müşteri hareketlerine ilişkin veritabanlarına uygulanan birliktelik kuralları sonucunda alışveriş yapan müşterilere ait bilgiler gün ışığına çıkarılabilmektedir. Bu bilgiler hangi müşterinin hangi ürünleri aldığı, hangi ürünleri birlikte tercih ettiği gibi sonuçları içermektedir. Birliktelik kuralları geçmiş tarihli hareketleri analiz etmek için karar destek sistemlerinde stratejik karar verme aşamasında örüntüleri ve ilişkileri bulmada, verilen kararların kalitesini arttırmada izlenen bir yaklaşımdır. Birliktelik kuralları eş zamanlı olarak gerçekleşen ilişkilerin tanımlanmasında kullanılır. Birliktelik kurallarının amacı, kullanıcı tarafından belirlenen minimum olasılık ve koşullu olasılık değerlerini sağlayan kuralların bulunmasıdır. Keşfedilen örüntüler örneklemde sıklıkla birlikte geçen nitelik değerleri arasındaki ilişkiyi gösterir. Birliktelik kuralıyla ilgili; Şampuan ve saç kremi satın alınan satış hareketlerinin %20’sinde saç jölesi de satın alınmıştır. Büyük bir süpermarketin en basit fatura kayıtları incelendiğinde, tıraş bıçağı alan müşterilerin %56 sının kalem pil de aldığı ortaya çıkmıştır. Buna dayanarak firma, tıraş bıçağı ve kalem pil reyonlarını bir araya getirmek suretiyle kalem pil satışlarını %14 arttırmıştır. Ürünler ve satışları arasındaki bu ilişkilerin belirlenmesiyle, satış stratejileri değiştirilip kazancın artırılması mümkündür. Merkezi Adana’da olan Groseri marketin Mersin Pozcu şubesine ait 2 Ocak 2006 ve 9 Ocak 2006 arasında yer alan 8 günlük veriler kullanılmıştır. Bu 8 günlük hareketin sonucunda 8687 fiş hareketi toplanmıştır. Elde edilen verilere göre: - Zeytin alan müşterilerin %70,11 inin peynir aldığı, - Yeşillik alan müşterilerin %59,56 sının sebze de aldığı, - Zeytin ve sütü birlikte alan müşterilerin %77,83 ü peynirde almıştır. Gazetelerde en çok okunan sayfalara göre reklam dağılımının yapılması gibi örnekler verilebilir. Birliktelik kurallarının çıkarımı; a)Katalog tasarımı, b)Müşterilerin satın alma alışkanlıklarına göre ürünlerin sınıflandırılması, c)Mağaza ürün yerleşim planı gibi pek çok uygulama alanında kullanılabilir. Buna örnek olarak bir süpermarketin yerleşim planı verilebilir; - 16 - Süpermarketlerin giriş kısmındaki alanlar ve ileriye doğru ilerleyen koridorlar cironun yüksek elde edildiği yerlerdendir. Çünkü algıda seçicilik ilk girişte başlamaktadır ve bu süpermarketlerin değerli kısmı olarak nitelendirilir. Buna göre yeni yerleşim düzeni giriş ve sağdan başlamalı, en fazla ciro yapabilecek ve sepet analizine göre ilişkili ürünler yerleştirilmelidir. Bu yolla müşteri tatmini ve karlılık açısından optimum noktaya ulaşılabilinir. Birliktelik kuralları analizi problemi ilk olarak Agrawal, Imielinski ve Swami tarafından 1993 yılında ele alınmıştır. Yorumlar bulunan olasılık ve koşullu olasılık değerleri üzerinden yapılmıştır. Birliktelik kurallarının kullanıldığı en tipik örnek ise sepet analizi uygulamasıdır. Bu işlem, müşterilerin yaptıkları alışverişlerdeki ürünler(nesneler) arasındaki birliktelikleri bularak müşterilerin satın alma alışkanlıklarını çözümler. Bu tip birlikteliklerin keşfedilmesi, müşterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarır ve market yöneticileri de bu bilgi ışığında raf düzenlerini belirleyerek, ürün paketlerini hazırlayarak satış oranlarını artırabilir ve etkili satış stratejileri geliştirebilirler. Sepet analizinde (basket analysis) müşterilerin beraber satın aldığı malların analizi yapılır. Buradaki amaç mallar arasındaki pozitif veya negatif korelasyonları bulmaktır. Örneğin çocuk bezi alan müşterilerin %30 u bira da satın alır. Burada, çocuk bezi alan müşterilerin mama da satın alacağını veya bira satın alanların cips de alacağını tahmin edebiliriz ama ancak otomatik bir analiz bütün olasılıkları göz önüne alır ve kolay düşünülemeyecek, örneğin çocuk bezi ve bira arasındaki bağıntıları da bulur.(Hafta sonunu evde geçireceğini düşünen baba çocuğu için çocuk bezi, kendisi içinde bira satın alır.) Bir alışveriş sırasında veya birbirini izleyen alışverişlerde müşterinin hangi mal veya hizmetleri satın almaya eğilimli olduğunun belirlenmesi, müşteriye daha fazla ürünün satılmasını sağlama yollarından biridir. Örneğin; internet üzerinden kitap satan Amazon şirketi (http://www.amazon.com) BookMatcher adlı programıyla müşterilerine okudukları ve sevdikleri kitaplara göre satın almaları için kitap tavsiye etmektedir. Sepet analizinde mallar arasındaki bağıntı 2 farklı yöntemle hesaplanır: Olasılık ve Koşullu Olasılık Değerleri Korelasyon ve Kovaryans 5.1.1 Olasılık ve Koşullu Olasılık Değerleri Elimizdeki veride mallar için sadece satın alındı/alınmadı bilgisi varsa olasılık ve koşullu olasılık değerlerine bakılır. Olasılık değeri, veride bağıntının ne kadar sık olduğunu, koşullu olasılık değeri de X malını almış bir kişinin hangi olasılıkla Y malını alacağını ifade eder. Bağıntının önemli olabilmesi için her iki değerin de olabildiğince büyük olması gerekir. X ve Y farklı ürünler olmak üzere, Olasılık: P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı / Toplam müşteri sayısı P(X/Y)=P(X ve Y)/P(Y)= X ve Y mallarını satın almış müşteri sayısı / Y malını satın almış müşteri sayısı Burada, X ürünü için olasılık tüm alışverişler içinde X ürünün oranıdır. - 17 - X , X ürünü içeren alışverişlerin sayısını, D yapılan tüm alışverişlerin sayısını göstermek üzere; Olasılık (X) = X D olarak ifade edilir. X ve Y ürünleri için olasılık, X.Y X ve Y ürünlerini birlikte içeren alışveriş sayısı olmak üzere; Olasılık ( X Y ) = X.Y D olarak ifade edilir. X ve Y ürünleri için koşullu olasılık ise; Koşullu Olasılık [ P(Y/X)] = XY X olarak ifade edilir. Örneğin bir A ürününü satın alan müşteriler aynı zamanda B ürününü da satın alıyorlarsa, bu durum A => B [olasılık= %2, koşullu olasılık= %60] şeklinde verilmiş olsun. Birliktelik Kuralı için %2 oranındaki bir olasılık değeri, analiz edilen tüm alışverişlerden %2'sinde A ile B ürünlerinin birlikte satıldığını belirtir. %60 oranındaki koşullu olasılık değeri ise A ürününü satın alan müşterilerinin %60'ının aynı alışverişte B ürününü de satın aldığını ortaya koyar. Kullanıcı tarafından minimum destek esik değeri ve minimum güven eşik değeri belirlenir ve bu değerleri aşan birliktelik kuralları dikkate alınır. 5.1.2 Korelasyon ve Kovaryans Elimizde malların müşteri tarafından ne kadar tüketildiği, ne kadar beğenildiği ile ilgili bilgi varsa o zaman bağıntı daha iyi hesaplanabilir. Örneğin süpermarkette müşterinin aylık toplam X malı kullanma miktarı hesaplanabilir. Amazon’un BookMatcher programı okuyuculara okudukları her kitap için 1 ile 5 arasında bir beğeni notu vermelerini ister. Bu durumda X ve Y nümerik veriler olduğundan X ile Y’nin korelasyonu hesaplanabilir: Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y)) X ile Y’nin kovaryansı birbirlerine göre doğrusal olarak nasıl değer aldıklarını belirtir: Cov(X,Y)=E[(X-mX) (Y-mY)] mX X’lerin ortalaması, std(X)’de standart sapmasıdır. Örneğimizde m X X malının ortalama olarak ne kadar beğenildiğini, std(X) de beğenilerin bu ortalama etrafında ne kadar değişken olduğunu gösterir. Eğer X’i sevenler genelde Y’yi de sevdiyse hem X, hem de Y değeri ortalamadan daha yüksek olacak ve Cov(X,Y)>0 olacaktır. Aynı şekilde X ve Y beraber beğenilmiyorsa her iki değer de ortalamadan küçük olacak ve yine Cov(X,Y)>0 olacaktır. Eğer X’i beğenenler Y’yi beğenmediyse (veya aksi takdirde) değerlerden biri ortalamadan yüksek, diğeri ortalamadan düşük olacak ve Cov(X,Y)<0 olacaktır. Corr(X,Y)’de Cov(X,Y)’nin –1 ile 1 arasında standart sapmalara göre normalize edilmiş halidir. - 18 - Corr(X,Y) değerinin 0 olması X ile Y arasında (doğrusal) bağlantı olmadığını, negatif değer ters, pozitif değer de doğrudan bağıntı olduğunu gösterir. Bu şekilde olası bütün mallar arasında korelasyon bilgileri varsa X’i kullanan ve seven kişiye tavsiye edilecek Y müşterinin kullanmadığı diğer bütün mallar arasında X ile korelasyonu en fazla ve olabildiğince 1’e yakın olan mal olmalıdır. 5.1.3 Apriori Algoritması Birliktelik kuralları madenciliğinin iki önemli kısmı vardır. İlk olarak geniş nesne kümeleri oluşturulur ve ikinci evrede kurallar üretilir. Geniş nesne kümeleri çeşitli algoritmalar kullanılarak daha küçük nesne kümelerine indirgenirler. Bu amaçla kullanılan algoritmalardan en yaygını apriori algoritmasıdır. Şekilde bu algoritmanın uygulanması gösterilmiştir. (Veriler bir güzellik merkezinin veri tabanından alınmış ve algoritma uygulanmıştır.) Apriori Algoritmasının Uygulanması D Fiş No 1 2 3 4 Nesneler 1,3,4 2,3,5 1,2,3,5 2,5 A2 Barkod 1,2 1,3 1,5 2,3 2,5 3,5 Olasılık 0,25 0,5 0,25 0,5 0,75 0,5 A1 Barkod 1 2 3 4 5 Olasılık 0,5 0,75 0,75 0,25 0,75 B2 Barkod 1,3 2,3 2,5 3,5 Olasılık 0,5 0,5 0,75 0,5 B1 Barkod 1 2 3 5 Olasılık 0,5 0,75 0,75 0,75 A3 Barkod 2,3,5 Olasılık 0,5 B3 Barkod 2,3,5 Olasılık 0,5 D ile gösterilen 4 adet alışveriş işlemi olduğunu düşünürsek, Apriori algoritması şu şekilde çalışır: İlk olarak A1’de gösterildiği gibi her ürünün ayrı ayrı olasılık değerleri hesaplanır. A1’de belirlenen olasılık değerlerinden minimum olasılık değerinin üzerinde olanlar seçilerek B1 oluşturulur. B1’deki nesnelerin ikili kombinasyonlarının olasılık değerleri hesaplanarak A2 oluşturulur. A2’de belirlenen olasılık değerlerinden de minimum olasılık değerinin üzerinde olanlar seçilir (B2). Algoritma benzer şekilde uygulanarak analiz edilmek istenilen ürün kombinasyonu sayısına göre nesne kümeleri oluşturulur. Belirlenen nesne kümeleri neticesinde birliktelik kurallarının uygulanmasına geçilebilir. Örnek olarak; Bir güzellik merkezinden elde edilen veriler 2005 yılının ilk üç ayına ait olup 3282 fiş hareketi içermektedir. Güzellik merkezinde 9000 çeşit ürün seçeneği bulunmaktadır. Elde edilen veriler çeşitli aşamalardan geçer. Sonuçta 3282 fiş harekete ve 9000 çeşit ürün üzerinden çıkarılmıştır. Bu fiş hareketleri içerisinden elde edilen birliktelik kurallarının bazıları, bu kuralların olasılık ve koşullu olasılık değerleri ile birlikte aşağıda özetlenmiştir. (Bu analizde bize yol gösterecek ölçü birimleri olasılık ve koşullu olasılık değerleridir.) - 19 - Birliktelik Kuralları, Olasılık ve Koşullu Olasılık Değerleri BİRLİKTE ALINAN ÜRÜNLERİN KODLARI 556 555 557 555 557 556 557 (555 ve 556) 558 (555 ve 556) OLASILIK DEĞERİ %3,47 %3,11 %3,32 %0,79 %0,46 KOŞULLU DEĞERİ %24,89 %22,82 %24,39 %5,82 %6,44 OLASILIK Bu sonuçlara göre; i. 556 ve 555 nolu ürünlerin toplam fiş hareketlerinde birlikte bulunma olasılığı %3,47’dir. 556 nolu ürünü alan bir müşterinin %24,89 olasılıkla 555 nolu ürünü de aldığı söylenebilir. ii. 557 ve 555 nolu ürünlerin toplam fiş hareketlerinde birlikte bulunma olasılığı %3,11’dir. 557 nolu ürünü alan bir müşterinin %22,82 olasılıkla 555 nolu ürünü de aldığı söylenebilir. iii. 557 ve 556 nolu ürünlerin toplam fiş hareketlerinde birlikte bulunma olasılığı %3,32’dir. 557 nolu ürünü alan bir müşterinin %24,39 olasılıkla 556 nolu ürünü de aldığı söylenebilir. iv. 557 nolu ürünün, 555 ve 556 nolu ürünler ile toplam fiş hareketlerinde birlikte bulunma olasılığı %0,79’dur. 557 nolu ürünü alan bir müşterinin %5,82 olasılıkla 555 ve 556 nolu ürünleri de aldığı söylenebilir. v. 558 nolu ürünün, 555 ve 556 nolu ürünler ile toplam fiş hareketlerinde birlikte bulunma olasılığı %0,46’dır. 558 nolu ürünü alan bir müşterinin %6,44 olasılıkla 555 ve 556 nolu ürünleri de aldığı söylenebilir. Bu çalışma geniş içerikli bir müşteri profili çıkarma projesinin ilk adımını oluşturmaktadır. Çalışmanın bir sonraki adımında güzellik merkezi müşterilerine ait özellikler (yaş, cinsiyet vs.) ve alışverişlere ait diğer özellikler (alışveriş miktarı, alışveriş saati, promosyonlar, indirimler vs.) de analize katılarak müşterilerin alışveriş profilini elde etmek planlanmaktadır. Apriori algoritması için bir başka örnek aşağıda verilmiştir: Marketten Yapılan Alışveriş Bilgilerini İçeren D Veritabanı - 20 - Bir marketten yapılan alışverişlerin bilgilerini içeren D veritabanı görülmektedir. Bu veritabanında yapılan alışverişlerin numaraları ANO sütununda görülmektedir. Her alışverişte satın alınan ürünler de Ürün No sütununda görülmektedir. Apriori algoritmasında takip edilen basamaklar aşağıda gösterilmektedir. 1- Algoritmanın ilk adımında, her ürün tek basına bulunduğu C1 kümesinin elemanıdır. Algoritma, her ürünün sayısını bulmak için tüm alışverişleri tarar ve elde edilen sonuçlar Şekil'de Destek Sayısı (o malı içeren alışveriş sayısı) sütununda görülmektedir. Tablo 'da görülebileceği gibi D'de I1 ürününden 6 adet, 12 ürününden 7 adet, 13 ürününden 6 adet, 14 ürününden 2 adet ve 15 ürününden de 2 adet satıldığı görülmektedir. 2- Minimum alışveriş destek sayısının (o malı içeren alışveriş sayısı )2 olduğu varsayılırsa, tek baslarına sık tekrarlanan ürünler L1 kümesinde görülmektedir. C1 kümesindeki tüm ürünlerin destek sayısı, minimum destek eşik değeri olan 2'den fazla olduğu için C1 tüm ürünler sık tekrarlanan ürün olarak değerlendirilir ve L1 kümesine aktarılır. 3- Hangi ürünlerin ikili olarak sık tekrarlandığını belirlemek için L1 kümesindeki ürünlerin ikili kombinasyonları bulunarak C2 kümesi oluşturulur. 4- C2 kümesindeki ürünlerin destek sayılarını bulmak amacıyla D taranır ve bulunan değerler destek sayısı sütununda belirtilir - 21 - Apriori Algoritmasının Gösterimi 5- C2 kümesindeki ürünlerden minimum destek eşik değerini aşan ürünler L2 kümesine aktarılır. 6- Hangi ürünlerin üçlü olarak sık tekrarlandığını belirlemek için L2 kümesindeki ürünlerin üçlü kombinasyonları bulunarak C3 kümesi oluşturulur. Bu durumda C3 = {{I1,I2,I3}, {I1,I2,I5}, {I1,I3,I5}, {I2,I3,I4}, {I2,I3,I5}} olması beklenir. Ancak Apriori algoritmasına göre, sık tekrarlanan öğelerin alt kümeleri de sık tekrarlanan öğe olması gerekmektedir. Buna göre yukarıdaki C3 kümesindeki elemanlar sık tekrarlanan olmadığı için, yeni C3 kümesi C3 = {{I1,I2,I3}}, {I1,I2,I5}} olur. 7- C3 kümesindeki ürünlerin destek sayılarını bulmak amacıyla D taranır ve bulunan değerler destek sayısı sütununda belirtilir. 8- C3 kümesindeki ürünlerden minimum destek eşik değerini aşan ürünler L3 kümesine aktarılır. 9- Hangi ürünlerin dörtlü olarak sık tekrarlandığını belirlemek için L3 kümesindeki ürünlerin dörtlü tek kombinasyonu {II, I2, I3, I5} olarak belirlenir. Ancak bu kümenin alt kümelerinin tamamı sık tekrarlanan öğe olmadığı için C4 kümesi bos küme olur ve Apriori tüm sık tekrarlanan öğeleri bularak sonlanmış olur. Sık tekrarlanan öğeleri bulduktan sonra , sıra birliktelik kurallarını oluşturmaya gelir. Örneğin sık tekrarlanan bir öğenin, boş olmayan tüm alt kümeleri şunlardır: [11]: {I1, I2}, {I2, I5}, {I2, I5}, {I1}, {I2},{I5}. Bu durumda Tablo 'daki veritabanına bakarak şu birliktelik kuralları çıkartılabilir: 1-11 Λ12==>15, olasılık=2/4= 0.5 2-11 Λ15==>12, olasılık=2/2= 1 3-12 Λ15==>12, olasılık=2/2= 1 4-11==> 12 Λ15, olasılık=2/6= 0.33 5-12==> 11 Λ15, olasılık=2/7= 0.29 6- 15==> 11 Λ12, olasılık=2/2= 1 Eğer minimum güven eşik değeri %70 olarak belirlenmişse, ikinci, üçüncü ve altıncı kurallar dikkate alınır çünkü diğer kurallar esik değerini aşamamış olurlar. 5.2 Kredi Skor Hesabı Kredi, bir finansal kurum tarafından bir müşteriye ödünç verilen ve faiz eklendikten sonra genelde düzenli aralıklı taksitler halinde geri ödenmesi gereken paradır. Bir kredi başvurusunda müşterinin krediyi geriye ödeyememesi olasılığını hesaplamaya kredi skorlama denir. Buna davranış veya performans skorlamadan ayırmak için başvuru skorlama da denir. Başvuru skorlamada bir finans kurumuna kredi için başvuran kişi ile ilgili finansal güvenilirliğini belirleyen örneğin 0 ile 1000 arasında bir skor hesaplanır. Bu skor kişinin özellikleri ve geçmiş kredi hareketlerine dayanılarak hesaplanır. Örneğin; - 22 - “Ev sahibi olan, evli, aynı iş yerinde beş yıldan fazladır çalışan, geçmiş kredilerinde geç ödemesi bir ayı geçmemiş bir erkeğin kredi skoru 825’dir.” Davranış veya performans skorlama ise kredi almış ve taksitlerini ödemekte olan bir müşteriyi değerlendirmekte kullanılır; örneğin kredi kartının limitini değiştirmek, yenilemede yeni kartın süresi, olası sorunların tahmini, geç ödeme durumunda alınacak eylem bu şekilde belirlenebilir. Örneğin; “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla kanuni takibe gidiyor.” Skorlama yaparak yüksek riskli müşterilere kredi vermeyi reddetmek finansal kurumun olası zararını azaltacak, düşük riskli müşterilere kredi vererek kârını arttıracak, üstelik müşterilerin ödeyemeyecekleri kredilerden dolayı rahatsızlığını azaltacaktır. 5.2.1 Skor Kartı Skor kartı denilen bir istatistiksel model, müşterinin başvuru formundaki bilgilere ve diğer —örneğin kredi izleme bürosundan gelen— bilgilere dayanarak kredinin geriye ödenememesi olasılığını hesaplar. Bu değer uygun bir eşik değeri ile karşılaştırılarak kredi talebi kabul veya red edilir. Skor kartı geçmiş müşterilerin verilerinden oluşturulur ve genelde basit bir ağırlıklı toplamadır. Tipik olarak kullanılan alanlar şunlardır: İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl Ev durumu: Sahip, kiracı, diğer Posta kodu: Kodlanmış Telefon: Evet, hayır Yıllık gelir: Kodlanmış Kredi kartı: Evet, hayır Yaş: 18-25, 26-40, 41-55, 55+ yıl Meslek: Memur, işçi, serbest, işsiz, ... Medeni hali: Evli, bekar, diğer Bankanın müşterisi olduğu zaman: yıl Çalıştığı kurumda çalışma zamanı: yıl Müşteri ile ilgili her bilginin iyi müşteriyi kötüden ayırmaktaki etkisine göre bir ağırlığı vardır. Kullanılan alanlar ve ağırlıkları veriden otomatik olarak hesaplanır. Örneğin: Kredi kartı Evet: +50 Hayır: –20 Skor kartının oluşturulabilmesi için geçmiş müşterilerin iyi risk ve kötü risk olarak gruplanabilmesi gerekir. İyi risk örneğin hiç geç ödemesi olmayan müşteri, kötü risk de örneğin üç veya daha fazla arka arkaya geç ödeme yapmış müşteriler olabilir; bir veya iki defa arka arkaya geç ödemesi olan müşteriler belirsizdir ve skor kartı oluşturmada kullanılmaz. Kötü riski tanımlamak kolay değildir; belki geç ödemeler daha yüksek faiz nedeniyle kurum için kârlı olabilir. Gerçekte tanımlamak istediğimiz zarara neden olan müşteridir. Yapmak istediğimiz kârlı ve zararlı müşterileri birbirinden ayırabilmektir. Bu şekilde kârlı ve zararlı müşterilerin bilgileri iki grup olarak verildikten sonra genelde doğrusal regresyon kullanılarak alanların ağırlıkları hesaplanır. Bu ağırlıklar hesaplandıktan sonra kabul/red eşiği hesaplanır. Bunun için her iyi müşterinin kuruma kaç birim kârlı, her kötü müşterinin kuruma kaç birim zararlı olduğunun verilebilmesi - 23 - gerekir. Hangi değerin üstünde beklenen toplam kâr beklenen toplam zararı aşarsa o değer eşik olarak kabul edilir. Kredi skoru kredi talebini kabul/red kararı dışında da kullanılabilir: Kredi verirken riske bağlı fiyatlandırma yapılabilir. Örneğin yüksek riskli bir müşteriyi reddetmek yerine daha yüksek bir faizle veya daha küçük bir miktarla kabul edebiliriz. İyi müşteriler için başka ürünler, daha yüksek kredi limitleri gibi kararlar verebiliriz. Davranış skorlamada kredi skoruna göre eylemimiz değişir: Geç ödeme durumunda iyi bir müşteriyi hiç rahatsız etmeyiz, başka bir müşteriye telefon açarız, daha kötü (skoru daha düşük) bir müşteri için kanuni takibe gideriz. Bir müşteri için kabul kararı verince zaman içinde o müşterinin kârlı mı, zararlı mı olduğunu görüyoruz ama reddettiğimiz bir müşteri için gerçek sonucu bilemeyiz. Bu da örnek kümemizin gittikçe daralması anlamına gelir. Buna neden olmamak ve skor kartımızın sınıflandırma başarısını iyileştirebilmek için normalde red edeceğimiz müşterilerle ilgili ek bilgi almaya çalışmak yararlıdır. Bunun için örneğin kredi izleme bürosundan o kişiye kredi vermiş başka finans kurumlarının o kişi ile ilgili bilgisine başvurulabilir; ya da reddetmek yerine daha küçük bir miktarla müşteri olarak kabul edilebilir veya böyle kişilerden çok azı denemek ve bilgi kazanmak için kabul edilebilir. Eğer skor kartımızın başarısını arttırmak bizim için bir miktar zarardan daha önemli ise bu ticari olarak mantıklı bir davranış olur. Kredi skoru kişilerin eğitimini, kariyerini ve hatta ilişkilerini etkileyebilecek güçte bir yapıya sahiptir. Sadece bankalar ve finans kurumları değil; oto, hayat ve ev sigortası sağlayan firmalar, iş verenler de skorunuza göre hareket edip, karar verirler. • Hayat, ev, oto sigortanızda ödeyeceğiniz aylıklar • Öğrenciyseniz, okuldan yardım alıp almayacağınız • İşe alınıp alınmayacağınız gibi gerçekler hep kredi skorunuzun iyi olmasına göre karar verilir. Kredi skoru, genel olarak 200-250 gibi başlayıp 800’lere kadar çıkar. 730 ve üstü – “Mükemmel” olarak nitelendirilen müşterilerdensiniz. Kredi talebiniz olumlu karşılanır. 700-729 – “İyi kredi” olarak nitelendirilen müşterilerdensiniz. Bir üst müşteri grubundaki gibi kredi talebiniz olumlu karşılanır. 670-699 – Dosyanız inceleme altında tutulur. Herhangi olumsuz bir durum karşısında gerekli işlemler yapılır. 585-669 – Düşük faizli kredi almanız çok zor. Riskli kategorisindesiniz. 585 ve altı – Risklisiniz, kredi alsanız bile çok ağır şartlar altında alabilirsiniz. 5.2.2 Kredi skorunuzu etkileyen etkenler; Ödenmemiş borçlar Kredi tarihçesinin uzunluğu Ödeme tarihçeniz Negatif bilgilerin hangi ne kadar çok olduğu, hangi zaman periyodlarında olduğu Kredi borçlanma oranınız Kamu bilgileri → mahkeme kararları, iflas Geç ödemeler → 30 – 60 – 90 günlük geç ödemeler Çok uzun olmayan kredi tarihçesi Tatmin edici sayıda olmayan açık hesap sayısı Yüksek borçlanma oranı Yeni açılan hesapların çokluğu Kredi raporunun çok sayıda incelenmesi - 24 - 5.2.3 Kredi Skorunuzu yükseltmek için; Ödemelerinizi zamanında yapın. Borçlanma oranınızı %40’larin altında tutun… Mümkünse %20-30 arasında olsun. Çok kısa aralıklarda krediye başvurmayın, raporunuzu olabildiğince az incelettirin.. 5.2.4 Kredi Skor Hesabının Yararları 6 Daha doğru karar vermeyi sağlar. Hızlı ve ucuzdur. Kullanılan tek skor kartının üzerinde kurumun kontrolü vardır. Yeni skor kartı otomatik olarak hızlı ve kolay bir şekilde hesaplanabilir. VERİ MADENCİLİĞİ VE İSTATİSTİK İstatistikte kullanılan tahmin yöntemleri bilgisayarlarda otomatikleştirilmiştir. Bunun sonucunda istatistik tabanlı veri madenciliği teknikleri ortaya çıkmıştır. Veri madenciliği, istatistiksel süreçleri etkili bir biçimde otomatikleştirir. Bu sayede son kullanıcının yükünü biraz da olsa hafifletir. Veri madenciliği ve istatistikte ortak amaç, karmaşık verilerden anlamlı bilgiler elde etmektir. En büyük farkları ise; veri madenciliğinin bilgisayar teknolojisi ve birtakım algoritmalar sayesinde çok büyük miktardaki veri kümelerine hitap ediyor olmasıdır. Fakat bilinmelidir ki bu algoritmaların temelini istatistiksel yöntemler oluşturmaktadır. 6.1 İstatistikçinin Veri Madenciliğine Katkıları Çalışmanın amacının tanımlanması Uygulama sonucuna yararlı olabilecek her tür bilginin sisteme verilmesi Uygun yöntemin kullanılması Sonuçların yorumlanması ve geçerliliğinin kontrolü 6.2 Veri Tabanına İstatistiksel Bakış Bu kısımda bütün gözlemlerin bulunduğu veritabanı tablosu kitle olarak, odaklanma çıktısı ise örneklem olarak kabul edilecektir. Veritabanı tablosu, bütün değişkenlerin kartezyen çarpımından oluşmuş bir örneklem olarak da düşünülebilir. İstatistik açısından bakılacak olursa bir veritabanı kitleyi, tablodaki her bir değişken de rasgele değişkeni tanımlar. Bu durumda amaç kitleden örneklem çekmek olacaktır. - 25 - 6.3 Veri Madenciliğinde Kullanılan İstatistiksel Yaklaşımlar Sayı Tahmini Ve Örnekleme Özetlemeye Dayalı Modeller Varsayım Sınama (hipotez testleri) Bayes Teoremi Varyans Analizi Regresyon Faktör Analizi Zaman Serileri Kalite Kontrol 6.3.1 Sayı Tahmini Ve Örnekleme 1234- Bir bağımsız değişkeni tahmin etme işlemidir. Veri madenciliğinde, eksik değerlerin tahmini için kullanılır. Bu işlem, ortalama, varyans, standart sapma gibi istatistiksel değerleri tahmin etmek için yapılır. Bir veri kitlesinden çekilen örneklemin özellikleri ve eleme esnasında istenen özelliklere sahip olup olmadığının araştırılması amacıyla Örnekleme Yöntemlerine başvurulur. Örnekleme yöntemlerinden en genel olarak kullanılan yöntem olan Basit Rasgele Örnekleme de yapılan 4 çeşit tahmin vardır. Bunlar: Kitle toplamı tahmini Kitle ortalaması tahmini İki değişkenin birbirine oranının tahmini Belli özelliğe sahip birimlerin oranının tahmini 6.3.2 Özetlemeye Dayalı Modeller Özetlemede amaç, veriyi az sayıda özellikte karakterize etmektir. Verinin tümümün bir özetini sağlayan birçok temel kavram vardır. İyi bilinen temel istatistiksel kavramlar;ortalama, mod, veri genişliği, varyans ve standart sapma dır. Bu istatistiksel değerler sırası ile kitlede veya örneklemde veriyi tanımlar. Tanımlanmış veri, verilerin bir parçası değildir. Ancak verilerce belirlenen bir bilgidir. Tanımlanmış veri sadece matematiksel mekanizmalarda hesaplanabilir ve verinin etiketini oluşturur. 6.3.3 Hipotez Testleri İstatistikte örneklemler ve onların kitlelerle ilişkileri hakkındaki varsayımları analiz eden en önemli işlem hipotez testidir. Veri madenciliğinde kitlelerin karşılığı odaklanma girdisi, örneklemlerin karşılığı ise odaklanma çıktısıdır. Bu teknikte önce bir varsayım oluşturulur. Sonra bu varsayımı veri üzerinde sınayarak gözlenen veriyi açıklayan bir model bulmaya çalışılır. Model oluşturma sürecini gerçek veri yönetir. Kurulan varsayımının doğru olup olmadığı bir veri örneği ele alınarak incelenir. Varsayım bu örneğe uyarsa genelde tüm veriye uyduğu kabul edilir. Belirli bir veride sınanacak olan başlangıç varsayımına Ho - 26 - denir. Boş varsayım kabul edilmezse başka varsayımlar doğar. Bunlara da alternatif varsayımlar denir ve Hs ile gösterilir. Hipotezlerin kurulması; (Ho) sıfır hipotezi ve (Hs) seçenek hipotezi oluşturulur Kullanılacak olan önemlilik derecesi belirlenir. Ortalamanın testi için kullanılacak t ya da z değerleri belirlenir. Eğer örneklem genişliği 30 dan büyükse z ,30 dan küçükse t değeri kullanılır. Önemlilik derecesi a değerine göre tablo değeri belirlenir. Tablo değeriyle hesaplanan değer karşılaştırılır. Sonucunda da hipotez ya kabul ya da reddedilir. Hipotez testleri, örneklem ve kitlenin fonksiyonu olan birtakım test istatistiği terimleri ve Ho hipotezinin reddedildiği test istatistiği değerlerinin düştüğü “red bölgesi” ile belirtilir. Hipotez testlerinin en önemli kısmı, uygun test istatistiğinin ve red bölgesinin tanımıdır. Bu tanım istatistiksel hipotez testlerinin özelliklerini belirtmektedir. Tanımın ilk kısmındaki sıfır ve alternatif hipotezlerde kitle parametrelerinin herhangi bir somut alt kümesi göz önünde bulundurulduğu için, bu kısım ikinci kısma göre daha genel bir anlama sahiptir. İkinci kısımda ise, sıfır ve alternatif hipotezler kitle parametrelerinin belirli bir değerini kullanmaktadır. Tek yönlü hipotez, örneklem parametresini eşik olarak belirlenmiş değerle(tablo değeri) karşılaştırır. Hipotez testlerinde 2 tür hata vardır. Ho kabul Ho doğru DOĞRU Hs doğru II.Tür Hata (b hatası) Ho red I.Tür Hata (a hatası) DOĞRU 6.3.4 Bayes Teoremi Bir sınıflandırma sorununun olasılık terimleriyle açıklanabileceği varsayımına dayanır. Bayes kuralı, bir veri grubunda bir özelliğin olasılığını tahmin etme yöntemidir. Belirli bir veri değerinde çeşitli varsayımların olasılığını araştırır. Bayes formülü: şeklindedir. - 27 - Bilimsel karar yöntemlerinden biri olan Bayezyan yaklaşım, olasılıklı (kesin olmayan) bir bilginin incelenmesine objektif bir bakış açısını esas alır ki, bu yaklaşım bilimsel gerçekten ziyade bilginin aşamalarına odaklanır. Thomas Bayes (1764)’e izafe edilen bu düşüncenin tam olarak ifadesini bulması 1930’lara kadar gecikmiş ve ancak 1970’lerden sonra genetik ve tıbbi çalışmalarda yer almaya başlamıştır. Diğer yandan bu teorem genetik danışmanlar tarafından, taşıyıcılık risklerinin hesaplanmasında yaygın olarak kullanılmıştır. Buna paralel olarak bilgisayar destekli tanısal yaklaşımda kullanımı giderek artmaktadır. Bayes hesapları çalışma düzeninden bağımsız olduğundan klinik analizde diğer bazı karar yaklaşımlarından daha esnektir ve geleceğe ait olasılıkları hesaplayabilme olanağına sahiptir. Örnek; Kanser teşhisi için yeni bir test geliştirildiğini kabul edelim.Kanserin insanlarda görülme sıklığının 0,05 olduğunu varsayalım, bu test için bize verilen bilgi de kanser hastası olanlar üzerinde denendiğinde % 95pozitif sonuç verdiği olsun. Sorumuz: “Bu test güvenilir bir test midir?” olacaktır. A = testin uygulandığı kişide sonuç pozitif (teste göre B= kişinin kanser olması (teste göre değil, gerçekten "kanser kişinin var") kanser olması) Bu durumda; A' = testin uygulandığı kişide sonuç negatif (kanser olmaması durumu) B' = kişinin kanser olmaması durumu Bu durumda başta verilen bilgileri kullanırsak; P(A/B) = P(A‘/B‘) = 0.95 (kişi kanser(B) ve test uygulanmış(A)) P(B)=0.005 (bir insanın kanser olma ihtimali, ya da kanserin rastlanma sıklığı) Bayes P(B/A) teoremi = P(B)*P(A/B) / {( P(A/B)*P(B) + = [(0.005)(0.95)] / (0.95)(0.005)+(0.05)(0.995) = 0.087 kullanırsak; P(A/B‘)*P(B‘) } Bu test biri üzerinde pozitif sonuç verdiğinde aslında o kişinin kanser olma ihtimali % 8.7 bulunmuştur. Bu çok düşük bir değer olduğu için test kullanılırsa çok fazla sayıda yanlış uyarı meydana geleceğinden TEST BAŞARISIZDIR denir. NOT: Başlangıçta verilen ve P(A/B) dediğimiz kavramla sonradan bulduğumuz P(B/A)'nın karıştırılmaması gerekir. Birincisi kanserli hastaya uygulanan testin verdiği sonuç iken ikincisi testin kanser teşhisi koyduğu kişilerin gerçekte ne kadarının kanser olduğudur. Bayes teoreminin veri madenciliği alanında kullanımı, belli bir veri tabanı kitlesinden çekilmiş örnekleme dair ulaşılmak istenen olasılıkları hesaplamaktır. Örneğimizde olduğu gibi eğer binlerce hastaya ait bilgilerin bulunduğu bir veri tabanından söz ediliyorsa ve bu hastalardan kanser teşhisi konulmuş olanlarına yapılan testin sonuçlarına göre belli özellikte bir veri aranıyorsa Bayes Teoremi kullanılarak bu özelliği sağlayan hastaların oranı bulunabilir. Veri madenciliği uygulamalarında da amaç zaten istenilen özellikte veriye ulaşmaktır. - 28 - 6.3.5 Varyans Analizi Varyans analizi ikiden çok kitle ortalaması arasındaki farkın önemini belirtir. Bir çok grubu aynı anda karşılaştırır. ÖRNEĞİN; Üç yeni ilacın nabız atışı üzerindeki etkisi, çamaşır beyazlatması açısından değişik deterjanlar arasındaki fark varyans çözümlemesi ile incelenir. Eğer gruplar arasında farklılık çıkarsa ikişerli karşılaştırmalarla farkı yaratan grup belirlenebilir. Çeşitleri: Tek yönlü varyans analizi Çift yönlü varyans analizi Tekrarlı ölçümlerde varyans analizi Çok etkenli varyans analizidir. Varyans analizinin veri madenciliğinde kullanımı için, önceden veri tabanından belirli örnekleme yöntemleri kullanılarak seçilmiş olan verilerin analizinin yapılmasında kullanıldığı söylenebilir. Varyans analizi, verinin yapısının belirlenmesinde ve ileriki aşamada model kurulmasında yol gösterici olarak kullanılacak bir istatistiksel yöntemdir. 6.3.6 Regresyon Regresyon, genellikle geçmişteki değerleri temel alarak gelecekteki değerleri tahmin etmek için kullanılır. Doğrusal regresyon, girdi verisi ile çıktı verisi arasında doğrusal bir ilişki olduğunu varsayar. Regresyon her bir tahmin edici için kesin katsayılar üretir ve bu katsayılar bağımlı değişkenin tek tek her bir tahmin edici tarafından hangi oranda açıklandığını gösterir. Regresyon, bağımsız değişkenlerin (X) değerleri için bağımlı değişkenin (Y) alacağı değeri tahmin etmeye yarar. İki değişken arasında y=f(x) gibi bir bağıntı oluşur. Örneğin, bir bankanın müşterileri üzerinde yaptığı “müşteri değeri” araştırmasında elde ettiği “müşteri statüsü - yaşı” ve “müşteri statüsü – geliri” çapraz çizelgelerinden elde edilen sonuçlar birleştirilerek bir yorum yapılabilir ancak bu hem çok zor hem de yanıltıcı olabilir. Bu iki çapraz çizelgeyi birlikte incelediğimizde her yaş grubundaki müşteri ve müşteri olmayanlar arasındaki farkın göreli önemi hesaba katılmamış olur ve bunu göz ardı etmek yanıltıcı olabilir. Bu nedenle ikiden fazla değişken arasındaki ilişkiyi incelerken regresyon analizi gibi çok değişkenli analiz yöntemlerine başvurulmalıdır. Aynı şekilde bankanın müşteri değeri araştırmasında bu değer üzerinde yaş, ve gelirin gayet etkili tahmin ediciler, eğitim düzeyinin daha az etkili bir tahmin edici olduğunu, fakat aile bireylerinin sayısının ise etkili olmadığını gösterirken, doğrusal regresyon, müşteri değeri üzerinde diğer bütün tahmin edicilerin eş zamanlı etkilerini inceleyerek her bir tahmin edicinin tek ve göreli önemini elde etmemizi sağlar. Bu yüzden regresyon çapraz çizelgelemeden ya da diğer basit iki değişkenli yöntemlerden daha güçlü bir tekniktir. - 29 - 6.3.7 Faktör Analizi Faktör analizi; çoğu kez araştırmalarda kullanılan çok sayıdaki değişkenin aslında birkaç temel değişkenle ifade edilebilip edilemeyeceğinin merak edildiği durumlarda kullanılır. Faktör analizi, birbirleriyle ilişkili veri yapılarını birbirinde bağımsız ve daha az sayıda yeni veri yapısına dönüştürmek, bir oluşumu, nedeni açıkladıkları varsayılan değişkenleri gruplayarak ortak faktörleri ortaya koymak,bir oluşumu etkileyen değişkenleri gruplamak, majör ve minör faktörleri tanımlamak amacıyla başvurulan bir yöntemdir. Birbiriyle ilişkili çok sayıda değişkeni bir araya getirerek az sayıda kavramsal olarak anlamlı yeni değişkenler bulmayı,keşfetmeyi amaçlayan çok değişkenli bir istatistiktir. Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının çalışması ve sonuç üretmesi çok uzun sürebilir. Veriyi azaltma başarıyı artırır. Veri azaltma yöntemlerinden biri olan faktör analizi uygulanırken: - Veri madenciliği uygulaması için gerekli olan faktörler seçilir. - Faktörler altkümesi kullanılarak elde edilen sınıfların dağılımları gerçek dağılıma eşit ya da çok yakın olmalıdır. ÖRNEK 9:Okul müdürlerinin faklı liderlik davranışlarının öğretmenlerin iş tatminine etkilerinin ölçüldüğü bir araştırma yaptığınızı düşünün. Bu araştırmada müdürlerin farklı liderlik davranışlarını (Örnek, Otokritik, Katılımcı, Destekleyici vb.) ayrı ayrı değerlendirmeniz gerekecektir. Belki anket öncesi bu tür bir gruplandırma yapmış da olabilirsiniz. Bu durumda dahi yaptığınız gruplandırmanın ne derecede doğru olduğunu Faktör Analizi ile sayısal olarak doğrulamanız yararlı olacaktır. Çünkü sizin katılımcı liderlik davranışı olarak tanımladığınız bir davranış öğretmenler tarafından destekleyici liderlik davranışı olarak yorumlanmış olabilir. Bu durumda bu soru ya anketten çıkartılmalı ya da destekleyici liderlik kategorisinde değerlendirmeye alınmalıdır. Anket öncesi hiçbir kategorizasyon yapılmadığı durumlarda ise Faktör Analizi eşsiz bir araçtır. Soruları sizin için gruplandırır. Bundan sonra size kalan sadece her bir gruba isim vermektir. 6.3.8 Zaman Serileri Zaman değişkeniyle ilişkili bir değişken hakkında, elde edilen gözlem değerlerini zamana göre sıralanmış olarak gösteren serilere “zaman serileri” denir. Zaman serilerini konu alan çalışmaların genelinde, serilerin gözlem değerleri eşit aralıklı zaman noktalarında elde edilmiştir. Gelecek olayları ya da koşulları tahmin etmeye öngörü denir. Veri tabanı üzerinden elde edilen verilerle zaman serileri oluşturulur. Oluşturulan zaman serileri ile gerekli çözümlemeler yapılır ve öngörü işlemi ile geleceğe yönelik tahminlerde bulunulur. Bu noktada veri madenciliğinden yararlanılması, istenilen verilere daha kolay bir şekilde ulaşılmasını sağlar. Bu, aynı zamanda maliyet ve zamandan da tasarruf sağlanacağı anlamına gelmektedir. - 30 - ÖRNEK 10: Hükümet politikalarının oluşturulabilmesi için işsizlik oranı, vergi oranı, elektrik tüketimi, kişi başına düşen milli gelir gibi ülkenin özelliklerini ortaya çıkarabilecek faktörler ile ilgili öngörülerde bulunulması gerekmektedir. Bu öngörü işlemi sonucunda ülkenin gelecekte hangi alanlarda sorunları artacak gibi gözüküyorsa o alanlarda sorunları çözümleyebilecek ilgili politikalar geç kalınmadan hükümet tarafından yürürlüğe konulmalıdır. ÖRNEK 11: Bir süpermarkette, mart ayının son haftasında nisan ayının ilk haftası için A marka şekerden ne kadar sipariş verilmesi gerektiğine dair bir tahminde bulunabilmek adına; son 2 ayda haftalar içerisinde A marka şekerin satış miktarına(kg) ilişkin, veri tabanı üzerinden ulaşılan verilerle bir zaman serisi elde edilmiştir. Buna göre; HAFTALAR Şubat 1.hafta Şubat 2.hafta Şubat 3.hafta Şubat 4.hafta Mart 1.hafta Mart 2.hafta Mart 3.hafta Mart 4.hafta ŞEKER MİKTARI(kg) 165 170 180 198 200 202 207 210+ Bu zaman serisine göre şu öngörüde bulunulabilir: “Oluşturulan bu zaman serisine göre A marka şekerin satış miktarında son 8 haftada sürekli bir artış gözlenmiştir. Buna göre çok büyük bir olasılıkla nisan ayının ilk haftasında da A marka şekerin satış miktarında artış olacaktır. Bu durumda,nisan ayının ilk haftası için mart ayının son haftasında bugüne kadar satılan 210 kg.dan daha fazla sipariş verilmesi gerekir. Zaman serileri genel olarak “kartezyen koordinatlı” bir grafikle gösterilir.x ekseninde zaman değişkeninin şıkları, y ekseninde ise bu şıklar itibariyle y değişkeninin aldığı değerler yani gözlem değerleri yer alır. Zaman serileri ortalamadan gösterdiği sapmalara göre “durağan” ve “durağan olmayan” olmak üzere ikiye ayrılmaktadır. - 31 - Ele alınan zaman serisinin ortalaması ve varyansı simetrik bir değişme göstermiyorsa bu tür zaman serilerine “durağan olmayan zaman serileri” denir. Gerçek hayatta zaman serilerinin çoğu durağan değildir, dolayısıyla serilerin ortalaması zamanla değişmektedir. Özellikle parasal veriler durağan olmayan zaman serilerinden oluşur. Durağan olmayan zaman serilerinin uygun bir modele oturtulması mümkün değildir. Bunun için de bu tür veriler üzerinde çalışırken serinin durağanlaştırılması gerekmektedir. Literatürde zamandan etkilenmeyen, ortalaması, varyansı ve kovaryansı sabit olan serilere “zayıf durağan seriler” adı verilir ve geniş anlamda “durağanlık” olarak bilinir. Güçlü durağanlıkta sonlu ortalama ve varyansa gerek yoktur. Tek denklemli zaman serilerinde zayıf durağanlık ve durağanlık arasında bir fark yoktur. Herhangi bir z t serisinin durağan olması şartları şu şekilde özetlenebilir: sabit aritmetik ortalama: E(zt)= μ sabit varyans: Var(zt)= σ 2 gecikme sayısına bağlı kovaryans: cov(zt, zt+k )= γ Durağan zaman serilerinde ard arda gelen iki değer arasındaki fark zamanın kendisinden kaynaklanmamakta, sadece zaman aralığından kaynaklanmaktadır. Bu nedenle serinin ortalaması zamanla değişmemektedir. 6.3.9 Kalite Kontrol Günümüzde serbest piyasa ekonomisi nedeniyle firmalar arasında yaşanan rekabet şartları, üreticileri minimum maliyetle yüksek kalitede ürün üretmeye zorlamaktadır.Ürün kalitesi, alıcının ya da tüketicinin kararını etkilemede giderek daha fazla öneme sahip olmaktadır. Kalite kontrol nedir? Özellikle 1980’li yıllardan itibaren bilinçlenen tüketicilerin hatalı ürün yada hizmete karşı tutumları, tüketici isteklerinin karşılanmasının ve tüketici tatmininin sağlanmasının kaçınılmaz olduğunu göstermiştir.Bütün bu gelişmeler kalite kontrol kavramını da beraberinde getirmiştir. KALİTE KONTROL :Kalite isteklerini sağlamak için kullanılan uygulama teknikleri ve faaliyetleridir. İstatistiksel Kalite Kontrol Gittikçe artan tüketici ihtiyaçları ve buna bağlı olarak genişleyen üretim hacmi, muayeneye dayalı bir denetim sisteminin uygulanmasını kimi zaman olanaksız kimi zaman da yüksek maliyetli kılmaya başlayınca üretilen ürünlerin kalite düzeylerinin araştırılması ve varsa kalite değişiminin belirlenmesi için “istatistiksel kalite kontrolü teknikleri”nden yararlanılmaya başlanmıştır. Bu amaçla ürünlerin tamamını muayene etmek yerine, belirli zaman aralıklarında prosesi yeterince temsil edebilecek nitelikte örneklemler çekilir ve bu örneklemlerden gelen sonuçlara dayanarak proses hakkında tahminde bulunulur. Geçmişteki bilgilere bakılarak geleceğe yönelik tahminlerde bulunulmasında veri madenciliği yöntemleri bir çok alanda olduğu gibi kalite kontrolde de kolaylık sağlar. - 32 - İstatistiksel kalite kontrol tanımı: Bir ürünün en ekonomik, en yararlı aynı zamanda bir pazara sahip olacak biçimde üretimini sağlamak üzere, istatistiksel prensip ve yöntemlerin üretimin bütün aşamalarında uygulanmasıdır. Kalite Kontrol ve Veri Madenciliği Veri tabanı üzerinden elde edilen veriler üzerinde uygulanan kalite kontrol yöntemleriyle, kalite düzeyinin istenilen standartlara uygun olup olmadığı araştırılır. Eğer kalite düzeyi istenilen standartlara uygun değilse, kaliteyi istenilen seviyeye çıkartmak amacıyla çeşitli önlemler alınır. Kalite kontrolde veri madenciliğinden yararlanılması, veriye daha çabuk ve kolay ulaşılmasını, dolayısıyla zaman ve maliyetten tasarruf edilmesini sağlar. VERİ MADENCİLİĞİ UYGULAMASINA ÖRNEKLER Veri madenciliği, günümüzde pek çok sektörde önemli kullanım alanlarına sahiptir. Bugün birçok önemli firmanın, bulunduğu konuma gelmesinde doğru kullanılan veri madenciliği teknikleri ve uygulamaları önemli yer teşkil etmektedir. Biyomedikal için veri madenciliği uygulamaları DNA dizilimi 4 ana blok(nükleotit)tan oluşur. Bunlar ; Adenin(A), Sitozin(S), Guanin(G) ve Timin(T) dir. Bu nükleotitler birbirine sarılı bir ağ oluştururlar. Belirli bir sırada dizilen bu nükleotitlerin oluşturduğu yapıya gen denir. İnsanda yaklaşık 100.000 gen vardır. Hastalıklara yol açan gen sıralama örneklerini binlerce gen arasından bulmak oldukça zor bir iştir. Veri madenciliğinde geliştirilen sıralama örnek analizi ve benzerlik arama metotları DNA verisi üzerinde analiz yapmayı kolaylaştırmıştır. Kampanyalarda veri madenciliği uygulamaları Bu uygulamada bir bankada gerçekleştirilen bir pazarlama kampanyası örneği yer almaktadır. Bu kampanyada amaç ödeme davranışı “iyi” olan bireysel kredi kullanıcılarına kredi kartı sunmaktır. Kampanya için öncelikle ödeme davranışı “iyi” olanların belirlenmesi gerekir. Bu kampanyada “iyi” ödeme davranışlı müşterinin tanımı ilgili departman yöneticilerinin karşılıklı görüş alışverişleri sonunda saptanmıştır. Öncelikle; • • Kredi ödemesini süresi içinde yapanlar ve Kredi ödemesini süresi içinde yapmayanlar filtreleme yöntemiyle ayrıştırılmıştır. - 33 - Ödemesini zamanında yapmayanlar ise gecikme sürelerine göre sınıflandırılmıştır: Kredi geri ödemesini belli bir zamandan fazla geciktirenler Kredi geri ödemesini belli bir zamandan fazla geciktirmeyenler Ödemesini belli bir zamandan fazla geciktirmeyenler bu kez geciktirme sayılarına göre sınıflandırılmıştır: Bir kez geciktirenler Birden fazla geciktirenler Çok karmaşık gibi görünen bu sınıflandırmalar, veri ambarlarında depolanan veriler kullanılarak on binlerce mevcut müşteri için teknolojik destekle, çok kısa bir sürede yapılmıştır ve ödeme davranışı “iyi” olan müşteriler tespit edilerek kredi kartı hedef pazarı belirlenmiştir. Bu pazar; 1)Kredi ödemesini süresi içinde yapanlar 2)Kredi ödemesini süresi içinde yapmayanlar arasında ödemesini belli bir zamandan fazla geciktirmeyenler 3)Kredi ödemesini süresi içinde yapmayanlar arasında ödemesini belli bir zamandan fazla geciktirenler içinden bir kez geciktirenlerden oluşmaktadır. Perakende satış sektöründe veri madenciliği uygulamaları Amerika’da 2 milyar dolar yatırımı olan 15 eyalette 129 mağazası bulunan bir firma yapılan çalışmalarla şu sonuca varılmıştır: “Mağazaya gelen müşteriler, promosyonlu ürünlerin bulunduğu sol taraftaki raflara yönelmekte ve alışveriş için diğer bölümleri gezmeye ihtiyaç duymamaktadır.” Bu sonuç ardından mağazanın dekorunda değişiklik yapılmış ve satışlarda artış gözlenmiştir. Sağlık hizmet sektöründe veri madenciliği uygulamasına örnekler MapInfo şirketi, haritalama teknolojisini kullanarak hastaların yoğun olarak bulunduğu bölgeleri işaretlemekte ve bu sayede bu bölgelere daha iyi hizmet sunabilmektedir. Rochester Kanser Merkezi Bölümü, araştırmalarında KnowledgeSEEKER adlı karar ağacı tekniğini kullanır Türkiye’den Örnekler AXA OYAK Sigorta İşlemleri ve Ödemeler’den Sorumlu Genel Müdür Yardımcısı Ali Erlat “SAS Veri Ambarı (Data Warehouse) ile tespit edilmiş sahtekârlıklarla ilgili kayıplara ilişkin veri kümeleri arasındaki ilişkileri ortaya çıkararak, müşteri verilerini bölümlere ayırabiliyoruz. AXA OYAK, sigorta ödemelerinin %5’inin hileli işlemlerden kaynaklandığını ortaya çıkardı; bunlar bugün düzeltiliyor ve gelecekte de önlenecek. Sigorta ödemelerimizin %5-7 arasında azaldığını güvenle söyleyebilirim. Aynı zamanda, pazar payımızı da artırdık. Bunlar, SAS’ı kullanarak veri madenciliği ve analiz prosesi işlemlerimizin iki doğrudan sonucudur.” değerlendirmesini yapıyor. TURKCELL, SAS'la başlattığı Kredi Derecelendirme Projesi ile müşterilerin farklı - 34 - ödeme davranışları hakkında yeni bilgilere sahip olmuş ve doğru ödeme modelleri kurmuştur. Böylelikle müşteri memnuniyetini artırmanın yanı sıra, tahsilat sürecindeki maliyet ve riskleri azaltarak büyük bir avantaj sağlamıştır. TÜİK, ülkemizde ulusal ve uluslararası boyutta yararlar sağlayacağı inancıyla, en uçtaki kullanıcıdan, karar vericiye kadar geniş bir yelpaze içinde yer alan tüm kurum ve kuruluşların veri ve bilgi ihtiyacını gidermeyi amaçlamaktadır. İşte bu noktada SAS'ın İş Zekâsı Çözümleri'nin önemli parçalarından biri olan Analiz ve Raporlama Çözümleri, söz konusu uçtan uca ihtiyaçlara yanıt vermektedir. Türkiye'nin milyarlarca verisini kişi, kurum ve özel sektörün ihtiyaçlarına göre bilgiye dönüştürmektedir. - 35 -