İş Zekası Hafta 5 – Veri Madenciliği Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir Bölüm Amaçları İş zekası uygulamaları için mümkün kılan bir teknoloji olarak veri madenciliğini tanımlamak Veri madenciliği ve iş zekasının faydalarını ve avantajlarını anlamak Her türlü alanda yer alan veri madenciliği uygulamalarını tanımlayabilmek Standardize edilmiş veri madenciliği süreçlerini öğremek CRISP-VM SEMMA KDD Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 2/79 Bölüm Amaçları Veri madenciliğinde ön işleme süreçlerini öğrenmek ve önemini anlamak Veri madenciliği sürecinde kullanılan farklı metot ve yöntemleri anlayabilmek Var olan veri madenciliği yazılım araçları hakkında farkındalığı artırmak Ticari yazılımlar vs ücretsiz/açık kaynak kodlu yazılımlar Veri madenciliği hakkındaki mitleri ve tuzakları anlamak Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 3/79 Açılış Vakası Cabela Gelişmiş Analitik ve Veri madenciliği ile daha müşterinin ilgisini çekiyor Karar durumu Problem Tanımı Önerilen Çözüm Sonuçlar Vaka sorularının cevapları ve genel tartışmalar Perakendeciler neden gelişmiş analitik ve veri madenciliğine daha fazla önem vermektedir? Çok kanallı tedarikçilerin karşılaştığı en temel zorluk nedir? Diğer endüstri segmentlerini de düşünerek cevaplayınız. Cabela benzeri perakendecilerin en temel veri kaynakları nedir? Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 4/79 Veri Madenciliği Kavramı / Neden VM? Küresel ölçekte daha yoğun rekabet ortamı Müşteriye özel servis uygulamaları gereksinimi (CRM) Veri kaynaklarındaki değerlerin tanımlanması Müşteri, satıcı, işlem ve web tabanlı daha kaliteli verinin varlığı Veri ambarı teknolojisi ile birlikte farklı kaynakların analize uygun şekilde tek bir yerde konsolide edilmesi Veri işleme ve depolama kapasitelerindeki üstel arıtış – maliyetlerde düşüş Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 5/79 Veri Madenciliği Kavramı / Neden VM? İşletmelerin sahip oldukları veri karakteristikleri ile ilgili olup, verilerin yüksek boyutlarda, kompleks ve heterojen olması ve verilerin farklı coğrafi yerlerde tutulması ile ortaya çıkan dağıtık veri mimarisi (Veri Madenciliğine teknolojik gereksinim) Büyük ölçüde verilerin etkin bir biçimde analiz edebilecek yöntem ihtiyacı (Karmaşık yarı yapısal ve yapısal olmayan yöntemlere gereksinim) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 6/79 Veri Madenciliği Veri Madenciliği, Çok büyük boyuttaki veri setlerinde açık olmayan, önceden bilinmeyen ve yararlı olan örüntülerin ya da ilişkilerin belirlenip karar destek amaçlı yararlı bilgiye dönüştürülmesi sürecidir. Statik istatistiksel yaklaşımlar Veri madenciliği değildir. Fakat veri madenciliği sürecine yardımcıdır. Bir Sınıftaki öğrencileri dersten kalması riski olanlarının belirlenmesi (Veri küçük) Üniversite genelinde matematik dersinden başarılı olanların, istatistik dersinden de başarılı olmaları (Veri büyük ama İlişki çok açık) Değerli bilgi orada bir yerde, nasıl ulaşacağız !! Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 7/79 Veri Madenciliğinin Evrimsel Süreçleri Aşama Veri toplama (1960’lar) Veri erişimi (1980’ler) İş sorusu Son 5 yıllık ortalama gelirim nedir? Geçen Mart’ta New England’daki birim satışlar neydi? Teknolojiler Bilgisayarlar, kasetler, diskler İlişkisel veri tabanları, yapısal sorgu dili, ODBC Karakteristikler Geçmişe ait statik veri dağıtımı Kayıt seviyesinde, geçmişe ait dinamik veri dağıtımı Veri navigasyon Geçen Mart’ta New (1990’lar) England’daki birim satışlar neydi? Boston özelinde neydi? Çevrimiçi analitik süreç (OLAP), çok boyutlu veri tabanları, veri ambarları Çoklu seviyelerde geçmişe ait dinamik veri dağıtımı Veri madenciliği Gelecek ay (2000) Boston’un birim satışları ne olacak? Neden? İleri algoritmalar, Olası proaktif bilgi çok işlemci dağıtımı bilgisayarlar, büyük veri tabanları Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 8/79 Veri Madenciliği Örüntü Tanıma VERİ MADENCİLİĞİ Sayısal Modelleme Yönetim ve Bilişim Bilimleri Yrd. Doç. Dr. H. İbrahim CEBECİ Makine Öğrenmesi Veri Tabanları Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 9/79 VM Karakteristikleri ve Amaçları VM için kullanılacak veri kaynakları çoğunlukla birleştirilmiştir. (Veri ambarları) VM ortamları genelde istemci-sunucu veya web tabanlı bilişim sistemli mimarileridir VM veri kaynakları esnek/yapısal olmayan verileri de içerir Madenci genelde son kullanıcıdır Zengin içerikle başa çıkmak genelde yaratıcı zekaya gereksinim duyar VM araçlarının kullanım kolaylığı ve veri işleme yeterlilikleri kritik öneme sahiptir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 10/79 Kayıtlar Veri madenciliğinde VERİ İlişkisel kayıtlar, Çapraz kayıtlar (Kontenjans), Metin, İşlem (Transaction) Grafikler ve Ağlar Sosyal Ağlar, www, Moleküler yapılar Sıralanmış Veri Setleri Videolar (Sıralı resimler), zaman serileri, Sıralı işlem (Sequental Transactions) verileri, Genetik Konum, Resim ve Çokluortam Haritalar ve GPS verileri Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 11/79 Veri madenciliğinde VERİ Veri Yarı yapısal / Yapısal olmayan Yapısal Kategorik Nominal (Nitel) Ordinal (Sıralı) Yrd. Doç. Dr. H. İbrahim CEBECİ Nümerik Aralık (Interval) Metin Çoklu ortam HTML/XML Oran (Ratio) Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 12/79 VM ne yapar? Nasıl Çalışır? Veriden örüntüleri çıkarır Örüntü: Veri kaynakları arasındaki matematiksel, sayısal veya sembolik ilişkiler Örüntü türleri Birliktelik Tahmin (Kestirim) Kümeleme (Bölümleme-Segmentasyon) Sıralı ilişkiler (Zaman serileri) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 13/79 Veri Madenciliği VM Görevlerinin Sınıflandırılması Öğrenme Metodu Popüler Algoritmalar Denetimli CART, YSA, Destek Vektör Makineleri, Genetik Algoritmalar, CHAID Sınıflandırma Denetimli Karar Ağaçları, YSA/ÇKA, Destek Vektör Makineleri, GA Regresyon Denetimli Doğrusal (/olmayan) Regresyon, Regresyon ağaçları, YSA/ÇKA, DVM Denetimsiz Apriori, OneR, ZeroR, Eclat Bağlantı analizi Denetimsiz Grafik temelli eşleme, Apriori Sıralama analizi Denetimsiz Apriori, FP-Growth Denetimsiz K-Means, YSA, SOM Denetimsiz K-Means Tahmin Birliktelik Kümeleme Aykırı değer analizi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 14/79 VM Görevlerinin Sınıflandırılması Veri Tabanı Uygulaması: 1980 yılında doğan ParaCard sahibi müşterileri belirle. Ayda 1000 TL altı market harcaması yapan müşterileri belirle. CHIP dergisi alan müşterileri belirle. Veri Madenciliği Uygulaması Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma) Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul (kümeleme) DVD birlikte sıkça satın alınan ürünü bul (Birliktelik Kuralları) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 15/79 Veri Madenciliği Uygulamaları Pazarlama ve CRM Müşteri profili çıkarma (yeni ürün/hizmetlere tepki verebilecek ya da alıcı konumunda olabilecek kişilerin tespiti) Müşteri elde tutma performansını arttırmaya yönelik müşteri kayıp analizi ve bunun köken sebeplerinin ortaya çıkarılması Müşteri değeri ve satışlarını artırmak için ürünler/hizmetler arasındaki zaman değişkenli veya birliktelik esaslı ilişkilerin keşfi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 16/79 Veri Madenciliği Uygulamaları Pazarlama ve CRM En karlı (ya da hedef) müşterilerin tespiti ve satışları arttırmaya ve ilişki güçlendirmeye yönelik bu müşterilerin ihtiyaç analizleri Çarpraz satış ve üst kategori ürün satışı yapabilmek gibi hedefe yönelik pazarlama kampanyalarına muhtemel tepki verebilecek müşteri segmentlerinin tespiti Pazarlama kampanyalarına pozitif tepki verme oranının tahmini Müşteri satın alma davranışını anlayabilme ve yorumlama Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 17/79 Veri Madenciliği Uygulamaları Bankacılık En muhtemel problemli kredi çekenlerin tahmini ile kredi başvuru sürecinin otomatize edilmesi Kaçak internet bankacılığı ve kredi kartı kullanımı tespiti Alım potansiyeli yüksek ürün ve hizmetlerin satışı ile müşteri değerini arttırıcı yolların tespiti ATM ya da banka şubelerindeki nakit akışlarının doğru tahmini ile nakit dönüşünün optimize edilmesi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 18/79 Veri Madenciliği Uygulamaları Sağlık / Tıp Sağlık sigortası olmayan insanların tespiti ve bunun nedenlerinin keşfi, Farklı tedavilerin fayda-maliyet analizi çerçevesinde karşılaştırılması Organizasyonel kaynakların optimizasyonu için farklı servis yerlerindeki talebin zamansal ve seviyesel tahmini Bakılan hasta ve çalışan sayısındaki azalmanın sebeplerinin anlaşılması Klinik testler ile hastalıkların erken teşhisi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 19/79 Veri Madenciliği Uygulamaları Sağlık / Tıp Hastalıkların teşhisi için görüntü analizi Kanser hastalarının yaşam süresini uzatıcı ilginç örüntülerin keşfi Donör-organ eşleşme sürecini iyileştirmek için organ nakil başarı yüzdesinin tahmini İnsan kromozomundaki farklı genlerin fonksiyonlarının belirlenmesi (Genomics) Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 20/79 Veri Madenciliği Uygulamaları Spor Basketbol oyun verileri ile takım çalıştırmaya yönelik ilginç örüntülerin keşfi Futbol takımı antrenörlerinin performans ile çeşitli göstergeleri ilişkilendirmesi İddia öneri uygulamaları Özellikle Amerikan sporlarında yoğun olarak kullanılan gözlemci sistemlerine destek olarak kullanılan Bilişim sistemleri Amerikan sporlarındaki oyuncu seçmeleri Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 21/79 Veri Madenciliği Uygulamaları Güvenlik ve Hukuk Terörist davranışlı örüntülerin tespiti Suç örüntülerinin keşfi Biyolojik ve kimyasal atakların tespiti ve ortadan kaldırılması Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve durdurulması Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 22/79 Veri Madenciliği Uygulamaları Eğlence Prime-time’da gösterilecek programlara ve reklamlara nerede yer verilmesi gerektiğine karar verilmesi Filmlerin finansal başarısının tahmini ve geri dönüşün optimizasyonu Kaynakların optimize edilmesi ve eğlence aktivitelerinin daha iyi çizelgelenmesi için farklı yerler ve zamanlardaki taleplerin tahmini Gelirleri maksimize edecek optimum fiyatlandırma politikalarının geliştirilmesi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 23/79 Veri Madenciliği Uygulamaları Seyahat Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç kiralama seçenekleri) satış tahmini (saha yönetimi optimizasyonu) Farklı yerlerdeki talep tahmini En karlı müşterilerin tespiti ve onların sürekliliği özelleştirilmiş hizmetlerin sağlanması Değerli çalışanların firmalardan ayrılmalarının engellenmesi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 24/79 Veri Madenciliği Uygulamaları Hükümet ve Savunma Askeri personel ve ekipmanın taşınma maliyetinin tahmini Düşman hareketlerinin öngörümü ile daha başarılı askeri müdahale stratejileri geliştirilmesi Daha iyi bütçeleme ve planlama için kaynak tüketiminin tahmini Askeri operasyonlardan öğrenilen derslerin, stratejilerin ve özgün tecrübelerin kategorik olarak tespiti Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 25/79 Veri Madenciliği Uygulamaları Bilgisayar Yazılım ve Donanımı Disk hatalarının tahmini İstenmeyen web içerikleri ve mesajların belirlenmesi ve filtrelenmesi Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 26/79 Veri Madenciliği Uygulamaları Sigortacılık Daha iyi bir iş planlama için emlak ve sağlık sigorta maliyetlerinin tahmini Sigorta kullanımı ve müşteri verisi analizi ile optimal dönüş planının belirlenmesi Hangi müşterilerin yeni sigorta poliçeleri alacağının tahmini Sigorta ödemelerindeki kaçakçılığın tespiti ve önlenmesi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 27/79 Veri Madenciliği Uygulamaları Borsa ve Menkul Kıymetler Belirli hisse fiyatlarının ne kadar ve ne zaman değişeceğinin tahmini Sermaye dalgalanmalarının yönü ve oranının tahmini Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin değerlendirilmesi Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti ve önlenmesi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 28/79 Veri Madenciliği Uygulamaları İmalat ve Üretim Sensör verisini kullanarak makine arızalarının gerçekleşmeden önce tahmini İmalat kapasitesinin optimize edilmesi için üretim sistemlerindeki ortaklıkların ve sıra dışılıkların belirlenmesi Ürün kalitesini arttırmaya yönelik örüntülerin keşfi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 29/79 Veri Madenciliği Uygulamaları Perakendecilik ve Lojistik Doğru envanter seviyeleri belirleyebilmek için belirli perakende noktalarındaki satışların doğru olarak tahmini Pazar-sepet analizi Lojistik optimizasyonu için farklı ürün tiplerine ait (çevresel ve mevsimsel faktör durumlarında) tüketim seviyelerinin tahmini Sensör ve RFID verileri kullanılarak tedarik zincirindeki ürün hareketlerindeki ilginç örüntülerin keşfi (özellikle raf ömrü sınırlı olan ürünler için) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 30/79 Veri Madenciliği Süreci En iyi uygulamanın ortaya konması VM projelerinin doğru şekilde yürütülmesi için sistematik bir yol önermek Farklı grupların (sektörlerin, firmaların, yazılımların vb.) farklı çözümleri var Ortak standart VM süreçleri prosedürleri CRISP-VM SEMMA KDD (Knowledge Discovery in Databases) Veri tabanlarında Bilgi Keşfi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 31/79 Veri Madenciliği Süreci CRISP-VM KİŞİSEL ÇÖZÜMLER SEMMA KDD FİRMAYA ÖZEL ÇÖZÜMLER YOK ALAN ODAKLI METODOLOJİ DİĞER METODOLOJİLER 0 Yrd. Doç. Dr. H. İbrahim CEBECİ 10 20 30 40 50 60 Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 70 32/79 CRISP-VM Avrupa’da veri madenciliği işlemlerini yürüten ticari firmalardan oluşan konsorsiyumun ortaya koyduğu bu yaklaşımda, teknik açıdan veri madenciliği sürecine sistematik bir yol haritası çizilmiştir. İşin Anlaşılması Sonuçların Yayılımı Sonuçların Değerlendirilmesi Toplam Proje süresinin % 80’i Verinin Anlaşılması Veri Kaynakları Verinin Hazırlanması Verinin Modellenmesi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 33/79 SAS enstitüsü tarafından geliştirilmiş veri madenciliği uygulama prosedürüdür. Assess Modellerin doğruluğu ve kullanılabilirliğini “Değerlendirme” SEMMA Sample Veriyi temsil edecek bir “Örneklem Üretme ya da Alma” ⟳ Explore Verinin görselleştirilmesi ve temel tanımlamasına ilişkin “Keşif” SEMMA Model Çeşitli istatistiksel ve makine öğrenmesi teknikleri ile “Modelleme” Yrd. Doç. Dr. H. İbrahim CEBECİ Modify Değişkenlerin seçimi ve dönüşümü içeren “Değiştirme” Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 34/79 Veri Önişleme Süreci Gerçek Dünya Verisi Veri Temizleme Veri Birleştirme Veri Birleştirme • • • Veri Toplama Veri Seçimi Veri Bütünleştirme Veri Temizleme • • • Kayıp veriler düzenleme Gürültü azaltma Tutarsızlıkları elemine etme Veri Dönüştürme • • • Normalizasyon Verileri kesiklileştirme Yeni değişkenler üretme Veri İndirgeme • • • Değişken sayısını azaltma Kayıt sayısını azaltma Veri dengeleme İşlenmiş Veri Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 35/79 Veri Temizleme Veri setlerinde bulunan veriler; Tam olmayabilir, (Incomplete) Sorunun anlaşılmaması veya eskik kategori (Meslek Grupları) Kirli (Gürültülü) olabilir, (Noisy) Değişken alanlarının yanlış girilmesi (Maaş = -10TL ) Tutarsız olabilir, (Inconsistent) Yaş: 40 – Doğum tarihi: 1990 Yanlış ve/veya yanlı olabilir (Intentional) Doğum günlerindeki 1 Ocak tarihleri Bu durumda veri setleri yukarıda anlatına verilerden temizlenmelidir. Olası Problem: Temizlik sırasında gerekli ve önemli bilgilerin kaybolması ihtimali Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 36/79 Veri Temizleme Eksik veri tamamlama Kaydı yok say Elle doldurma Global bir değerle doldurma Eksik verileri ortalamayla doldurma En olası değerle doldurma (Regresyon, Bayes) Hatalı verileri düzeltme Hatalı veri toplama gereçleri Veri giriş problemleri Beri girişi sırasında kullanıcıların hatalı yorumları Beri iletim hataları ve teknolojik sınırlamalar Tutarsız ve yanlış verileri kaldırma Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 37/79 Veri Birleştirme Veri bütünleştirme temelde farklı veri tabanlarında bulunan verilerin tek bir veri ambarında toplanması sürecidir. Şema Entegrasyonu Bir veri tabanında girişler “musteri-ID” şeklinde yapılmışken, bir diğerinde “musteri-numarasi” şeklinde olabilir. Problem Metadata kullanımı ile aşılır. Varlık Tanıma Problemi Bill Clinton – William Clinton Metre - Inch Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 38/79 Veri Dönüştürme Düzgünleştirme: (Kova Metodu, Histogram) Birleştirme Normalizasyon Min-Max Normalizasyonu Z Dönüşümü Ondalık Ölçekle Normalizasyon Verileri Kesikli Hale Getirme Kavram Hiyerarşisi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 39/79 Veri Dönüştürme Min-Max Normalizasyonu: Eğer normalizasyon 0-1 arasında olacak ise; v minA v' maxA minA Eğer bir veri setindeki en küçük değer 17000 ve en büyük değer 92000 ise 65000 değerinin normal karşılığı aşağıdaki gibi bulunur. 65000 − 17000 48000 = = = 0,64 92000 − 17000 75000 Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 40/79 Veri İndirgeme Veri İndirgeme Stratejileri Veri Birleştirme (Aggregation) Boyut İndirgeme Dalgacık Dönüşümleri (DWT – Discrete Wavelet Transforms) Temel Bileşen Analizi (PCA – Principal Component Analysis) Öznitelik alt küme seçimi ve Öznitelik oluşturma (Feature Selection and Creation – Korelasyon, CHAID, GINI) Sayısal İndirgeme (Numerosity reduction) Regresyon Modelleri Histogram, Kümeleme ve Örnekleme Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 41/79 Veri Madenciliği Metotları: Sınıflandırma Sınıflandırma = Classification Sınıflandırma analizinde temel amaç ele alınan verinin önceden belirli sınıf değişkenine atanıp, atanmayacağının tahmin edilmesidir. Gözetimli Öğrenme tekniğidir. Gözetimli Öğrenme Sınıflandırma (Supervised Learning) Gözetimli Öğrenmede sınıf sayısı genelde baştan belli Gözetimsiz Kümeleme Öğrenme Sınıf sayısı belli değil Yrd. Doç. Dr. H. İbrahim CEBECİ (Unsupervised Learning) Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir - – 42/79 Veri Madenciliği Metotları: Sınıflandırma Sınıflandırma yaklaşımlarında geçmiş verilerin işlendiği bir training set olmalıdır. Training set içerisindeki nitelik (atribute) sütunlarından bir tanesi sınıflandırma ölçütü (class) olmalıdır Diğer nitelik sütunlarının bir fonksiyonu olarak sınıf değişkeni için bir model oluşturulur. Oluşturulan bu model başlangıçta veri setinden ayrılmış olan test veri seti yardımıyla test edilir. Sonuçta elde edilen model yardımıyla tahminler gerçekleştirilir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 43/79 Sınıflandırma Modeli Yapısı %70 Eğitim Verisi İşlenmiş Veri Model Geliştirme Sınıflayıcı %30 Test Verisi Model Değerlendirme (Skorlama) Kestirim Doğruluğu Yapay Sinir ağlarında veri üçe bölünür. %60 Eğitim, %20 Test, %20 Doğrulama Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 44/79 Sınıflandırma Model Oluşturma Sınıflandırma Algoritması Öğrenme Kümesi Müşteri Alışveriş Zamanı Cinsiyet 001 Az Erkek Düşük 002 Az Bayan Yüksek 003 Çok Erkek Yüksek 004 Çok Bayan Yüksek 005 Çok Erkek Yüksek Yrd. Doç. Dr. H. İbrahim CEBECİ Harcama Miktarı Sınıflandırma Modeli Eğer Alışveriş Zamanı ÇOK veya Cinsiyet BAYAN ise Harcama Miktarı YÜKSEK olur Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 45/79 Sınıflandırma Modelin Değerlendirilmesi Sınıflandırma Modeli Eğer Alışveriş Zamanı ÇOK veya Cinsiyet BAYAN ise Harcama Miktarı YÜKSEK olur Sınama Kümesi Müşteri Alışveriş Zamanı Cinsiyet 006 Çok Erkek Düşük 007 Az Bayan Yüksek 008 Çok Erkek Yüksek 009 Az Bayan Yüksek 010 Çok Erkek Yüksek Yrd. Doç. Dr. H. İbrahim CEBECİ Harcama Miktarı Model Başarımı : 4/5=0,80 Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 46/79 Sınıflandırma Modelin Kullanılması Tahmin Veri Seti Müşteri Alışveriş Zamanı Cinsiyet 011 Çok Erkek 012 Çok Bayan 013 Çok Erkek 014 Az Bayan 015 Az Erkek Yrd. Doç. Dr. H. İbrahim CEBECİ Sınıflandırma Modeli Eğer Alışveriş Zamanı ÇOK veya Cinsiyet BAYAN ise Harcama Miktarı YÜKSEK olur Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir Harcama Miktarı Yüksek Yüksek Yüksek Yüksek Düşük 47/79 Sınıflandırma Metotlarının Değerlendirilmesi Doğru sınıflandırma başarısı Hız modeli oluşturmak için gerekli süre sınıflandırma yapmak için gerekli süre Kararlı olması veri kümesinde gürültülü ve eksik nitelik değerleri olduğu durumlarda da iyi sonuç vermesi Ölçeklenebilirlik büyük miktarda veri kümesi ile çalışabilmesi Anlaşılabilir olması kullanıcı tarafından yorumlanabilir olması Kuralların yapısı birbiriyle örtüşmeyen kurallar Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 48/79 Sınıflandırma Yöntemleri Bayes sınıflandırıcılar (Bayes classifier) Yapay sinir ağları (artificial neural networks) İlişki tabanlı sınıflandırıcılar (association-based classifier) k-en yakın komşu yöntemi (k- nearest neighbor method) Destek vektör makineleri (support vector machines) Genetik algoritmalar (genetic algorithms) Karar ağaçları (decision trees) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 49/79 Sınıflandırma Yöntemleri Yapay Sinir Ağları Yapay sinir ağları insan beyninin ağ yapısının matematiksel olarak modellenmiş halidir. Öğrenme temelli bir algoritmadır. Yapay sinir ağlarından ilişkiyi (sınıfı) açıklayan temel bir denklem belirlenir. Daha sonra iteratif bir yaklaşımla bu denklem setinin ağırlıkları ve katsayıları değiştirilerek öğrenme kabiliyeti arttırılır. Belli eşik değerine ulaştığından denklem sabitlenir ve tahmin için kullanılır. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 50/79 Sınıflandırma Yöntemleri Yapay Sinir Ağları Yapay sinir ağları girdi katmanı, gizli katman ve çıktı katmanı olarak 3 farklı katmana sahip bir mimaridir. Yapay sinir ağları temel olarak hatalarından öğrenen ve kendini geliştiren zeki bir yaklaşımdır. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 51/79 Sınıflandırma Yöntemleri Genetik algoritmalar Genetik algoritma genetik bilimindeki çaprazlama ve mutasyon tekniklerini kullanarak optimizasyon gerçekleştiren bir arama algoritmasıdır. Genetik algoritmalar çaprazlama ve optimizasyon özellikleri sayesinden karar ağaçları benzeri şekilde kurallar bulabilir. Bu şekilde sınıflandırma da kullanılabilir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 52/79 Sınıflandırma Yöntemleri k-En Yakın Komşu Yöntemi Bu teknikte yeni bir durum daha önce sınıflandırılmış benzer, en yakın komşuluktaki k tane olaya bakılarak sınıflandırılır. Uzaklık ölçütü olarak genellikle öklit uzaklıkları alınır. K en yakın komşuluğundaki olayların ait olduğu sınıflar sayılır ve yeni durum sayısı fazla olan sınıfa dahil edilir. Bu yöntemin tercih edilme sebebi, sayısı bilinen veri kümeleri için hızlı ve verimli olmasıdır. X2 Dikkat !!! Bu yöntem bir öğrenme tekniği değildir. Yrd. Doç. Dr. H. İbrahim CEBECİ A Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir X1 53/79 Sınıflandırma Yöntemleri Karar Ağaçları Yukarıdan aşağıya doğru ters bir ağaç biçiminde akış diyagramları yardımıyla gösterilen sınıflama yöntemi Bütün karar ağaçları bir öz nitelikten başlayarak, eğer gerek görülürse alt öz niteliklere bölünerek devam eden ve dalın sonunda sınıf değerine ulaşan yapıdadır. Genel karar ağaçları algoritmalarında amaç ağaç dallarını budayarak, ağaç sayısını azaltarak daha hızlı ve etkin kurallara ulaşmaktır. ID3, C4.5, C5, CART, CHAID, M5 Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 54/79 Sınıflandırma Yöntemleri Karar Ağaçları Öncelikle veri setindeki sürekli değerler dönüştürülür. Ağaç bütün verinin oluşturduğu tek bir düğümle başlar Eğer örneklerin hepsi aynı sınıfa aitse düğüm yaprak olarak sonlanır ve sınıf etiketini alır eğer değilse örnekleri sınıflara en iyi bölecek olan nitelik seçilir Bilgi kazancı (Information Gain) – ID3 Kazanç Oranı (Gain Ratio) – C4.5, C5.0 Gini Indeks – CART Ki-Kare - CHAID işlem sona eriyor örneklerin hepsi (çoğunluğu) aynı sınıfa ait örnekleri bölecek nitelik kalmamış kalan niteliklerin değerini taşıyan örnek yok Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 55/79 Sınıflandırma Yöntemleri Karar Ağaçları Düğüm Noktaları A1 > B1 evet hayır A2 > B2 evet C=1 Yrd. Doç. Dr. H. İbrahim CEBECİ Eğer A1>B1 ve A2>B2 ise C=1 ; Eğer A1>B1 ve A2<=B2 ise C=0 ; Eğer A1<=B1 ise C=0 ; C=0 hayır C=0 Sınıflar Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 56/79 Veri Madenciliği Metotları: Kümeleme Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş olsun, kümelemenin amacı aşağıdaki özellikleri sağlayan kümeleri bulmaktır. (Gözetimsiz Öğrenme) Bir kümedeki veri noktaları diğer noktalara göre daha benzerdir Farklı kümelerdeki veri noktaları diğer noktalara göre daha az benzerdir. Benzerlik Ölçümleri: Eğer öznitelikler sürekli değerler ise o zaman Öklit Uzaklıkları (Euclidian Distance) kullanılır. Diğerlerinde probleme uygun ölçümler kullanılır. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 57/79 Veri Madenciliği Metotları: Kümeleme Kümeleme: İncelenen karakteristikler açısından benzer özellikleri olan verilerin bir arada değerlendirilmesi (kümelenmesi) 2 Küme mi? Yrd. Doç. Dr. H. İbrahim CEBECİ 4 Küme mi? Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 58/79 Veri Madenciliği Metotları: Kümeleme Analiz Metotları İstatistiksel metotlar (Hiyerarşik ve Hiyerarşik olmayan) K-ortalamalar (K-Means) K-Modlar Sinir Ağları Adaptif Rezonans Teorisi (ART) Özdüzenleyici Haritalar (Self-Organizing Maps) Genetik Algoritmalar Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 59/79 K-Ortalamalar (K-Means) Bu algoritmada öncelikle k tane küme oluşturulacaksa, n tane veriden k tanesi rastgele seçilir. Bu değerler centroid olarak atanır ve her bir değerin bu verilerden uzaklıkları hesaplanır. Genellikle öklid uzaklığı kullanılır. Uzaklıklarda en küçük değere karşılık gelen kümeye atama gerçekleştirilir. Küme performansı, gerçek merkez noktadan uzaklıkların kareleri toplamı ile değerlendirilir. (SSE) SSE değeri ne kadar küçük ise kümeleme o kadar iyidir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 60/79 K-Ortalamalar (K-Means) Değer Nokta 1.Küme 2.Küme 3.Küme Atanan Küme 1 (12,5) 8,06 12,65 3,61 3 2 (15,7) 11,05 12,21 0,00 3 3 (4,6) 0,00 11,70 11,05 1 4 (7,13) 7,62 4,12 10,00 2 5 (12,15) 12,04 4,47 8,54 2 6 (2,3) 3,61 15,23 13,60 1 7 (2,7) 2,24 11,66 13,00 1 8 (16,10) 12,65 10,63 3,16 3 9 (8,17) 11,70 0,00 12,21 2 10 (19,4) 15,13 17,03 5,00 3 Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 61/79 K-Ortalamalar (K-Means) Adım 1 Yrd. Doç. Dr. H. İbrahim CEBECİ Adım 2 Adım 3 Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 62/79 Veri Madenciliği Metotları: Birliktelik Kuralları Sıklıkla tekrar eden kalıpların belirlenmesi ve bu kalıplar sayesinde tahmin gerçekleştirilmesi Acaba X ve Y ürününü alan müşteriler aynı zamanda hangi ürünü almayı tercih ediyorlar. Eğer X ve Y alanlar genellikle Z alıyorsa, bu durumda X ve Y alan ama Z almayanlar potansiyel Z müşterisidir. (Pazar Sepet Analizi) Satış ve Satınalma Tahminleri, Reyon organizasyonu, kampanyalar ve promosyonlar Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 63/79 Veri Madenciliği Metotları: Birliktelik Kuralları Birliktelik Kuralları : Association Rules Teknik Tanım: Veri kümesi içindeki yaygın örüntülerin (pattern) ve nesneleri oluşturan öğeler arasındaki ilişkilerin bulunması Birliktelik Kuralları iki parametre ile betimlenir. Support: Destek Confidence: Güven Birliktelik kurallarının geçerli olabilmesi için minimum destek ve güven değerlerini sağlaması gereklidir. (Eşik değerleri) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 64/79 Birliktelik Kuralları / Destek Toplam Müşterilerin ancak % 30 u Harry Potter kitabı ile Yüzüklerin Efendisi DVD lerini birlikte almışlardır. (Klasik Olasılık) ( , ) → = Kitap DVD Ramses Harry Potter Yüzüklerin Efendisi Harry Potter Harry Potter Yüzüklerin Efendisi Harry Potter Yüzüklerin Efendisi Harry Potter Yüzüklerin Efendisi Yüzüklerin Efendisi Yüzüklerin Efendisi Ramses Yüzüklerin Efendisi Yüzüklerin Efendisi Harry Potter Yüzüklerin Efendisi Harry Potter Ramses Harry Potter Yrd. Doç. Dr. H. İbrahim CEBECİ → ( , 10 = → → ) 3 = 10 = 0,30 Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 65/79 Birliktelik Kuralları / Güven Harry Potter kitabını alan müşterilerin %60 ı Yüzüklerin Efendisi DVD sini almıştır. (Şartlı Olasılık) ( , ) ü → = ( ) Kitap DVD Ramses Harry Potter Yüzüklerin Efendisi Harry Potter Harry Potter Yüzüklerin Efendisi Harry Potter Yüzüklerin Efendisi Harry Potter Yüzüklerin Efendisi Yüzüklerin Efendisi Yüzüklerin Efendisi Harry Potter Harry Potter Harry Potter Harry Potter Yüzüklerin Efendisi Harry Potter Ramses Harry Potter Yrd. Doç. Dr. H. İbrahim CEBECİ ü → ü ü ( = → → ( 3 = 5 , ) ) = 0,60 Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 66/79 Veri Madenciliği Metotları: Birliktelik Kuralları En sık kullanılan yöntemler Apriori Eclat FP-Growth Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 67/79 Birliktelik Kuralları / Apriori Algoritması Öncelikle destek ve güven ölçülerini karşılaştırmak için eşik değerleri belirlenir. Her bir ürün için destek sayıları hesaplanır. Eşik değeri ile karşılaştırılan destek değerlerinin içinden eşik değerinden düşük olanlar çıkarılır. Kalan ürünler ikişerli gruplanarak, grup destek sayıları hesaplanır. Tekrar eşik değerleri ile karşılaştırılan destek değerlerinden eşik değerinin altında kalanlar iptal edilir. Daha sonra üçerli, dörderli, beşerli, vb. biçimde gruplar için aynı karşılaştırma ve eleme işlemi devam ettirilir. Eşik değerlere uygun olduğu sürece işlemler sürecektir. Belirlenen ürün grubunun destek ölçülerine bakarak birliktelik kuralları türetilir ve bu kurallarının her biri için güven ölçüleri belirlenir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 68/79 Birliktelik Kuralları / Apriori Algoritması Müşteri ID (TID) Aldığı Ürünler 5401300197 Gofret, Kola, Su, Çekirdek 5401300198 Antep Fıstığı, Çekirdek, Çikolata, Kola 5401300199 Gofret, Çekirdek, Antep Fıstığı 5401300200 Kola, Su, Çekirdek, Kahve 5401300201 Gofret, Çekirdek, Çikolata, Su 5401300202 Süt, Çekirdek, Su 5401300203 Gofret, Cips, Çekirdek 5401300204 Çikolata, Patlamış Mısır, Su 5401300205 Patlamış Mısır, Kola, Su 5401300206 Su, Süt, Gofret, Çikolata, Çekirdek Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 69/79 Birliktelik Kuralları / Apriori Algoritması İlk adımda destek ve güven için eşik değerleri belirlenmelidir. = 0,30 ü = 0,80 Bu durumda destek sayısı N=10 olduğu da dikkate alındığında 10*0,3=3 olacaktır. Yani herhangi bir adımda destek sayısı 3 ten az olan değerler elemine edilecektir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 70/79 Birliktelik Kuralları / Apriori Algoritması İkinci adımda ise her bir ürün için aşağıdaki gibi destek sayıları hesaplanır. Ürün Adı Destek Müşteri ID (TID) Aldığı Ürünler Gofret 5 5401300197 Gofret, Kola, Su, Çekirdek Kola 4 5401300198 Antep Fıstığı, Çekirdek, Çikolata, Kola Su 7 5401300199 Gofret, Çekirdek, Antep Fıstığı Çekirdek 8 5401300200 Kola, Su, Çekirdek, Kahve Antep Fıstığı 2 5401300201 Gofret, Çekirdek, Çikolata, Su Çikolata 4 Kahve 1 5401300202 Süt, Çekirdek, Su Süt 2 5401300203 Gofret, Cips, Çekirdek Cips 1 5401300204 Çikolata, Patlamış Mısır, Su Patlamış Mısır 2 5401300205 Patlamış Mısır, Kola, Su 5401300206 Su, Süt, Gofret, Çikolata, Çekirdek Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 71/79 Birliktelik Kuralları / Apriori Algoritması İkili eşleştirmeler için destek sayıları hesaplanır. İkili Ürün Adı Destek Destek Aldığı Ürünler Gofret, Kola 1 Gofret, Kola, Su, Çekirdek Gofret, Su 3 Antep Fıstığı, Çekirdek, Çikolata, Kola Gofret 5 Gofret, Çekirdek 5 Gofret, Çekirdek, Antep Fıstığı Kola 4 Gofret, Çikolata 2 Kola, Su, Çekirdek, Kahve Su 7 Kola, Su 3 Gofret, Çekirdek, Çikolata, Su Çekirdek 8 Kola, Çekirdek 3 Çikolata 4 Kola, Çikolata 1 Süt, Çekirdek, Su Su, Çekirdek 5 Su, Çikolata 3 Çekirdek, Çikolata 3 Yrd. Doç. Dr. H. İbrahim CEBECİ Gofret, Cips, Çekirdek Çikolata, Patlamış Mısır, Su Patlamış Mısır, Kola, Su Su, Süt, Gofret, Çikolata, Çekirdek Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 72/79 Birliktelik Kuralları / Apriori Algoritması Üçlü eşleştirmeler için destek sayıları hesaplanır. İkili İkili Destek Gofret, Su 3 Gofret, Çekirdek 5 Kola, Su 3 Kola, Çekirdek 3 Su, Çekirdek 5 Su, Çikolata 3 Çekirdek, Çikolata 3 Yrd. Doç. Dr. H. İbrahim CEBECİ Destek Gofret, Su, Çekirdek 3 Gofret, Su, Kola 1 Gofret, Su, Çikolata 2 Gofret, Çekirdek, Kola 1 Gofret, Çekirdek, Çikolata 2 Kola, Su, Çekirdek 2 Kola, Su, Çikolata 0 Kola, Çekirdek, Çikolata 1 Su, Çekirdek, Çikolata 2 Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 73/79 İkili Birliktelik Kuralları / Apriori Algoritması Destek Aldığı Ürünler Gofret, Kola, Su, Çekirdek Gofret, Su, Çekirdek 3 Gofret, Su, Kola 1 Gofret, Su, Çikolata 2 Gofret, Çekirdek, Kola 1 Gofret, Çekirdek, Çikolata 2 Kola, Su, Çekirdek 2 Kola, Su, Çikolata 0 Kola, Çekirdek, Çikolata 1 Patlamış Mısır, Kola, Su Su, Çekirdek, Çikolata 2 Su, Süt, Gofret, Çikolata, Çekirdek Antep Fıstığı, Çekirdek, Çikolata, Kola Gofret, Çekirdek, Antep Fıstığı Kola, Su, Çekirdek, Kahve Gofret, Çekirdek, Çikolata, Su Süt, Çekirdek, Su Gofret, Cips, Çekirdek Çikolata, Patlamış Mısır, Su Birliktelik Kuralı Açıklama (Şartlı Olasılık) Güven Gofret & Su Çekirdek Gofret ve Su alanların Çekirdek alma ihtimali 3/3=1,00 Gofret & Çekirdek Su Gofret ve Çekirdek alanların Su alma ihtimali 3/5=0,60 Su & Çekirdek Gofret Su ve Çekirdek alanların Gofret alma ihtimali 3/5=0,60 Gofret Su & Çekirdek Gofret alanların Su ve Çekirdek alma ihtimali 3/5=0,60 Su Gofret & Çekirdek Su alanların Gofret ve Çekirdek alma ihtimali 3/7=0,42 Çekirdek Gofret & Su Çekirdek Alanların gofret ve Su alma ihtimali 3/8=0,38 Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 74/79 Birliktelik Kuralları / Apriori Algoritması Soruda güven eşik değeri % 80 olarak verilmişti. Bu durumda elimizde sadece Gofret ve Su alanların, çekirdek te aldığı bilgi mevcuttur. Güven değeri 1,00 olduğundan, Gofret ve Su alan herkes mutlaka (%100) ihtimalle çekirdekte alacaktır. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 75/79 Ticari Veri Madenciliği Yazılımları IBM SPSS Modeller SAS-Enterprise Miner IBM-Intelligent Miner StatSoft-Statistica … Açık Kaynak Kodlu Ücretsiz R RapidMiner Weka … Yrd. Doç. Dr. H. İbrahim CEBECİ Ücretsiz %73 Sadece Ücretsiz %9 Sadece Ticari %27 Her İkisi %64 Ticari %91 Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 76/79 Büyük Veri Yazılım Araçları ve Plaformları Apache Hadoop/Hbase/Pig/Hive (67) Amazon Web Services (AWS) (36) NoSQL databases (33) Other Big Data software (21) Other Hadoop-based tools (10) 0 10 20 30 40 50 60 70 80 R (245) SQL (185) Java (138) Python (119) C/C++ (66) Other languages (57) Perl (37) Awk/Gawk/Shell (31) F# (5) 0 Yrd. Doç. Dr. H. İbrahim CEBECİ 50 100 150 200 250 300 Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 77/79 Veri Madenciliği Mitleri Veri madenciliği Anlık sonuçlar (Tahminler) verir İşletme uygulamaları için uygulanabilir değildir Farklı veya sadece VM için oluşturulmuş veri tabanına ihtiyaç duyar Sadece teknik yeterlikleri üst düzeyde olan kullanıcılar tarafından gerçekleştirilebilir Sadece yüksek miktarda veriye sahip büyük firmalar için geçerlidir Bildiğimiz istatistik için biçilen yeni bir isimden başka bir şey değildir Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 78/79 VM Sürecinde Yapılan Temel Yanlışlar Problemin yanlış tanımlanması ve seçilmesi Finansal ve fikir sponsorunun VM ile ilgili fikirlerinin göz ardı edilmesi (VM ne yapabilir, Ne yapamaz!!!) Veri ön işleme süreçleri için harcanan zamanın yetersiz olması Sadece bütünleşik sonuçların incelenip, kayıt bazlı değerlendirmelerin göz ardı edilmesi Şüpheli sonuçların göz ardı edilip, ört bas edilmesi Rastgele, amaçsızca ve tekrarlı olarak algoritmaların kullanılması … Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 79/79