Veri Madenciliği

advertisement
İş Zekası
Hafta 5 – Veri Madenciliği
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics:
Systems for Decision Support 10e isimli
eserden adapte edilmiştir
Bölüm Amaçları
 İş zekası uygulamaları için mümkün kılan bir teknoloji
olarak veri madenciliğini tanımlamak
 Veri madenciliği ve iş zekasının faydalarını ve avantajlarını
anlamak
 Her türlü alanda yer alan veri madenciliği uygulamalarını
tanımlayabilmek
 Standardize edilmiş veri madenciliği süreçlerini öğremek
 CRISP-VM
 SEMMA
 KDD
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
2/79
Bölüm Amaçları
 Veri madenciliğinde ön işleme süreçlerini öğrenmek ve
önemini anlamak
 Veri madenciliği sürecinde kullanılan farklı metot ve
yöntemleri anlayabilmek
 Var olan veri madenciliği yazılım araçları hakkında
farkındalığı artırmak
 Ticari yazılımlar vs ücretsiz/açık kaynak kodlu yazılımlar
 Veri madenciliği hakkındaki mitleri ve tuzakları anlamak
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
3/79
Açılış Vakası
 Cabela Gelişmiş Analitik ve Veri madenciliği ile daha
müşterinin ilgisini çekiyor
 Karar durumu
 Problem Tanımı
 Önerilen Çözüm
 Sonuçlar
 Vaka sorularının cevapları ve genel tartışmalar
Perakendeciler neden gelişmiş analitik ve veri madenciliğine
daha fazla önem vermektedir?
Çok kanallı tedarikçilerin karşılaştığı en temel zorluk nedir?
Diğer endüstri segmentlerini de düşünerek cevaplayınız.
Cabela benzeri perakendecilerin en temel veri kaynakları nedir?
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
4/79
Veri Madenciliği Kavramı / Neden VM?
 Küresel ölçekte daha yoğun rekabet ortamı
 Müşteriye özel servis uygulamaları gereksinimi (CRM)
 Veri kaynaklarındaki değerlerin tanımlanması
 Müşteri, satıcı, işlem ve web tabanlı daha kaliteli verinin
varlığı
 Veri ambarı teknolojisi ile birlikte farklı kaynakların
analize uygun şekilde tek bir yerde konsolide edilmesi
 Veri işleme ve depolama kapasitelerindeki üstel arıtış –
maliyetlerde düşüş
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
5/79
Veri Madenciliği Kavramı / Neden VM?
 İşletmelerin sahip oldukları veri karakteristikleri ile ilgili
olup, verilerin yüksek boyutlarda, kompleks ve heterojen
olması ve verilerin farklı coğrafi yerlerde tutulması ile
ortaya çıkan dağıtık veri mimarisi (Veri Madenciliğine
teknolojik gereksinim)
 Büyük ölçüde verilerin etkin bir biçimde analiz edebilecek
yöntem ihtiyacı (Karmaşık yarı yapısal ve yapısal olmayan
yöntemlere gereksinim)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
6/79
Veri Madenciliği
 Veri Madenciliği, Çok büyük boyuttaki veri setlerinde açık
olmayan, önceden bilinmeyen ve yararlı olan
örüntülerin ya da ilişkilerin belirlenip karar destek
amaçlı yararlı bilgiye dönüştürülmesi sürecidir.
 Statik istatistiksel yaklaşımlar Veri madenciliği değildir.
Fakat veri madenciliği sürecine yardımcıdır.
 Bir Sınıftaki öğrencileri dersten kalması riski olanlarının
belirlenmesi (Veri küçük)
 Üniversite genelinde matematik dersinden başarılı
olanların, istatistik dersinden de başarılı olmaları (Veri
büyük ama İlişki çok açık)
Değerli bilgi orada bir yerde, nasıl ulaşacağız !!
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
7/79
Veri Madenciliğinin Evrimsel Süreçleri
Aşama
Veri
toplama
(1960’lar)
Veri
erişimi
(1980’ler)
İş sorusu
Son 5 yıllık ortalama
gelirim nedir?
Geçen Mart’ta New
England’daki birim
satışlar neydi?
Teknolojiler
Bilgisayarlar,
kasetler, diskler
İlişkisel veri
tabanları, yapısal
sorgu dili, ODBC
Karakteristikler
Geçmişe ait statik veri
dağıtımı
Kayıt seviyesinde,
geçmişe ait dinamik
veri dağıtımı
Veri navigasyon Geçen Mart’ta New
(1990’lar)
England’daki birim
satışlar neydi?
Boston özelinde
neydi?
Çevrimiçi analitik
süreç (OLAP), çok
boyutlu veri
tabanları, veri
ambarları
Çoklu seviyelerde
geçmişe ait dinamik
veri dağıtımı
Veri madenciliği Gelecek ay
(2000)
Boston’un birim
satışları ne olacak?
Neden?
İleri algoritmalar,
Olası proaktif bilgi
çok işlemci
dağıtımı
bilgisayarlar, büyük
veri tabanları
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
8/79
Veri Madenciliği
Örüntü
Tanıma
VERİ MADENCİLİĞİ
Sayısal
Modelleme
Yönetim ve
Bilişim Bilimleri
Yrd. Doç. Dr. H. İbrahim CEBECİ
Makine
Öğrenmesi
Veri
Tabanları
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
9/79
VM Karakteristikleri ve Amaçları
 VM için kullanılacak veri kaynakları çoğunlukla
birleştirilmiştir. (Veri ambarları)
 VM ortamları genelde istemci-sunucu veya web tabanlı
bilişim sistemli mimarileridir
 VM veri kaynakları esnek/yapısal olmayan verileri de içerir
 Madenci genelde son kullanıcıdır
 Zengin içerikle başa çıkmak genelde yaratıcı zekaya
gereksinim duyar
 VM araçlarının kullanım kolaylığı ve veri işleme
yeterlilikleri kritik öneme sahiptir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
10/79
 Kayıtlar
Veri madenciliğinde VERİ
 İlişkisel kayıtlar, Çapraz kayıtlar (Kontenjans), Metin, İşlem
(Transaction)
 Grafikler ve Ağlar
 Sosyal Ağlar, www, Moleküler yapılar
 Sıralanmış Veri Setleri
 Videolar (Sıralı resimler), zaman serileri, Sıralı işlem
(Sequental Transactions) verileri, Genetik
 Konum, Resim ve Çokluortam
 Haritalar ve GPS verileri
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
11/79
Veri madenciliğinde VERİ
Veri
Yarı yapısal /
Yapısal
olmayan
Yapısal
Kategorik
Nominal
(Nitel)
Ordinal (Sıralı)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Nümerik
Aralık
(Interval)
Metin
Çoklu ortam
HTML/XML
Oran (Ratio)
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
12/79
VM ne yapar? Nasıl Çalışır?
 Veriden örüntüleri çıkarır
 Örüntü: Veri kaynakları arasındaki matematiksel, sayısal
veya sembolik ilişkiler
 Örüntü türleri
 Birliktelik
 Tahmin (Kestirim)
 Kümeleme (Bölümleme-Segmentasyon)
 Sıralı ilişkiler (Zaman serileri)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
13/79
Veri Madenciliği
VM Görevlerinin Sınıflandırılması
Öğrenme Metodu
Popüler Algoritmalar
Denetimli
CART, YSA, Destek Vektör Makineleri,
Genetik Algoritmalar, CHAID
Sınıflandırma
Denetimli
Karar Ağaçları, YSA/ÇKA, Destek
Vektör Makineleri, GA
Regresyon
Denetimli
Doğrusal (/olmayan) Regresyon,
Regresyon ağaçları, YSA/ÇKA, DVM
Denetimsiz
Apriori, OneR, ZeroR, Eclat
Bağlantı analizi
Denetimsiz
Grafik temelli eşleme, Apriori
Sıralama analizi
Denetimsiz
Apriori, FP-Growth
Denetimsiz
K-Means, YSA, SOM
Denetimsiz
K-Means
Tahmin
Birliktelik
Kümeleme
Aykırı değer analizi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
14/79
VM Görevlerinin Sınıflandırılması
Veri Tabanı Uygulaması:
 1980 yılında doğan ParaCard sahibi müşterileri belirle.
 Ayda 1000 TL altı market harcaması yapan müşterileri
belirle.
 CHIP dergisi alan müşterileri belirle.
Veri Madenciliği Uygulaması
 Riski az olan tüm kredi kartı başvurularını bul
(sınıflandırma)
 Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul
 (kümeleme)
 DVD birlikte sıkça satın alınan ürünü bul (Birliktelik
Kuralları)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
15/79
Veri Madenciliği Uygulamaları
Pazarlama ve CRM
 Müşteri profili çıkarma (yeni ürün/hizmetlere tepki
verebilecek ya da alıcı konumunda olabilecek kişilerin
tespiti)
 Müşteri elde tutma performansını arttırmaya yönelik
müşteri kayıp analizi ve bunun köken sebeplerinin ortaya
çıkarılması
 Müşteri
değeri
ve
satışlarını
artırmak
için
ürünler/hizmetler arasındaki zaman değişkenli veya
birliktelik esaslı ilişkilerin keşfi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
16/79
Veri Madenciliği Uygulamaları
Pazarlama ve CRM
 En karlı (ya da hedef) müşterilerin tespiti ve satışları
arttırmaya ve ilişki güçlendirmeye yönelik bu müşterilerin
ihtiyaç analizleri
 Çarpraz satış ve üst kategori ürün satışı yapabilmek gibi
hedefe yönelik pazarlama kampanyalarına muhtemel tepki
verebilecek müşteri segmentlerinin tespiti
 Pazarlama kampanyalarına pozitif tepki verme oranının
tahmini
 Müşteri satın alma davranışını anlayabilme ve yorumlama
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
17/79
Veri Madenciliği Uygulamaları
Bankacılık
 En muhtemel problemli kredi çekenlerin tahmini ile kredi
başvuru sürecinin otomatize edilmesi
 Kaçak internet bankacılığı ve kredi kartı kullanımı tespiti
 Alım potansiyeli yüksek ürün ve hizmetlerin satışı ile
müşteri değerini arttırıcı yolların tespiti
 ATM ya da banka şubelerindeki nakit akışlarının doğru
tahmini ile nakit dönüşünün optimize edilmesi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
18/79
Veri Madenciliği Uygulamaları
Sağlık / Tıp
 Sağlık sigortası olmayan insanların tespiti ve bunun
nedenlerinin keşfi,
 Farklı tedavilerin fayda-maliyet analizi çerçevesinde
karşılaştırılması
 Organizasyonel kaynakların optimizasyonu için farklı
servis yerlerindeki talebin zamansal ve seviyesel tahmini
 Bakılan hasta ve çalışan sayısındaki azalmanın
sebeplerinin anlaşılması
 Klinik testler ile hastalıkların erken teşhisi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
19/79
Veri Madenciliği Uygulamaları
Sağlık / Tıp
 Hastalıkların teşhisi için görüntü analizi
 Kanser hastalarının yaşam süresini uzatıcı ilginç
örüntülerin keşfi
 Donör-organ eşleşme sürecini iyileştirmek için organ nakil
başarı yüzdesinin tahmini
 İnsan kromozomundaki farklı genlerin fonksiyonlarının
belirlenmesi (Genomics)
 Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
20/79
Veri Madenciliği Uygulamaları
Spor
 Basketbol oyun verileri ile takım çalıştırmaya yönelik ilginç
örüntülerin keşfi
 Futbol takımı antrenörlerinin performans ile çeşitli
göstergeleri ilişkilendirmesi
 İddia öneri uygulamaları
 Özellikle Amerikan sporlarında yoğun olarak kullanılan
gözlemci sistemlerine destek olarak kullanılan Bilişim
sistemleri
 Amerikan sporlarındaki oyuncu seçmeleri
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
21/79
Veri Madenciliği Uygulamaları
Güvenlik ve Hukuk
 Terörist davranışlı örüntülerin tespiti
 Suç örüntülerinin keşfi
 Biyolojik ve kimyasal atakların tespiti ve ortadan
kaldırılması
 Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve
durdurulması
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
22/79
Veri Madenciliği Uygulamaları
Eğlence
 Prime-time’da gösterilecek programlara ve reklamlara
nerede yer verilmesi gerektiğine karar verilmesi
 Filmlerin finansal başarısının tahmini ve geri dönüşün
optimizasyonu
 Kaynakların optimize edilmesi ve eğlence aktivitelerinin
daha iyi çizelgelenmesi için farklı yerler ve zamanlardaki
taleplerin tahmini
 Gelirleri maksimize edecek optimum fiyatlandırma
politikalarının geliştirilmesi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
23/79
Veri Madenciliği Uygulamaları
Seyahat
 Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç
kiralama seçenekleri) satış tahmini (saha yönetimi
optimizasyonu)
 Farklı yerlerdeki talep tahmini
 En karlı müşterilerin tespiti ve onların sürekliliği
özelleştirilmiş hizmetlerin sağlanması
 Değerli
çalışanların
firmalardan
ayrılmalarının
engellenmesi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
24/79
Veri Madenciliği Uygulamaları
Hükümet ve Savunma
 Askeri personel ve ekipmanın taşınma maliyetinin tahmini
 Düşman hareketlerinin öngörümü ile daha başarılı askeri
müdahale stratejileri geliştirilmesi
 Daha iyi bütçeleme ve planlama için kaynak tüketiminin
tahmini
 Askeri operasyonlardan öğrenilen derslerin, stratejilerin ve
özgün tecrübelerin kategorik olarak tespiti
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
25/79
Veri Madenciliği Uygulamaları
Bilgisayar Yazılım ve Donanımı
 Disk hatalarının tahmini
 İstenmeyen web içerikleri ve mesajların belirlenmesi ve
filtrelenmesi
 Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
26/79
Veri Madenciliği Uygulamaları
Sigortacılık
 Daha iyi bir iş planlama için emlak ve sağlık sigorta
maliyetlerinin tahmini
 Sigorta kullanımı ve müşteri verisi analizi ile optimal
dönüş planının belirlenmesi
 Hangi müşterilerin yeni sigorta poliçeleri alacağının
tahmini
 Sigorta ödemelerindeki kaçakçılığın tespiti ve önlenmesi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
27/79
Veri Madenciliği Uygulamaları
Borsa ve Menkul Kıymetler
 Belirli hisse fiyatlarının ne kadar ve ne zaman
değişeceğinin tahmini
 Sermaye dalgalanmalarının yönü ve oranının tahmini
 Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin
değerlendirilmesi
 Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti
ve önlenmesi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
28/79
Veri Madenciliği Uygulamaları
İmalat ve Üretim
 Sensör
verisini
kullanarak
makine
arızalarının
gerçekleşmeden önce tahmini
 İmalat kapasitesinin optimize edilmesi için üretim
sistemlerindeki
ortaklıkların
ve
sıra
dışılıkların
belirlenmesi
 Ürün kalitesini arttırmaya yönelik örüntülerin keşfi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
29/79
Veri Madenciliği Uygulamaları
Perakendecilik ve Lojistik
 Doğru envanter seviyeleri belirleyebilmek için belirli
perakende noktalarındaki satışların doğru olarak tahmini
 Pazar-sepet analizi
 Lojistik optimizasyonu için farklı ürün tiplerine ait
(çevresel ve mevsimsel faktör durumlarında) tüketim
seviyelerinin tahmini
 Sensör ve RFID verileri kullanılarak tedarik zincirindeki
ürün hareketlerindeki ilginç örüntülerin keşfi (özellikle raf
ömrü sınırlı olan ürünler için)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
30/79
Veri Madenciliği Süreci
 En iyi uygulamanın ortaya konması
 VM projelerinin doğru şekilde yürütülmesi için sistematik
bir yol önermek
 Farklı grupların (sektörlerin, firmaların, yazılımların vb.)
farklı çözümleri var
 Ortak standart VM süreçleri prosedürleri
 CRISP-VM
 SEMMA
 KDD (Knowledge Discovery in Databases)
Veri tabanlarında Bilgi Keşfi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
31/79
Veri Madenciliği Süreci
CRISP-VM
KİŞİSEL ÇÖZÜMLER
SEMMA
KDD
FİRMAYA ÖZEL ÇÖZÜMLER
YOK
ALAN ODAKLI METODOLOJİ
DİĞER METODOLOJİLER
0
Yrd. Doç. Dr. H. İbrahim CEBECİ
10
20
30
40
50
60
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
70
32/79
CRISP-VM
 Avrupa’da veri madenciliği işlemlerini yürüten ticari
firmalardan oluşan konsorsiyumun ortaya koyduğu bu
yaklaşımda, teknik açıdan veri madenciliği sürecine
sistematik bir yol haritası çizilmiştir.
İşin
Anlaşılması
Sonuçların
Yayılımı
Sonuçların
Değerlendirilmesi
Toplam Proje
süresinin % 80’i
Verinin
Anlaşılması
Veri
Kaynakları
Verinin
Hazırlanması
Verinin
Modellenmesi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
33/79
SAS enstitüsü tarafından
geliştirilmiş veri
madenciliği uygulama
prosedürüdür.
Assess
Modellerin doğruluğu ve
kullanılabilirliğini
“Değerlendirme”
SEMMA
Sample
Veriyi temsil edecek bir
“Örneklem Üretme ya da
Alma”
⟳
Explore
Verinin görselleştirilmesi
ve temel tanımlamasına
ilişkin “Keşif”
SEMMA
Model
Çeşitli istatistiksel ve
makine öğrenmesi
teknikleri ile
“Modelleme”
Yrd. Doç. Dr. H. İbrahim CEBECİ
Modify
Değişkenlerin seçimi ve
dönüşümü içeren
“Değiştirme”
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
34/79
Veri Önişleme Süreci
Gerçek Dünya
Verisi
Veri Temizleme
Veri Birleştirme
Veri Birleştirme
•
•
•
Veri Toplama
Veri Seçimi
Veri Bütünleştirme
Veri Temizleme
•
•
•
Kayıp veriler düzenleme
Gürültü azaltma
Tutarsızlıkları elemine etme
Veri Dönüştürme
•
•
•
Normalizasyon
Verileri kesiklileştirme
Yeni değişkenler üretme
Veri İndirgeme
•
•
•
Değişken sayısını azaltma
Kayıt sayısını azaltma
Veri dengeleme
İşlenmiş Veri
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
35/79
Veri Temizleme
 Veri setlerinde bulunan veriler;
 Tam olmayabilir, (Incomplete)
 Sorunun anlaşılmaması veya eskik kategori (Meslek Grupları)
 Kirli (Gürültülü) olabilir, (Noisy)
 Değişken alanlarının yanlış girilmesi (Maaş = -10TL )
 Tutarsız olabilir, (Inconsistent)
 Yaş: 40 – Doğum tarihi: 1990
 Yanlış ve/veya yanlı olabilir (Intentional)
 Doğum günlerindeki 1 Ocak tarihleri
 Bu durumda veri setleri yukarıda anlatına verilerden
temizlenmelidir.
 Olası Problem: Temizlik sırasında gerekli ve önemli
bilgilerin kaybolması ihtimali
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
36/79
Veri Temizleme
 Eksik veri tamamlama
 Kaydı yok say
 Elle doldurma
 Global bir değerle doldurma
 Eksik verileri ortalamayla doldurma
 En olası değerle doldurma (Regresyon, Bayes)
 Hatalı verileri düzeltme
 Hatalı veri toplama gereçleri
 Veri giriş problemleri
 Beri girişi sırasında kullanıcıların hatalı yorumları
 Beri iletim hataları ve teknolojik sınırlamalar
 Tutarsız ve yanlış verileri kaldırma
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
37/79
Veri Birleştirme
 Veri bütünleştirme temelde farklı veri tabanlarında
bulunan verilerin tek bir veri ambarında toplanması
sürecidir.
 Şema Entegrasyonu
 Bir veri tabanında girişler “musteri-ID” şeklinde yapılmışken,
bir diğerinde “musteri-numarasi” şeklinde olabilir.
 Problem Metadata kullanımı ile aşılır.
 Varlık Tanıma Problemi
 Bill Clinton – William Clinton
 Metre - Inch
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
38/79
Veri Dönüştürme
 Düzgünleştirme: (Kova Metodu, Histogram)
 Birleştirme
 Normalizasyon
 Min-Max Normalizasyonu
 Z Dönüşümü
 Ondalık Ölçekle Normalizasyon
 Verileri Kesikli Hale Getirme
 Kavram Hiyerarşisi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
39/79
Veri Dönüştürme
Min-Max Normalizasyonu:
 Eğer normalizasyon 0-1 arasında olacak ise;
v  minA
v' 
maxA  minA
 Eğer bir veri setindeki en küçük değer 17000 ve en büyük
değer 92000 ise 65000 değerinin normal karşılığı
aşağıdaki gibi bulunur.
65000 − 17000 48000
=
=
= 0,64
92000 − 17000 75000
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
40/79
Veri İndirgeme
Veri İndirgeme Stratejileri
 Veri Birleştirme (Aggregation)
 Boyut İndirgeme
 Dalgacık Dönüşümleri (DWT – Discrete Wavelet Transforms)
 Temel Bileşen Analizi (PCA – Principal Component Analysis)
 Öznitelik alt küme seçimi ve Öznitelik oluşturma (Feature
Selection and Creation – Korelasyon, CHAID, GINI)
 Sayısal İndirgeme (Numerosity reduction)
 Regresyon Modelleri
 Histogram,
 Kümeleme ve Örnekleme
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
41/79
Veri Madenciliği Metotları: Sınıflandırma
Sınıflandırma = Classification
 Sınıflandırma analizinde temel amaç ele alınan verinin
önceden belirli sınıf değişkenine atanıp, atanmayacağının
tahmin edilmesidir.
 Gözetimli Öğrenme tekniğidir.
 Gözetimli
Öğrenme
Sınıflandırma
(Supervised
Learning)
 Gözetimli Öğrenmede sınıf sayısı genelde baştan belli
 Gözetimsiz
Kümeleme
Öğrenme
 Sınıf sayısı belli değil
Yrd. Doç. Dr. H. İbrahim CEBECİ
(Unsupervised
Learning)
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
-
–
42/79
Veri Madenciliği Metotları: Sınıflandırma
 Sınıflandırma yaklaşımlarında geçmiş verilerin işlendiği bir
training set olmalıdır.
 Training set içerisindeki nitelik (atribute) sütunlarından bir
tanesi sınıflandırma ölçütü (class) olmalıdır
 Diğer nitelik sütunlarının bir fonksiyonu olarak sınıf
değişkeni için bir model oluşturulur.
 Oluşturulan bu model başlangıçta veri setinden ayrılmış
olan test veri seti yardımıyla test edilir.
 Sonuçta elde edilen model yardımıyla tahminler
gerçekleştirilir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
43/79
Sınıflandırma Modeli Yapısı
%70
Eğitim
Verisi
İşlenmiş
Veri
Model
Geliştirme
Sınıflayıcı
%30
Test
Verisi
Model
Değerlendirme
(Skorlama)
Kestirim
Doğruluğu
Yapay Sinir ağlarında veri üçe bölünür.
%60 Eğitim, %20 Test, %20 Doğrulama
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
44/79
Sınıflandırma
Model Oluşturma
Sınıflandırma
Algoritması
Öğrenme Kümesi
Müşteri
Alışveriş
Zamanı
Cinsiyet
001
Az
Erkek
Düşük
002
Az
Bayan
Yüksek
003
Çok
Erkek
Yüksek
004
Çok
Bayan
Yüksek
005
Çok
Erkek
Yüksek
Yrd. Doç. Dr. H. İbrahim CEBECİ
Harcama
Miktarı
Sınıflandırma
Modeli
Eğer Alışveriş Zamanı ÇOK veya
Cinsiyet BAYAN ise Harcama
Miktarı YÜKSEK olur
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
45/79
Sınıflandırma
Modelin Değerlendirilmesi
Sınıflandırma
Modeli
Eğer Alışveriş Zamanı ÇOK veya
Cinsiyet BAYAN ise Harcama
Miktarı YÜKSEK olur
Sınama Kümesi
Müşteri
Alışveriş
Zamanı
Cinsiyet
006
Çok
Erkek
Düşük
007
Az
Bayan
Yüksek
008
Çok
Erkek
Yüksek
009
Az
Bayan
Yüksek
010
Çok
Erkek
Yüksek
Yrd. Doç. Dr. H. İbrahim CEBECİ
Harcama
Miktarı





Model Başarımı : 4/5=0,80
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
46/79
Sınıflandırma
Modelin Kullanılması
Tahmin Veri Seti
Müşteri
Alışveriş
Zamanı
Cinsiyet
011
Çok
Erkek
012
Çok
Bayan
013
Çok
Erkek
014
Az
Bayan
015
Az
Erkek
Yrd. Doç. Dr. H. İbrahim CEBECİ
Sınıflandırma
Modeli
Eğer Alışveriş Zamanı ÇOK veya
Cinsiyet BAYAN ise Harcama
Miktarı YÜKSEK olur
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
Harcama
Miktarı
Yüksek
Yüksek
Yüksek
Yüksek
Düşük
47/79
Sınıflandırma Metotlarının Değerlendirilmesi
Doğru sınıflandırma başarısı
 Hız
 modeli oluşturmak için gerekli süre
 sınıflandırma yapmak için gerekli süre
 Kararlı olması
 veri kümesinde gürültülü ve eksik nitelik değerleri olduğu
durumlarda da iyi sonuç vermesi
 Ölçeklenebilirlik
 büyük miktarda veri kümesi ile çalışabilmesi
 Anlaşılabilir olması
 kullanıcı tarafından yorumlanabilir olması
Kuralların yapısı
 birbiriyle örtüşmeyen kurallar
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
48/79







Sınıflandırma Yöntemleri
Bayes sınıflandırıcılar (Bayes classifier)
Yapay sinir ağları (artificial neural networks)
İlişki tabanlı sınıflandırıcılar (association-based classifier)
k-en yakın komşu yöntemi (k- nearest neighbor method)
Destek vektör makineleri (support vector machines)
Genetik algoritmalar (genetic algorithms)
Karar ağaçları (decision trees)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
49/79
Sınıflandırma Yöntemleri
Yapay Sinir Ağları
 Yapay sinir ağları insan beyninin ağ yapısının matematiksel
olarak modellenmiş halidir.
 Öğrenme temelli bir algoritmadır.
 Yapay sinir ağlarından ilişkiyi (sınıfı) açıklayan temel bir
denklem belirlenir.
 Daha sonra iteratif bir yaklaşımla bu denklem setinin
ağırlıkları ve katsayıları değiştirilerek öğrenme kabiliyeti
arttırılır.
 Belli eşik değerine ulaştığından denklem sabitlenir ve
tahmin için kullanılır.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
50/79
Sınıflandırma Yöntemleri
Yapay Sinir Ağları
 Yapay sinir ağları girdi katmanı, gizli katman ve çıktı
katmanı olarak 3 farklı katmana sahip bir mimaridir.
 Yapay sinir ağları temel olarak hatalarından öğrenen ve
kendini geliştiren zeki bir yaklaşımdır.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
51/79
Sınıflandırma Yöntemleri
Genetik algoritmalar
 Genetik algoritma genetik bilimindeki çaprazlama ve
mutasyon
tekniklerini
kullanarak
optimizasyon
gerçekleştiren bir arama algoritmasıdır.
 Genetik algoritmalar çaprazlama ve optimizasyon
özellikleri sayesinden karar ağaçları benzeri şekilde
kurallar bulabilir. Bu şekilde sınıflandırma da kullanılabilir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
52/79
Sınıflandırma Yöntemleri
k-En Yakın Komşu Yöntemi
 Bu teknikte yeni bir durum daha önce sınıflandırılmış
benzer, en yakın komşuluktaki k tane olaya bakılarak
sınıflandırılır.
 Uzaklık ölçütü olarak genellikle öklit uzaklıkları alınır.
 K en yakın komşuluğundaki olayların ait olduğu sınıflar
sayılır ve yeni durum sayısı fazla olan sınıfa dahil edilir.
 Bu yöntemin tercih edilme sebebi, sayısı bilinen veri
kümeleri için hızlı ve verimli olmasıdır.
X2
Dikkat !!!
Bu yöntem
bir öğrenme tekniği değildir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
A
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
X1
53/79
Sınıflandırma Yöntemleri
Karar Ağaçları
 Yukarıdan aşağıya doğru ters bir ağaç biçiminde akış
diyagramları yardımıyla gösterilen sınıflama yöntemi
 Bütün karar ağaçları bir öz nitelikten başlayarak, eğer
gerek görülürse alt öz niteliklere bölünerek devam eden ve
dalın sonunda sınıf değerine ulaşan yapıdadır.
 Genel karar ağaçları algoritmalarında amaç ağaç dallarını
budayarak, ağaç sayısını azaltarak daha hızlı ve etkin
kurallara ulaşmaktır.
 ID3, C4.5, C5, CART, CHAID, M5
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
54/79
Sınıflandırma Yöntemleri
Karar Ağaçları
 Öncelikle veri setindeki sürekli değerler dönüştürülür.
 Ağaç bütün verinin oluşturduğu tek bir düğümle başlar
 Eğer örneklerin hepsi aynı sınıfa aitse düğüm yaprak olarak
sonlanır ve sınıf etiketini alır
 eğer değilse örnekleri sınıflara en iyi bölecek olan nitelik
seçilir




Bilgi kazancı (Information Gain) – ID3
Kazanç Oranı (Gain Ratio) – C4.5, C5.0
Gini Indeks – CART
Ki-Kare - CHAID
 işlem sona eriyor
 örneklerin hepsi (çoğunluğu) aynı sınıfa ait
 örnekleri bölecek nitelik kalmamış
 kalan niteliklerin değerini taşıyan örnek yok
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
55/79
Sınıflandırma Yöntemleri
Karar Ağaçları
Düğüm
Noktaları
A1 > B1
evet
hayır
A2 > B2
evet
C=1
Yrd. Doç. Dr. H. İbrahim CEBECİ
Eğer A1>B1 ve A2>B2 ise C=1 ;
Eğer A1>B1 ve A2<=B2 ise C=0 ;
Eğer A1<=B1 ise C=0 ;
C=0
hayır
C=0
Sınıflar
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
56/79
Veri Madenciliği Metotları: Kümeleme
 Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi
ve noktalar arasındaki benzerliği ölçen bir benzerlik
ölçümü verilmiş olsun, kümelemenin amacı aşağıdaki
özellikleri sağlayan kümeleri bulmaktır. (Gözetimsiz
Öğrenme)
 Bir kümedeki veri noktaları diğer noktalara göre daha
benzerdir
 Farklı kümelerdeki veri noktaları diğer noktalara göre daha
az benzerdir.
Benzerlik Ölçümleri:
 Eğer öznitelikler sürekli değerler ise o zaman Öklit
Uzaklıkları (Euclidian Distance) kullanılır.
 Diğerlerinde probleme uygun ölçümler kullanılır.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
57/79
Veri Madenciliği Metotları: Kümeleme
 Kümeleme: İncelenen karakteristikler açısından benzer
özellikleri olan verilerin bir arada değerlendirilmesi
(kümelenmesi)
2 Küme mi?
Yrd. Doç. Dr. H. İbrahim CEBECİ
4 Küme mi?
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
58/79
Veri Madenciliği Metotları: Kümeleme
 Analiz Metotları
 İstatistiksel metotlar (Hiyerarşik ve Hiyerarşik olmayan)
 K-ortalamalar (K-Means)
 K-Modlar
 Sinir Ağları
 Adaptif Rezonans Teorisi (ART)
 Özdüzenleyici Haritalar (Self-Organizing Maps)
 Genetik Algoritmalar
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
59/79
K-Ortalamalar (K-Means)
 Bu algoritmada öncelikle k tane küme oluşturulacaksa, n
tane veriden k tanesi rastgele seçilir.
 Bu değerler centroid olarak atanır ve her bir değerin bu
verilerden uzaklıkları hesaplanır.
 Genellikle öklid uzaklığı kullanılır.
 Uzaklıklarda en küçük değere karşılık gelen kümeye atama
gerçekleştirilir.
 Küme performansı, gerçek merkez noktadan uzaklıkların
kareleri toplamı ile değerlendirilir. (SSE)
 SSE değeri ne kadar küçük ise kümeleme o kadar iyidir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
60/79
K-Ortalamalar (K-Means)
Değer
Nokta
1.Küme
2.Küme
3.Küme
Atanan
Küme
1
(12,5)
8,06
12,65
3,61
3
2
(15,7)
11,05
12,21
0,00
3
3
(4,6)
0,00
11,70
11,05
1
4
(7,13)
7,62
4,12
10,00
2
5
(12,15)
12,04
4,47
8,54
2
6
(2,3)
3,61
15,23
13,60
1
7
(2,7)
2,24
11,66
13,00
1
8
(16,10)
12,65
10,63
3,16
3
9
(8,17)
11,70
0,00
12,21
2
10
(19,4)
15,13
17,03
5,00
3
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
61/79
K-Ortalamalar (K-Means)
Adım 1
Yrd. Doç. Dr. H. İbrahim CEBECİ
Adım 2
Adım 3
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
62/79
Veri Madenciliği Metotları: Birliktelik Kuralları
 Sıklıkla tekrar eden kalıpların belirlenmesi ve bu kalıplar
sayesinde tahmin gerçekleştirilmesi
 Acaba X ve Y ürününü alan müşteriler aynı zamanda hangi
ürünü almayı tercih ediyorlar.
 Eğer X ve Y alanlar genellikle Z alıyorsa, bu durumda X ve Y
alan ama Z almayanlar potansiyel Z müşterisidir. (Pazar
Sepet Analizi)
 Satış ve Satınalma Tahminleri, Reyon organizasyonu,
kampanyalar ve promosyonlar
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
63/79
Veri Madenciliği Metotları: Birliktelik Kuralları
 Birliktelik Kuralları : Association Rules
 Teknik Tanım: Veri kümesi içindeki yaygın örüntülerin
(pattern) ve nesneleri oluşturan öğeler arasındaki
ilişkilerin bulunması
 Birliktelik Kuralları iki parametre ile betimlenir.
 Support: Destek
 Confidence: Güven
 Birliktelik kurallarının geçerli olabilmesi için minimum
destek ve güven değerlerini sağlaması gereklidir. (Eşik
değerleri)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
64/79
Birliktelik Kuralları / Destek
 Toplam Müşterilerin ancak % 30 u Harry Potter kitabı ile
Yüzüklerin Efendisi DVD lerini birlikte almışlardır. (Klasik
Olasılık)
( , )
→
=
Kitap
DVD
Ramses
Harry Potter
Yüzüklerin Efendisi
Harry Potter
Harry Potter
Yüzüklerin Efendisi
Harry Potter
Yüzüklerin Efendisi
Harry Potter
Yüzüklerin Efendisi
Yüzüklerin Efendisi
Yüzüklerin Efendisi
Ramses
Yüzüklerin Efendisi
Yüzüklerin Efendisi
Harry Potter
Yüzüklerin Efendisi
Harry Potter
Ramses
Harry Potter
Yrd. Doç. Dr. H. İbrahim CEBECİ
→
( ,
10
=
→
→
)
3
=
10
= 0,30
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
65/79
Birliktelik Kuralları / Güven
 Harry Potter kitabını alan müşterilerin %60 ı Yüzüklerin
Efendisi DVD sini almıştır. (Şartlı Olasılık)
( , )
ü
→
=
( )
Kitap
DVD
Ramses
Harry Potter
Yüzüklerin Efendisi
Harry Potter
Harry Potter
Yüzüklerin Efendisi
Harry Potter
Yüzüklerin Efendisi
Harry Potter
Yüzüklerin Efendisi
Yüzüklerin Efendisi
Yüzüklerin Efendisi
Harry Potter
Harry Potter
Harry Potter
Harry Potter
Yüzüklerin Efendisi
Harry Potter
Ramses
Harry Potter
Yrd. Doç. Dr. H. İbrahim CEBECİ
ü
→
ü
ü
(
=
→
→
(
3
=
5
,
)
)
= 0,60
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
66/79
Veri Madenciliği Metotları: Birliktelik Kuralları
 En sık kullanılan yöntemler
 Apriori
 Eclat
 FP-Growth
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
67/79
Birliktelik Kuralları / Apriori Algoritması
 Öncelikle destek ve güven ölçülerini karşılaştırmak için
eşik değerleri belirlenir.
 Her bir ürün için destek sayıları hesaplanır. Eşik değeri ile
karşılaştırılan destek değerlerinin içinden eşik değerinden
düşük olanlar çıkarılır.
 Kalan ürünler ikişerli gruplanarak, grup destek sayıları
hesaplanır. Tekrar eşik değerleri ile karşılaştırılan destek
değerlerinden eşik değerinin altında kalanlar iptal edilir.
 Daha sonra üçerli, dörderli, beşerli, vb. biçimde gruplar için
aynı karşılaştırma ve eleme işlemi devam ettirilir. Eşik
değerlere uygun olduğu sürece işlemler sürecektir.
 Belirlenen ürün grubunun destek ölçülerine bakarak
birliktelik kuralları türetilir ve bu kurallarının her biri için
güven ölçüleri belirlenir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
68/79
Birliktelik Kuralları / Apriori Algoritması
Müşteri ID
(TID)
Aldığı Ürünler
5401300197
Gofret, Kola, Su, Çekirdek
5401300198
Antep Fıstığı, Çekirdek, Çikolata, Kola
5401300199
Gofret, Çekirdek, Antep Fıstığı
5401300200
Kola, Su, Çekirdek, Kahve
5401300201
Gofret, Çekirdek, Çikolata, Su
5401300202
Süt, Çekirdek, Su
5401300203
Gofret, Cips, Çekirdek
5401300204
Çikolata, Patlamış Mısır, Su
5401300205
Patlamış Mısır, Kola, Su
5401300206
Su, Süt, Gofret, Çikolata, Çekirdek
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
69/79
Birliktelik Kuralları / Apriori Algoritması
 İlk adımda destek ve güven için eşik değerleri
belirlenmelidir.
= 0,30
ü
= 0,80
 Bu durumda destek sayısı N=10 olduğu da dikkate
alındığında 10*0,3=3 olacaktır.
 Yani herhangi bir adımda destek sayısı 3 ten az olan
değerler elemine edilecektir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
70/79
Birliktelik Kuralları / Apriori Algoritması
 İkinci adımda ise her bir ürün için aşağıdaki gibi destek
sayıları hesaplanır.
Ürün Adı
Destek
Müşteri ID (TID) Aldığı Ürünler
Gofret
5
5401300197
Gofret, Kola, Su, Çekirdek
Kola
4
5401300198
Antep Fıstığı, Çekirdek, Çikolata, Kola
Su
7
5401300199
Gofret, Çekirdek, Antep Fıstığı
Çekirdek
8
5401300200
Kola, Su, Çekirdek, Kahve
Antep Fıstığı
2
5401300201
Gofret, Çekirdek, Çikolata, Su
Çikolata
4
Kahve
1
5401300202
Süt, Çekirdek, Su
Süt
2
5401300203
Gofret, Cips, Çekirdek
Cips
1
5401300204
Çikolata, Patlamış Mısır, Su
Patlamış Mısır
2
5401300205
Patlamış Mısır, Kola, Su
5401300206
Su, Süt, Gofret, Çikolata, Çekirdek
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
71/79
Birliktelik Kuralları / Apriori Algoritması
 İkili eşleştirmeler için destek sayıları hesaplanır.
İkili
Ürün Adı
Destek
Destek
Aldığı Ürünler
Gofret, Kola
1
Gofret, Kola, Su, Çekirdek
Gofret, Su
3
Antep Fıstığı, Çekirdek, Çikolata, Kola
Gofret
5
Gofret, Çekirdek
5
Gofret, Çekirdek, Antep Fıstığı
Kola
4
Gofret, Çikolata
2
Kola, Su, Çekirdek, Kahve
Su
7
Kola, Su
3
Gofret, Çekirdek, Çikolata, Su
Çekirdek
8
Kola, Çekirdek
3
Çikolata
4
Kola, Çikolata
1
Süt, Çekirdek, Su
Su, Çekirdek
5
Su, Çikolata
3
Çekirdek, Çikolata
3
Yrd. Doç. Dr. H. İbrahim CEBECİ
Gofret, Cips, Çekirdek
Çikolata, Patlamış Mısır, Su
Patlamış Mısır, Kola, Su
Su, Süt, Gofret, Çikolata, Çekirdek
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
72/79
Birliktelik Kuralları / Apriori Algoritması
 Üçlü eşleştirmeler için destek sayıları hesaplanır.
İkili
İkili
Destek
Gofret, Su
3
Gofret, Çekirdek
5
Kola, Su
3
Kola, Çekirdek
3
Su, Çekirdek
5
Su, Çikolata
3
Çekirdek, Çikolata
3
Yrd. Doç. Dr. H. İbrahim CEBECİ
Destek
Gofret, Su, Çekirdek
3
Gofret, Su, Kola
1
Gofret, Su, Çikolata
2
Gofret, Çekirdek, Kola
1
Gofret, Çekirdek, Çikolata
2
Kola, Su, Çekirdek
2
Kola, Su, Çikolata
0
Kola, Çekirdek, Çikolata
1
Su, Çekirdek, Çikolata
2
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
73/79
İkili
Birliktelik Kuralları / Apriori Algoritması
Destek
Aldığı Ürünler
Gofret, Kola, Su, Çekirdek
Gofret, Su, Çekirdek
3
Gofret, Su, Kola
1
Gofret, Su, Çikolata
2
Gofret, Çekirdek, Kola
1
Gofret, Çekirdek, Çikolata
2
Kola, Su, Çekirdek
2
Kola, Su, Çikolata
0
Kola, Çekirdek, Çikolata
1
Patlamış Mısır, Kola, Su
Su, Çekirdek, Çikolata
2
Su, Süt, Gofret, Çikolata, Çekirdek
Antep Fıstığı, Çekirdek, Çikolata, Kola
Gofret, Çekirdek, Antep Fıstığı
Kola, Su, Çekirdek, Kahve
Gofret, Çekirdek, Çikolata, Su
Süt, Çekirdek, Su
Gofret, Cips, Çekirdek
Çikolata, Patlamış Mısır, Su
Birliktelik Kuralı
Açıklama (Şartlı Olasılık)
Güven
Gofret & Su  Çekirdek
Gofret ve Su alanların Çekirdek alma ihtimali
3/3=1,00
Gofret & Çekirdek  Su
Gofret ve Çekirdek alanların Su alma ihtimali
3/5=0,60
Su & Çekirdek  Gofret
Su ve Çekirdek alanların Gofret alma ihtimali
3/5=0,60
Gofret  Su & Çekirdek
Gofret alanların Su ve Çekirdek alma ihtimali
3/5=0,60
Su  Gofret & Çekirdek
Su alanların Gofret ve Çekirdek alma ihtimali
3/7=0,42
Çekirdek  Gofret & Su
Çekirdek Alanların gofret ve Su alma ihtimali
3/8=0,38
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
74/79
Birliktelik Kuralları / Apriori Algoritması
 Soruda güven eşik değeri % 80 olarak verilmişti.
 Bu durumda elimizde sadece Gofret ve Su alanların,
çekirdek te aldığı bilgi mevcuttur.
 Güven değeri 1,00 olduğundan, Gofret ve Su alan herkes
mutlaka (%100) ihtimalle çekirdekte alacaktır.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
75/79
 Ticari
Veri Madenciliği Yazılımları
 IBM SPSS Modeller
 SAS-Enterprise Miner
 IBM-Intelligent Miner
 StatSoft-Statistica
…
 Açık Kaynak Kodlu
Ücretsiz
R
 RapidMiner
 Weka
…
Yrd. Doç. Dr. H. İbrahim CEBECİ
Ücretsiz
%73
Sadece
Ücretsiz
%9
Sadece
Ticari
%27
Her
İkisi
%64
Ticari
%91
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
76/79
Büyük Veri Yazılım Araçları ve Plaformları
Apache Hadoop/Hbase/Pig/Hive (67)
Amazon Web Services (AWS) (36)
NoSQL databases (33)
Other Big Data software (21)
Other Hadoop-based tools (10)
0
10
20
30
40
50
60
70
80
R (245)
SQL (185)
Java (138)
Python (119)
C/C++ (66)
Other languages (57)
Perl (37)
Awk/Gawk/Shell (31)
F# (5)
0
Yrd. Doç. Dr. H. İbrahim CEBECİ
50
100
150
200
250
300
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
77/79
Veri Madenciliği Mitleri
 Veri madenciliği
 Anlık sonuçlar (Tahminler) verir
 İşletme uygulamaları için uygulanabilir değildir
 Farklı veya sadece VM için oluşturulmuş veri tabanına ihtiyaç
duyar
 Sadece teknik yeterlikleri üst düzeyde olan kullanıcılar
tarafından gerçekleştirilebilir
 Sadece yüksek miktarda veriye sahip büyük firmalar için
geçerlidir
 Bildiğimiz istatistik için biçilen yeni bir isimden başka bir şey
değildir
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
78/79
VM Sürecinde Yapılan Temel Yanlışlar
 Problemin yanlış tanımlanması ve seçilmesi
 Finansal ve fikir sponsorunun VM ile ilgili fikirlerinin göz
ardı edilmesi (VM ne yapabilir, Ne yapamaz!!!)
 Veri ön işleme süreçleri için harcanan zamanın yetersiz
olması
 Sadece bütünleşik sonuçların incelenip, kayıt bazlı
değerlendirmelerin göz ardı edilmesi
 Şüpheli sonuçların göz ardı edilip, ört bas edilmesi
 Rastgele, amaçsızca ve tekrarlı olarak algoritmaların
kullanılması
…
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
79/79
Download