Veri Madenciliği

advertisement
VERİ
MADENCİLİĞİ
Veri, Enformasyon, Bilgi ve Bilgelik
 VERİ:Kavramsal anlamda veri, kayıt altına
alınmış her türlü olay, durum, fikirdir.
 Veri, oldukça esnek bir yapıdadır. Temel olarak
varlığı bilinen, işlenmemiş,ham haldeki kayıtlar
olarak adlandırılırlar. Bu kayıtlar
ilişkilendirilmemiş,düzenlenmemiş yani
anlamlandırılmamışlardır.
 Enformasyon (Information): verilerin
ilişkilendirilmiş, düzenlenmiş, anlamlandırılmış,
işlenmiş halidir.
 Bu haliyle enformasyon, potansiyel olarak içinde
bilgi barından bir veri halindedir.
 Enformasyonun, bilgiye dönüşmesi, bireyin onu
algılaması, özümsemesi ve sonuç çıkarmasıyla
gerçekleşir.
 Bilgelik; bu kavramların zirvesinde yer alır.
Bilgilerin kişi tarafından toplanıp bir sentez
haline getirilmesiyle ortaya çıkan bir olgudur.
Yetenek, tecrübe gibi kişisel nitelikler birer
bilgelik elemanıdır.
BİLGELİK
BİLGİ
ENFORMASYON
VERİ
 Günümüzde bilgelik en değerli varlıktır.
 Bilginin bu denli değerli olması, bilişim
teknolojilerinin gelişmesine ön ayak olmuştur.
 Bilgisayarların bilgi yönetiminde ve üretimde
faal olarak yer almaya başlaması kaçınılmaz bir
durum haline gelmiştir.
 Günümüze bakıldığında bir bilgi patlaması söz
konusudur. Çevremizin verilerle dolu olması peşi
sıra enformasyon ve bilgiyi beraberinde
getirmektedir.
 Internet gibi etkili bir iletişim ortamının varlığı bu
durumu körüklemektedir.
 Makro düzeyde bakıldığında hemen hemen
herkes bu veri dağına bir katkıda bulunmakta ve
de bundan yararlanmaktadır.
 Ancak bunun yanında bazı sorunlar da
getirmektedir
Bu kadar çok veri arasından gereken
bilgiyi çıkartabilmek gerekmektedir.
 Bu aşamada yeni bir kavram karşımıza
çıkmaktadır; VERİ MADENCİLİĞİ
 Günümüzde sadece bilgiye ulaşmak değil,
gerekli koşullarda bilgi üretmek de önemli bir
konu halini almıştır.
 Çığ gibi büyüyen sayısal veri ortamları
arasından yararlı ve de gerekli olan bilgiye
ulaşmayı sağlamak gerçek bir çaba haline
gelmiştir.
 Veri madenciliği bu safhada göze çarpan bir
olgudur.
 Frawley veri madenciliğini “Daha önceden
bilinmeyen ve potansiyel olarak yararlı olma
durumuna sahip verinin keşfedilmesi” olarak
tanımlamıştır.
 Berry ve Linoff bu kavrama “Anlamlı kuralların ve
örüntülerin bulunması için geniş veri yığınları
üzerine yapılan keşif ve analiz işlemleri” şeklinde
bir açıklama getirmiş.
 Sever ve Oğuz çalışmalarında veri madenciliği
hakkında “Önceden bilinmeyen, veri içinde gizli,
anlamlı ve yararlı örüntülerin büyük ölçekli
veritabanlarından otomatik biçimde elde
edilmesini sağlayan veri tabanlarında bilgi keşfi
süreci içerisinde bir adımdır.” tanımını
kullanmışlardır.
 Nihayetinde amaç bilgiyi keşfederek ona
ulaşmak ve bu yolla fayda sağlamaktır.
Bilgi Keşfi sürecinde veri madenciliğinin yeri
TEMEL KAVRAMLAR
Geleneksel veri saklama yöntemleri
a)Klasik Dosya Yapıları
b)Kayıt ve Alan
c)Sıralı dosyalar
d)Dizinli dosyalar
e)Hesaba dayalı dosyalar
VERİ TABANI SİSTEMLERİ
 Karmaşık dosya yapıları,çok sayıda dosya arası
ilişki ve kullanıcıların dosyalara erişimi söz
konusu olduğunda geleneksel dosya sisteminin
yetersiz kaldığı görülmektedir.Bu sorunu çözmek
üzere veriyi saklama ve erişim konusunda yeni
yazılım teknolojilerine yönelme başlamış ve veri
tabanı sistemlerini oluşturmak ve veriyi
yönetmek üzere veri tabanı yönetim sistemleri
(VYS) ortaya çıkmıştır.
Veri tabanı yönetim sistemleri, birbiriyle
ilişkili veri ve programlar topluluğundan
oluşmaktadır.Veri topluluğu bir veritabanı
olarak değerlendirilir.
Veritabanı bir kuruluşa ilişkin bilgilerin yer
aldığı ortamdır.
Veritabanı sistemlerini, veri kümelerinin
düzenli biçimde tutulduğu ve bu verinin
çeşitli yazılımlar aracılığıyla yönetildiği bir
ortam olarak düşünebiliriz.
Veri tabanı ile kullanıcı arasındaki ilişki
VERİ TABANI
Veri
tabanı
yönetim
sistemi
Uygulama
programları
KULLANICI
Veritabanı Sistemlerinin Üstünlükleri
Verinin tekrarlanmasını önler
Verinin tutarlı olmasını sağlar
Aynı andaki erişimlerde tutarsızlıkların
ortaya çıkmasını önler
Verinin güvenliğini sağlar
VERİ MODELLERİ
VYS belirli bir veri modeline dayanır.Bir
veri tabanı yapısının temelini veri modeli
kavramı oluşturmaktadır.
Veriyi mantıksal düzeyde düzenlemek için
kullanılan kavramlar, yapılar ve işlemler
topluluğuna veri modeli denir.
Veri modellerini 4 ana grupta toplamak
mümkündür;
a)Sıradüzensel (Hiyerarşik) veri modeli
b)Ağ (Network) veri modeli
c) İlişkisel veri modeli
d) Nesneye yönelik veri modelidir
Günümüzde en yaygın biçimde
kullanılanı ilişkisel modeldir.
İLİŞKİSEL MODEL
İlişkisel model, varlıklar arasındaki
bağlantının, içerdiği değerlere göre
sağlanması esasına dayanır.
İlişkisel model, varlıklar arasında oluşan
karmaşık ilişkileri basite indirgemek
amacıyla geliştirilmiştir.
Bu yaklaşımda, veritabanındaki tüm ilişkiler
tablolar biçiminde tanımlanmaktadır.
İlişkisel veritabanlarında tablolar birbiriyle ilişkilendirilmiştir
Veritabanı
No
Adı
Bölüm no
Tablolar
Bölüm
No
Bölüm
Adı
İLİŞKİSEL VERİTABANI
İlişkisel veritabanı, her biri özel isimlere
sahip tablolardan oluşur.Burada her tablo
bir varlığa veya bir ilişkiye karşılık
gelmektedir.
Tablonun sütunları nitelikleri; satırlar ise
bu niteliklerin değerlerini ifade eder.Herbir
satır ‘kayıt’ olarak da düşünülebilir.
Anahtar alan tablonun tamamlayıcısıdır.
Sütunlar (nitelikler)
No
Adı
Bölüm No
25
AHMET
10
13
SENEM
10
28
ORKUN
30
ANAHTAR
Satırlar
(Kayıtlar)
TABLOLARIN ÖZELLİKLERİ
Tablolar sütunlardan oluşur
Her bir sütunun ayrı bir adı vardır
Her bir sütun, aynı etki alanının belirlediği
değerleri içerir
Her bir satır birbirinden farklıdır
Satırların sırası önemsizdir
Sütunların sırası önemsizdir
VERİ TABANI ŞEMASI
 Veritabanının mantıksal tasarımına
‘veritabanı şeması’ adı verilir.
 Tablolar ve onların nitelikleri veritabanı
şemasını oluşturur.
 Veritabanı şemalarını iki ana grup altında
incelenir.
-Fiziksel şema
-Kavramsal şema
 Fiziksel şema; veritabanının fiziksel çevresi ile ilgili
tanımları içerir.
 Örneğin:veritabanı bilgisayarda bir disk dosyası
biçiminde yer alacaktır.Bu dosyanın disk üzerindeki
adresi ve özellikleri ile ilgili tanımlar fiziksel şemayı
oluşturur.
 Kavramsal şema ise tüm veritabanının mantıksal
tasarımıdır.Veritabanına kaydedilmesine karar verilen
veriler arasındaki mantıksal ilişkilerin belirlenebilmesi için
veritabanı şeması oluşturulur.
 Bu şemada veri alanları,kayıtlar dosyalar vb. gibi ne tür
veri elemanlarının bulunacağı, veri elemanları arasındaki
ilişkiler ve veritabanının yapısı hakkında bilgiler yer alır.
Veri tabanı dosyası
Veri tabanı dosyası
Veri tabanı dosyası
Fiziksel
veritabanı
Fiziksel şema
Kavramsal şema
Alt Şema
A
Uygulama
Programı 1
Alt Şema
B
Uygulama
Programı 2
Uygulama
Programı 3
Uygulama
Programı 4
Veritabanı
Şeması
ve
Alt şemalar
Kullanıcılar
Veri Ambarları ve Veri Madenciliği
 Veri madenciliği büyük miktarda veri inceleme
amacı üzerine kurulmuş olduğu için veri
tabanları ile yakından ilişkilidir.
 Gerekli verinin hızla ulaşılabilecek şekilde
amaca uygun bir şekilde saklanması ve
gerektiğinde hızla ulaşılabilmesi gerekir.
 Normal bir veritabanındaki veriler bir çok
ayrıntıyı içermektedir ve analiz işlemleri normal
bir veritabanı üzerinde uygulandığı takdirde bir
takım zorluklar ortaya çıkacaktır.
 Günümüzdeki veritabanlarının çok farklı
kaynaklarda bulunması, çok büyük hacimlerde
veriler içermesi ve farklı yapılara sahip olması
dikkate alınırsa;
 Veri Ambarları, bu zorlukların üstesinden gelmek
amacıyla normal veritabanından farklı olarak,
analiz ve raporlama işlemlerinde kullanılmak
üzere hazırlanmış verileri içermektedir.
 Günümüzde yaygın olarak kullanılmaya
başlanan veri ambarları günlük kullanılan veri
tabanlarının birleştirilmiş ve işlemeye daha
uygun bir özetini saklamayı amaçlar.
OLTP Sistemler
Bir kurumun verilerinin işlendiği ortamlara
OLTP (Online Transaction Processing)
sistemler adı verilmektedir.
Örneğin bir işletmenin sahip olduğu stok
sistemi ile depoya giren ve çıkan ürünleri
ve ödemeleri izlenebilir.
OLTP sistemlerine ilişkin veritabanlarına
veri kaydedilebilir,veriye erişilerek
raporlanabilir ve istendiğinde veri
silinebilir.
Güncelleştirme
Kayıt ekleme
OLTP
Veri tabanı
Kayıt okuma
Kayıt silme
Bir OLTP veritabanında yapılabilecek işlemler
Karar Destek Sistemleri
 1990’ lı yıllara değin bilgisayarın karar alma
süreci üzerindeki etkisini arttırmak üzere çok
çaba harcanmıştır.Karar Destek Sistemleri ve
Üst Yönetici Sistemleri bu amaçla ortaya
atılmıştır.
 Karar Destek Sistemleri, yöneticilerin
programlanamayan türden karar verme
işlemlerine yardımcı olmak üzere geliştirilmiştir.
 Yöneticinin herhangi bir anda, daha önceden
öngörülmemiş bir bilgiye aniden gereksinimi
olabilir.Karar ve destek sisitemleri bu gibi
durumlar için tasarlanır.
 Üst yönetici sistemleri temel olarak karar
destek sistemlerine benzer.Ancak bu tür
sistemler sadece stratejik düzeydeki yönetici
personel için tasarlanır.Bu sistemler yapısal
olmayan, yani önceden programlanamayan
karar türlerine destek veren sistemlerdir.
 Karar destek sistemleri çoğunlukla model bazlı
olarak tanımlanır.Bunlar basit karar modellerinin
yanı sıra,karmaşık matematiksel yada istatiksel
modelleri de içerir.Üst yönetici sistemlerinde ise
karmaşık modellere yer verilmez.Çoğunlukla
sistemin sorgulama olanaklarından yararlanılır.
VERİ AMBARI NEDİR?
 Veri ambarı, bir zaman boyutu içinde analitik
işlemlerin yapılması için ihtiyaç duyulan bilgi
temelini sağlar.
 Veri ambarı, karar verme sürecinde yöneticilere
destek vermek üzere hazırlanmış;
a)konuya yönelik
b)bütünleşik
c)zaman boyutu olan
d)sadece okunabilen veri topluluğudur.
Şirket içi
veriler
Karar Destek Sistemi
Karar Destek
Sistemi
Kullanıcısı
VERİ AMBARI
Dış kaynaklı
veriler
Karar Destek
Sistemi
Kullanıcısı
Veri ambarı,karar destek sistemleri ve üst yönetici sistemleri arasındaki ilişki
a) Konuya yöneliktir
 Veri ambarının konuya yönelik olmasının anlamı, veri
ambarının işletmedeki yüksek seviyeli varlıklar
üzerinde odaklanmış olmasıdır.Bu varlıklar bir okul
ortamı için öğrenciler, dersler,notlar vb. olabilir.
OLTP
VERİ AMBARI
Perakende satışlar
sistemi
Seri sonu satışlar
sistemi
Satışlar konu alanı
Katalog satışlar sistemi
Uygulama alanlarına yöneliktir.
İşletme konularına yöneliktir.
b) bütünleşiktir
 Veri ambarı ortamındaki verinin en belirgin görünümü,
bütünleşik durumda olmasıdır.Verinin kodlanmasında
görüş birliğine varılması, ölçü birimlerinin seçiminde
tutarlılık,sayısal değerlerin fiziksel gösterimindeki
tutarlılık vb gibi bütünleştirme kavramlarından söz
edilir.
 Bazı uygulamalarda uzunluk ölçüsü olarak
cm,bazılarında inç,bazılarında ise metre kullanılmış
olabilir.Bu tür verinin veri ambarına taşınması
esnasında birimlerin ortak bir uzunluk ölçüsü birimine
dönüştürülmesi söz konusu olacaktır.
OLTP
Perakende
Satışlar
sistemi
VERİ AMBARI
Ürün kodu
99999999
Ürün kodu
000009999
Seri sonu
Satışlar
sistemi
Ürün kodu
XXXXXXXX
Katalog
Satışlar
sistemi
Ürün kodu
XXXX9999
Aynı bilgi farklı sistemlerde farklı
biçimde kodlanmış olabilir
Satışlar
Konu alanı
Farklı biçimde kodlanmış alanlar ortak
kodlama biçimine dönüştürülür.
c) Zaman boyutu vardır
OLTP
VERİ AMBARI
2004
Perakende satışlar
Ocak 2007
Perakende satışlar
2005
Perakende satışlar
2006
Perakende satışlar
2007
Perakende satışlar
Veri tabanında o döneme ilişkin
Verilere yer verilir.
Veri ambarında önceki dönemlere ait
Verilere de yer verilir.
d) Sadece okunabilirdir
 Veri ambarındaki veri sadece okunabilir yapıdadır.
Veri ambarındaki veri yönetimin gereksinimlerine yanıt
vermek üzere tasarlandığı için günlük işlemlere tabi
tutulmaz; yani silinemez veya güncelleştirilemez.
güncelleştirme
yazma
okuma
KULLANICI
VERİ TABANI
Veri ambarı
KULLANICI
Okuma
OLTP
VERİ TABANI
Veri Ambarının Özellikleri
 Veri ambarına aktarılan yeni veriler, veri
ambarında mevcut bulunan verilerin
güncellenmesi için kullanılmazlar. Bu yüzden
veri ambarındaki veriler değiştirilmemeli,
güncellenmemelidir .
 Operasyonel sistemlerdeki veriler güncellenip,
temizlenip, entegre edildikten ve
toplulaştırıldıktan sonra veri ambarına
aktarılırlar. Veriler son şekillerini almadan veri
ambarına aktarılmazlar.
Veri Ambarının Özellikleri
 Veri ambarına uygun bir şekilde aktarılan veri,
operasyonel sistemlerde bulunan ve değişime
sıklıkla uğrayan veriden farklı olarak daha sonra
herhangi bir değişime konu değildir
 Veri ambarına giren veriler burada kronolojik
olarak saklanırlar.
 Operasyonel sistemlerde tutulan veri çoğunlukla
60 gün ile 90 gün arasındaki zaman dilimini
kapsarken veri ambarlarında veri genellikle 3 ile
10 yıllık zaman dilimini kapsamaktadır
Veri Modelleme
 Veri ambarlarının kurulmasında, çalışmasında
en önemli hususlardan birisi veri modelinin
oluşturulmasıdır
 Gerçeğin soyutlanmış hali olan modelleme ile
verilerin analizler için en etkin şekilde veri
ambarlarında yerlerini alması hedeflenmektedir.
 Veri modellemenin amacı; verinin taşıdığı
anlamı, veriler arasındaki ilişkileri, verilerin
niteliklerini ve verilerin net tanımlarını açıkça
belirlemektir.
ANA TABLO
MAĞAZA
BOYUTU
Mağaza
Mağaza adı
Bölge
Zaman
Ürün
Mağaza
ZAMAN
BOYUTU
Zaman
Gün
Ay
Yıl
ÜRÜN
BOYUTU
Ürün
Sınıf
Marka
Tipik bir çok-boyutlu model
VERİ AMBARI MİMARİSİ
 Veri mabarı mimarisinin genel karakteristikleri şu
şekilde sıralanabilir.
a)Kaynaklardan alınan veri dönüştürülür
b) Veri ambarı oluşturulur
c)Kullanıcıların veri ambarına erişimi sağlanır.
Kullanıcı
Kaynak
Kaynak
Kaynak
Veri
Bütünleştirme
Kullanıcı
VERİ AMBARI
Kullanıcı
VERİ MADENCİLİĞİ
 Kurumlarda biriken veri içerisinden kurum için yararlı
olanlarını bulup ortaya çıkarma işine veri madenciliği
adı verilir.
 Veri madenciliği büyük ölçekli veriler arasından ‘değeri
olan’ bir bilgiyi elde etme işidir.Bu sayede veriler
arasındaki ilişkileri ortaya koymak ve gerektiğinde de
ileriye yönelik kestirimlerde bulunmak mümkün
görülmektedir.
 Veri madenciliği bir kurumda üretilen tüm verilerin belirli
yöntemler kullanarak var olan yada gelecekte ortaya
çıkabilecek gizli bilgiyi su yüzüne çıkarma süreci olarak
değerlendirilebilir.
 Bu açıdan bakıldığında veri madenciliği, kurumların
karar destek sistemleri için önemli bir yere sahip
olabilmektedir.
Veri Madenciliğinin Kullanım Alanları
Pazarlama
Bankacılık
Sigortacılık
Elektronik Ticaret
Eğitim-Öğretim
Taşımacılık-Ulaşım-Konaklama
Finansal servisler
Veri Madenciliği Süreci
A) Veri temizleme
B)Veri bütünleştirme
C) Veri indirgeme
D)Veri dönüştürme
E)Veri madenciliği algoritmasını uygulama
F)Sonuçları sunum ve değerlendirme
A) Veri temizleme
 Bazı uygulamalarda, üzerinde çözümleme
yapılacak verilerin istenen özelliklere sahip
olmadığı görülebilir.Örneğin;eksik verilerle ve
uygun olmayan verilerin oluşturduğu tutarsız
verilerle karşılaşılabilir.
 Veritabanında yer alan tutarsız ve hatalı veriler
gürültü olarak değerlendirilir.Bu gibi durumlarda
verinin söz konusu sorunlardan temizlenmesi
gerekir.
 Eksik verilerin yerine yenileri belirlenerek
konulmalıdır.
B) Veri bütünleştirme
Farklı veri tabanlarından yada veri
kaynaklarından elde edilen verilerin birlikte
değerlendirilmeye alınabilmesi için farklı
türdeki verilerin tek türe dönüştürülmesi
yani bütünleştirilmesi söz konusu olacaktır.
C) Veri İndirgeme
 Veri madenciliği uygulamalarında bazen
çözümleme işlemi uzun süre alabilir.Eğer
çözümlemeden elde edilecek sonucun
değişmeyeceğine inanılıyorsa veri sayısı ya da
değişkenlerin sayısı azaltılabilir.
 Veri indirgeme değişik boyutlarda yapılabilir;
a)Veriyi birleştirme veya veri küpü
b)Boyut indirgeme
c)Veri sıkıştırma
d)Örnekleme
e)Genelleme
Birleştirme
Veya
Veri küpü
Genelleme
Örnekleme
Veri
İndirgeme
yöntemleri
Boyut
indirgeme
Veri
sıkıştırma
 Veriyi indirgeme aşamasında verilen çok boyutlu veri
küpleri biçiminde dönüştürmek söz konusu
olabilir.Böylece çözümlemeler sadece belirlenen
boyutlara göre yapılır.Veriler arasında bir seçme işlemi
yapılarak, gereksiz veriler veritabanından çıkarılır ve
boyut azaltılması sağlanabilir.
 Veri sıkıştırma aşamasında, büyük veri kümelerinin
sıkıştırılarak daha az işgal etmeleri sağlanır.
 Örnekleme aşamasında ise, büyük veri topluluğu
yerine onu temsil eden daha küçük veri kümelerinin
oluşturulması amaçlanır.
 Genelleme verilerin tek tek değil genel kavramlarla
ifade edilmesi sağlanır.
d) Veri dönüştürme
 Veriyi bazı durumlarda veri madenciliği
çözümlemelerine aynen katmak uygun
olmayabilir.Değişkenlerin ortalama ve varyansları
birbirinden önemli ölçüde farklı olduğu taktirde büyük
ortalama ve varyansa sahip değişkenlerin diğerleri
üzerindeki baskısı daha fazla olur ve onların önemli
rollerini önemli ölçüde azaltır.
 Bu nedenle bir dönüşüm yöntemi uygulanarak söz
konusu değişkenlerin normalleştirilmesi veya
standartlaştırılması uygun bir yol olacaktır.
e) Veri madenciliği algoritmasını uygulama
Veri madenciliği yöntemlerini
uygulayabilmek için yukarıda sıralanan
işlemlerin uygun görülenleri yapılır.Veri
hazır hale getirildikten sonra konuyla ilgili
veri madenciliği algoritmaları uygulanır.
Söz konusu algoritmalar sınıflama,
kümeleme ve birliktelik kuralları
konusunda incelenecektir.
f) Sonuçları sunum ve değerlendirme
Veri madenciliği algoritması veriler
üzerinde uygulandıktan sonra, sonuçlar
düzenlenerek ilgili yerlere sunulur.
Sonuçlar çoğu kez grafiklerle desteklenir.
VERİ MADENCİLİĞİ YÖNTEMLERİ
Veri madenciliği konusunda çok sayıda
yöntem ve algoritma geliştirilmiştir.Bu
yöntemlerin bir çoğu istatistiksel tabanlıdır.
Söz konusu veri madenciliği modellerini
temel olarak şu şekilde gruplandırabiliriz;
a)Sınıflama
b)Kümeleme
c)Birliktelik kuralları
a) Sınıflama
 Veri madenciliğinde sıkça kullanılan bir yöntem olan
sınıflandırma,veri tabanlarındaki gizli örüntüleri ortaya
çıkarmakta kullanılır.
 Verilerin sınıflandırılmasında belirli bir süreç
izlenir.Öncelikle var olan veri tabanının bir kısmı eğitim
amacıyla kullanılarak sınıflandırma kurallarının
oluşturulması sağlanır.
 Daha sonra bu kurallar yardımıyla yeni bir durum
ortaya çıktığında nasıl karar verileceği belirlenir.
ÖRNEK:
Bir bankanın kredi verdiği müşterilerinin risk
durumunu karar ağaçları yardımıyla ortaya koymak
istediğini varsayalım.Bu sayede belirli özelliklere
sahip müşterilerinden kredi talebi geldiğinde, karar
ağacı bilgilerine dayanarak kredi verip vermeme
konusunda karar verecektir.
Eğitim verileri
MÜŞTERİ
BORÇ
GELİR
STATÜ
RİSK
1
YÜKSEK
YÜKSEK
İŞVEREN
KÖTÜ
2
YÜKSEK
YÜKSEK
ÜCRETLİ
KÖTÜ
3
YÜKSEK
DÜŞÜK
ÜCRETLİ
KÖTÜ
4
DÜŞÜK
DÜŞÜK
ÜCRETLİ
İYİ
5
DÜŞÜK
DÜŞÜK
İŞVEREN
KÖTÜ
Tablodaki veriler karar ağacının oluşturulması amacıyla eğitim verisi
olarak kullanılacaktır.
A
Düğümü
BORÇ:DÜŞÜK
BORÇ:YÜKSEK
B
Düğümü
KÖTÜ
GELİR:YÜKSEK
GELİR:DÜŞÜK
İYİ
C
Düğümü
STATÜ:İŞVEREN
KÖTÜ
Eğitim verilerine uygun karar ağacı
STATÜ:ÜCRETLİ
İYİ
Elde edilen karar ağacı karar kuralları
oluşturulmasında kullanılabilir.
KURAL1
Eğer BORÇ:YÜKSEK ise RİSK:KÖTÜ
KURAL2
Eğer BORÇ:DÜŞÜK ise ve
Eğer GELİR:YÜKSEK ise RİSK:İYİ
KURAL3
Eğer BORÇ:DÜŞÜK ise ve
Eğer GELİR:DÜŞÜK ise ve
Eğer STATÜ:İŞVEREN ise RİSK:KÖTÜ
KURAL4
BORÇ:DÜŞÜK,GELİR:DÜŞÜK,STATÜ:ÜCRETLİ ise
RİSK:İYİ
b) Kümeleme
Kümeleme, verilerin kendi aralarındaki
benzerliklerin göz önüne alınarak
gruplandırılması işlemidir.Bu özelliği
nedeniyle pek çok alanda kullanılır.
Örneğin pazarlamada,desen
tanımlamada,resim işleme ve uzaysal
harita verilerinin analizlerinde
kullanılmaktadır.
c) Birliktelik Kuralları
 Veri tabanı içinde yer alan kayıtların birbiriyle olan
ilişkilerini inceleyerek, hangi olayların eş zamanlı
olarak birlikte gerçekleşebileceklerini ortaya koymaya
çalışan veri madenciliği yöntemleri bulunmaktadır.Bu
ilişkilerin belirlenmesiyle birliktelik kuralları elde
edilir.
 Birliktelik kuralları özellikle pazarlama alanında
uygulama alanı bulmuştur. ‘Pazar sepet analizleri’
adı verilen uygulamalar bu tür veri madenciliği
yöntemlerine dayanmaktadır.
 Bu tür çözümlemelerden müşterilerin alışveriş
alışkanlıkları belirlenmeye çalışılmaktadır.
Pazar sepet analizleri yardımıyla bir
müşteri herhangi bir ürünü aldığında,
sepetine başka hangi ürünleri de koyduğu
belirli bir olasılığa göre ortaya konur.
Birlikte satın alınan ürünler
belirlendiğinde,mağazalarda raflar ona
göre düzenlenerek müşterilerin bu tür
ürünlere daha kolayca erişmeleri
sağlanabilir.
Özet
 Kurumlarda biriken veri içinden kurum için
yararlı olanlarını bulup ortaya çıkarma işine veri
madenciliği denir.
 Veri madenciliği uygulamalarında altyapı
gereksinimini ise veri ambarı sağlar.
 Veri madenciliği bir süreçtir.Verinin
temizlenmesinden
başlar;bütünleştirilmesi,indirgenmesi,dönüştürül
mesi,veri madenciliği yöntemlerinin uygulanması
ve sonuçların değerlendirilmesi gibi adımlardan
oluşur.
 Veri madenciliğinde temel olarak üç modelden
bahsedilir.Sınıflama,kümeleme ve birliktelik
kuralları.
 Veri içindeki gizli örüntülerin ortaya çıkarılması
amacıyla sınıflandırma modelleri kullanılır.
 Verinin kendi aralarındaki benzerliklerinden yola
çıkarak gruplandırılması kümeleme yöntemleri
ile gerçekleşir.
 Gözlemlerin birbiriyle olan ilişkisi ele alınarak
hangi olayların birlikte gerçekleştiği birliktelik
kuralları yöntemi ile ortaya konur.
KAYNAKÇA
 httpwww.sertacogut.comblogwp-contentuploads200903sertac_ogut__veri_madenciligi_kavrami_ve_gelisim_sureci.pdf
 VERİ MADENCİLİĞİ YÖNTEMLERİ , DR. Yalçın ÖZKAN, PAPATYA
YAYINLARI ,2008,İSTANBUL
Download