kinci Ders Veri Madenciliği: Veri

advertisement
İkinci Ders
Veri Madenciliği: Veri
Dr. Hidayet Takçı
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
1
Veri Nedir?
Sayısal veya mantıksal her türlü
değer bir veridir.
Öznitelikler
Öznitelik
– Bir nesneye ait özellik veya
onun bir karakteristiğidir
Örnek:
bir kişinin göz rengi,
ağırlığı vb.
– Öznitelik, değişken veya saha
olarak ta bilinir.
Nesne
Nesneler
– Bir nesneyi açıklayacak
özniteliklerin bir koleksiyonu
kayıt olarak bilinir.
– Nesne; bir kayıt, bir nokta, bir
durum, bir varlık veya bir
örnek olarak da bilinir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
2
Öznitelik Değerleri
Öznitelik değerleri; bir özniteliğe atanan sayılar
veya sembollerdir.
Öznitelikler ve öznitelik değerleri arasındaki fark
– Aynı öznitelik farklı öznitelik değerlerine eşlenebilir
Örnek: yükseklik feet veya metre ile ölçülebilir.
– Farklı öznitelikler
eşlenebilirler.
değerlerin
aynı
kümesi
ile
Örnek: ID ve yaş için öznitelik değerleri tamsayıdır
Fakat öznitelik değerlerinin özellikleri farklı olabilir.
– ID için bir limit yoktur ama yaş için maksimum ve minimum
değerler vardır.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
3
Özniteliklerin Tipleri
Özniteliklerin farklı tipleri vardır, bunlar aynı zamanda
ölçüm seviyelerini verirler.
– Nominal
Sayısal büyüklük ifade etmeyen kategorik veri tipi
Örnek: ID numarası, göz rengi, posta kodu gibi
– Ordinal
Verilerin belli bir ölçüte göre büyükten küçüğe veya küçükten
büyüğe sıralandığı veri tipi
Örnek: rütbe, derece, yükseklik {uzun, orta, kısa} gibi sıralı verileri
içerir.
– Interval
Bir aralık içerisindeki değerleri sunmak için kullanılan veri tipi
Örnek: Tarih, Celsius veya Fahrenheit cinsinden sıcaklıklar.
– Ratio
Gözlemlerin aldığı değerlerin, oransal olarak karşılaştırılabildiği veri
tipidir
Örnek: Kelvin cinsinden sıcaklık, boyut, zaman ve sayılar
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
4
Sürekli ve Süreksiz Öznitelikler
Sürekli öznitelik
– Özellik değerleri gerçek sayılar içerir
Örnek:
sıcaklık, yükseklik veya genişlik.
– Sürekli öznitelikler tipik olarak kayan noktalı
değişkenlerle sunulurlar.
Ayrık veya süreksiz öznitelik
– Özellik değerleri tam sayılar içerir
Örnek:
posta kodu, bir doküman koleksiyonundaki kelimelerin
kümesi
– Sıklıkla tamsayı değişkenlerle sunulurlar.
– Not: ikili öznitelikler ayrık özniteliklerin özel bir
durumunu meydana getirir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
5
Veri Kümelerinin Tipleri
Kayıt (Çizgisel)
– Veri matrisi
– Doküman verisi
– İşlem (Transaction) verisi
Grafik
– World Wide Web
– Moleküler yapılar
Sıralı
– Uzaysal veri
– Geçici veri
– Ardışık veri
– Genetik dizi verisi
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
6
Kayıt Verisi
Her biri özniteliklerin bir kümesi olan kayıtların bir
koleksiyonu kayıt verisi olarak tutulur.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
7
Veri Matrisi
Eğer veri nesneleri sayısal özniteliklerin sabit bir
kümesine sahipse o zaman veri nesneleri her bir
boyutun ayrık bir özniteliği sunduğu çok boyutlu
uzayda noktalar olarak düşünülebilir.
Böylesi veri setleri m adet satır ve n adet sütunun
bulunduğu (m x n) boyutlu matris ile sunulabilir.
Her bir nesne için n sütun ve bir satır bulunur.
Projection
of x Load
Projection
of y load
Distance
Load
Thickness
10.23
5.27
15.22
2.7
1.2
12.65
6.25
16.22
2.2
1.1
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
8
Doküman Verisi
Her bir doküman bir terim vektörü haline gelir,
– Her bir terim, vektörün bir bileşenidir (öznitelik),
– Her bir bileşenin değeri doküman içerisinde ilgili
terimin kaç kez tekrarlandığı ile ilgilidir.
season
10/05/2008
timeout
lost
wi
n
game
score
ball
pla
y
coach
team
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
9
İşlem Verisi
Kayıt verisinin özel bir tipidir,
– Her bir işlem (transaction) elemanların bir kümesini içermektedir.
– Örneğin, bir dükkan düşünün. Burada, ödemesi yapılan ürünlerin
bir kümesi bir işlem kaydını verir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
10
Grafik Verisi
Örnek: jenerik grafikler ve HTML linkleri.
2
1
5
2
5
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
<a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
<a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
<a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
10/05/2008
11
Kimyasal Veri
Benzen Molekülü: C6H6
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
12
Sıralı Veri
İşlemlerin sırasının önemli olduğu veri setleridir.
Elemanlar/Olaylar
Sıradaki bir eleman
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
13
Sıralı Veri
Uzaysal-geçici veri
Karaların ve
okyanusların
ortalama aylık
sıcaklıkları
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
14
Sıralı Veri
Gen dizisi verisi
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
15
Veri Kalitesi
Bazı faktörler öne çıkmaktadır:
– Veri kalitesi problemleri hangi çeşitlerdedir?
– Veri ile ilgili problemleri nasıl tespit edebiliriz?
– Bu problemlerle ilgili olarak ne yapabiliriz?
Veri kalitesi ile ilgili problemler:
– Gürültü ve taşmalar
– Kayıp değerler
– Veri tekrarı
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
16
Gürültü
Gürültü orijinal değerlerin bozulması anlamına
gelir.
– Örnekler: düşük kaliteli bir telefonda konuşurken kişinin sesinin biçimin
bozulması ve televizyon ekranındaki karlanma gürültü örnekleridir.
İki Sinüs Dalgası
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
İki Sinüs Dalgası + Gürültü
10/05/2008
17
Taşmalar
Taşma
(outlier),
veri
kümesinde,
diğer
nesnelerden ciddi şekilde farklı olan veri
nesnelerinin gösterdiği karakteristiktir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
18
Kayıp Değerler
Kayıp değerler için çeşitli sebepler vardır:
– Bilgi toplanamaması
(örn., insanlar yaşları ve kiloları ile ilgili bilgi vermeyi
istemezler)
– Öznitelikler bütün durumlar için uygun olmayabilir
(örn., yıllık gelir çocuklar için uygun değildir)
Kayıp değerlerle mücadele
–
–
–
–
Veri nesnelerinin elenmesi
Kayıp değerlerin tahmin edilmesi
Analizler sırasında kayıp değerlerin es geçilmesi
Bütün olası değerlerle yer değiştirilmesi (onların
olasılıkları ile ağırlık verilmesi)
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
19
Tekrar Eden Veri
Veri seti tekrar eden kayıtlar içerebilir, veya bazı
kayıtlar hemen hemen tamamen diğerine eşittir
– Bu durum genellikle heterojen kaynaklardan gelen
veriler birleştirildiğinde meydana gelir.
Örnekler:
– Aynı kişiye ait birden fazla mail adresinin bulunması
Veri temizleme
– Tekrar eden verilerin işlenmesi ile ilgili bir prosestir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
20
Veri Ön İşleme
Bir araya getirmek (Aggregation)
Örnekleme (Sampling)
Boyut Düşürme (Dimensionality Reduction)
Altküme özellikleri seçimi (Feature subset
selection)
Özellik oluşturma (Feature creation)
Ayrıklaştırma ve ikili hale getirme (Discretization
and Binarization)
Öznitelik dönüşümü (Attribute Transformation)
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
21
Bir Araya Getirme
İki veya daha fazla öznitelik veya nesnenin tek bir
öznitelik veya nesne halinde birleştirilmesidir.
Amaç
– Veri azaltma
öznitelikler veya nesnelerin sayısının azaltılması
– Ölçeğin değiştirilmesi
şehirler; bölgeler, eyaletler, ülkeler v.b. halinde bir araya
getirilir.
– Daha dayanıklı veri
bir araya toplanan veri daha az değişkenliğe sahip olacaktır.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
22
Bir Araya Getirme
Avustralya’da meydana gelen yağışların aylık ve yıllık değişimi:
görüldüğü gibi bir araya getirilen verinin standart sapması düşmüştür.
Yağışların aylık ortalama
standart sapması
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
Yağışların yılık ortalama
standart sapması
10/05/2008
23
Örnekleme
Örnekleme veri seçimi için üzerinde çalışılan en
temel tekniktir.
– Örnekleme, sıklıkla hem başlangıç araştırmaları için ve
hem de final veri analizleri için kullanılır.
Verinin tamamı ile ilgilenmek oldukça masraflı bir
iş olduğu için istatistikçiler ve veri madencileri
verinin bir kısmını elde etmeye çalışırlar.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
24
Örnekleme …
Etkili örnekleme için anahtar prensip şöyledir:
– Eğer örnek temsil edici nitelikte ise örnek ile çalışmak
bütün veri seti ile çalışmak kadar iyi sonuç verecektir.
– Eğer örnek verisi orijinal veri kadar yaklaşık olarak
aynı özelliğe sahip ise o veri temsil edici veridir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
25
Örnekleme Tipleri
Basit rasgele örnekleme
– Herhangi bir kısmi elemanın seçilme olasılığı diğer parçaların
seçilme olasılığına eşittir.
Yer değiştirmeden örnekleme
– Herhangi bir eleman seçildiğinde o popülasyondan silinir
Yer değiştirme ile örnekleme
– Nesneler örnekleme için seçildiklerinde popülasyondan
silinmezler.
örneklemede aynı eleman birden fazla sefer çekilebilir
Katmanlaşmış örnekleme
– D veri kümesi tüm kayıtları kapsayacak şekilde katman olarak
adlandırılan parçalara bölünmüştür, her katmanda basit rasgele
örnekleme yapılarak katmanlaşmış örnekleme yapılabilir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
26
Boyutların Fazlalığı
Boyutlar artarken, veri
uzayda daha seyrek
şekilde gözükmeye başlar.
Boyutlar fazla olduğu
zaman; kümeleme ve
taşma bulmada kritik
öneme sahip olan iki
nokta arasındaki uzaklık
ve yoğunluğun tanımları
daha az anlamlı hale
gelmektedir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
• Rasgele 500 nokta üretin
• Nokta çiftleri arasındaki max ve min
uzaklıkları bulunuz
10/05/2008
27
Boyut Düşürme
Amaç:
– Boyut fazlalığın problemlerini çözmek,
– Veri madenciliği algoritmaları tarafından ihtiyaç duyulan bellek ve
zaman miktarını azaltmak,
– Daha kolaylıkla görselleştirmeye müsaade etmek (Örn. çok
boyutlu uzay üç boyuta düşürülerek görselleştirme araçları ile
veriler görselleştirilebilir)
– İlişkisiz özellikleri elemeye veya gürültüyü azaltmaya yardımcı
olmak (belli bir eşiğin altında kalan olasılığa sahip veriler dikkate
alınmaz)
Teknikler
– Temel bileşen analizi (Principle Component Analysis)
– Tekil değer ayrışması (Singular Value Decomposition)
– Diğerleri: denetimli veya doğrusal olmayan teknikler
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
28
Boyut Azaltma: PCA
Amaç verideki değişimin en büyük miktarını yakalayacak
bir projeksiyonu bulmaktır.
Orijinal veriden n tane kayıt alınarak bundan k tanesi
seçilir.
x2
e
x1
Şekilde iki boyutun (x1 ve x2) tek boyuta (e) düşürülmesi görülmektedir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
29
Özellik Alt Kümesi Seçimi
Veri boyutu azaltma için bir diğer yol özellik alt kümesi
seçimidir.
Gereksiz özellikler
– Çok fazla ikileme veya bilginin tamamının bir veya daha çok
öznitelikte tekrar etmesi.
Örnek
: bir ürünün ödeme fiyatı ve ödeme taksitleri bilgisinin yer
alması gibi.
İlişkisiz özellikler
– Veri madenciliği görevi için faydalı hiçbir bilgi içermeyen
özelliklerdir.
Örnek
: öğrencilerin notunu hesaplamada öğrenci numarasının hiçbir
katkısı yoktur.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
30
Özellik Oluşturma
Orijinal öz niteliklerden daha etkin olarak bir veri
kümesindeki önemli bilgiyi yakalayabilmek için
yeni öz nitelikler oluşturulur.
Üç genel metodoloji vardır:
– Özellik çıkarma
etki alanı özel
– Verinin yeni uzaya eşleştirilmesi
– Özellik inşa edilmesi
özelliklerin birleştirilmesi
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
31
Öznitelik Dönüşümü
Bir fonksiyon bütün veri setindeki değerleri yeni
değerlere dönüştürürken ilgili öz niteliklerin yer
değiştirmesini, eşleşmesini yapar.
– Basit fonksiyonlar: xk, log(x), ex, |x|
– Standardizasyon ve Normalizasyon
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
32
Benzerlik ve Benzemezlik
Benzerlik
– İki veri nesnesinin birbirine ne kadar benzer olduğunun sayısal
ölçümüdür.
– Nesneler daha benzer olduğunda benzerlik bilgisi büyür mü?
– Sıklıkla benzerlik bilgisi [0,1] aralığında yer alır.
Benzemezlik
– İki veri nesnesinin birbirinden ne kadar farklı olduğunun sayısal
ölçümüdür.
– Nesneler daha benzer olduğunda değeri düşüktür
– Minimum benzemezlik sıklıkla 0 dır.
– Üst limit değişkendir
Yakınlık benzerlik veya benzemezlik manasına gelir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
33
Basit Öznitelikler için Benzerlik/Benzemezlik
p ve q iki veri nesnesi için öznitelik değerleridir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
34
Öklidyen Uzaklık
Öklidyen uzaklık
dist =
n
∑ ( pk
k =1
− qk )
2
burada, n boyutların sayısıdır ve pk ile qk ise p ve q veri
nesnelerinin kth özniteliklerinin değerini verir.
Eğer ölçek farklı ise standardizasyon gereklidir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
35
Öklidyen Uzaklık
3
point
p1
p2
p3
p4
p1
2
p3
p4
1
p2
0
0
1
2
3
4
5
y
2
0
1
1
6
p1
p1
p2
p3
p4
x
0
2
3
5
0
2.828
3.162
5.099
p2
2.828
0
1.414
3.162
p3
3.162
1.414
0
2
p4
5.099
3.162
2
0
Uzaklık matrisi
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
36
Minkowski Uzaklığı
Minkowski uzaklığı öklidyen uzaklığının
genelleştirilmesi ile elde edilir.
n
dist = ( ∑ | pk − qk
1
r r
| )
k =1
burada r bir parametredir, n boyutların sayısıdır ve pk ile qk ise
p ve q nesnelerinin kth öznitelik değerleridir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
37
Minkowski Uzaklığı: Örnekler
r = 1. City block (Manhattan, L1 norm) uzaklık.
– Bunun genel bir örneği Hamming uzaklığıdır, hamming uzaklığı iki ikili
vektör arasındaki birbirinden farklı bitlerin sayısıdır.
r = 2. öklidyen uzaklık
r → ∞. “supremum” (Lmax norm, L∞ norm) uzaklığı.
– Bu vektörlerin herhangi bir bileşeni arasındaki maksimum farktır.
n ile r yi karıştırmamak lazım, bütün bu uzaklıklar
boyutların bütün sayıları için tanımlanırlar.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
38
Minkowski Uzaklığı
point
p1
p2
p3
p4
x
0
2
3
5
y
2
0
1
1
L1
p1
p2
p3
p4
p1
0
4
4
6
p2
4
0
2
4
p3
4
2
0
2
p4
6
4
2
0
L2
p1
p2
p3
p4
p1
p2
2.828
0
1.414
3.162
p3
3.162
1.414
0
2
p4
5.099
3.162
2
0
L∞
p1
p2
p3
p4
p1
p2
p3
p4
0
2.828
3.162
5.099
0
2
3
5
2
0
1
3
3
1
0
2
Distance Matrix
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
39
5
3
2
0
Bir Uzaklığın Genel Özellikleri
Öklidyen gibi uzaklıkların bazı iyi bilinen
özellikleri vardır.
1.
bütün p ve q nesneleri için d(p, q) ≥ 0 dir, sadece p değeri q
değerine eşit olduğunda d(p, q) = 0
2.
bütün p ve q değerleri için d(p, q) = d(q, p), simetri özelliği
3.
d(p, r) ≤ d(p, q) + d(q, r) bütün p, q ve r nesneleri için
(üçgen eşitsizliği) kuralı geçerlidir.
burada d(p, q), p ve q noktaları arasındaki uzaklık
veya benzemezliği vermektedir.
Bir uzaklık bu özellikleri taşıyorsa bir metriktir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
40
Bir Benzerliğin Genel Özellikleri
Benzerliklerin de bazı bilinen özellikleri vardır.
1.
Sadece p = q olduğunda s(p, q) = 1 (maximum similarity).
2.
Bütün p ve q değerleri için s(p, q) = s(q, p). (Symmetry)
burada s(p, q) p ve q noktaları arasındaki benzerliği
vermektedir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
41
İkili Vektörler Arasındaki Benzerlik
p ve q ikili vektörler olduğunda aşağıdaki kurallar
geçerlidir.
Takip eden miktarlar kullanılarak benzerlikler hesap
edilir.
M01 = p değeri 0 ve q değeri 1 olan öz niteliklerin sayısı
M10 = p değeri 1 ve q değeri 0 olan öz niteliklerin sayısı
M00 = p değeri 0 ve q değeri 0 olan öz niteliklerin sayısı
M11 = p değeri 1 ve q değeri 1 olan öz niteliklerin sayısı
Basit eşleştirme ve Jaccard katsayıları
SMC = eşlemlerin sayısı / öz niteliklerin sayısı
= (M11 + M00) / (M01 + M10 + M11 + M00)
J = 11 eşleşmelerinin sayısı / ikisi birlikte 0 olmayan özniteliklerin sayısı
= (M11) / (M01 + M10 + M11)
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
42
SMC Jaccard’a karşı: Örnek
p= 1000000000
q= 0000001001
M01 = 2 (p=0, q=1)
M10 = 1 (p=1, q=0)
M00 = 7 (p=0, q=0)
M11 = 0 (p=1, q=1)
SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7
J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
43
Kosinüs Benzerliği
eğer d1 ve d2 iki doküman vektörü ise, o zaman
cos( d1, d2 ) = (d1 • d2) / ||d1|| ||d2|| ,
burada • sembolü nokta çarpım manasına gelir, || d || ise d vektörünün boyudur.
örnek:
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2
d1 • d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245
cos( d1, d2 ) = .3150
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
44
Korelasyon
Korelasyon, nesneler arasındaki doğrusal ilişkileri
ölçer.
Korelasyonu karşılaştırmak için , veri nesnelerini
standardize ederiz, p ve q, ve daha sonra onların
nokta çarpımlarını alırız.
pk′ = ( pk − mean( p)) / std ( p)
qk′ = ( qk − mean( q)) / std (q)
correlation( p, q) = p′ • q′
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
45
Benzerlik Birleştirme için Genel Yaklaşım
Bazen birçok farklı tipteki öznitelik ile
benzerlik bulunması gerekebilir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
46
Benzerlik Birleştirme için Genel Yaklaşım
Bütün özniteliklerin aynı ağırlıkta olmasını
istemeyebiliriz.
– wk ağırlıklarını kullanabiliriz, ağırlıkların değeri 0 ile 1
arasındadır ve toplamları 1 değerine eşittir.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
47
Yoğunluk
Yoğunluk tabanlı kümeleme yoğunluk hakkında
bir görüşe ihtiyaç duyar
Örnekler:
– Euclidean yoğunluk
Euclidean yoğunluk = her bir birimdeki noktaların sayısı
– Olasılık yoğunluğu
– Grafik tabanlı yoğunluk
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
48
Euclidean Yoğunluk – Hücre Tabanlı
En basit yaklaşım bölgeyi dikdörtgenlere bölmek
ve her bir dikdörtgende kaç adet nokta
bulunduğunu sayılarla sunmaktır.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
49
Euclidean Yoğunluk – Merkez Tabanlı
Euclidean yoğunluk bir nokta merkez olmak
üzere ona yarıçap uzaklığındaki bütün noktaların
sayısı sunulur.
Veri Madenciliği Dersi – GYTE – Dr. Hidayet Takçı
10/05/2008
50
Download