Çizge Tabanlı Demetleme VERİ MADENCİLİĞİ Veri kümesi çizge şeklinde temsil edilebilir Farklı Demetleme Yöntemleri Yrd. Doç. Dr. Şule Gündüz Öğüdücü http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 1 Çizge Demetleme için Veri Kümesi Veri kümesi D={x1,x2,...,xK} Veri kümesi ağırlıklı, yönsüz, bağlı bir çizge ile temsil edilir: G(V,E) V={xi} veri kümesindeki nesnelerden oluşan düğümler kümesi E={wij} xi ve xj düğümleri arasındaki ağırlık 0.1 0.8 0.8 0.8 0.6 0.8 5 1 2 3 6 4 0.7 0.2 G yönsüz çizge => wij= wji xi düğümünün derecesi K Veri kümesi D={x1,x2,...,xK} => G(V,E) -komşu çizge: Veri kümesindeki nesneler arasında uzaklık hesaplanır. Aralarındaki uzaklık belirlenen değerinden küçük olanlar arasında ayrıt oluşturulur. k-en yakın komşu çizge: Veri kümesindeki nesnelerin k en yakın komşuları arasında ayrıtlar oluşturulur. Tam bağlı çizge: Bütün nesneler arasında benzerlik hesaplanır ve bu benzerlik ile ağırlıklandırılmış ayrıtlar oluşturulur. xi xj s ( xi, xj ) exp 2 2 d i wij j 1 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 3 S={V,N,W,P} V : veri kümesindeki nesnelerden oluşan düğümler kümesi N VV W: N kümesinin elemanları için simetrik benzerlik matrisi P: Demetleme kriteri Çizge Bölme: P demetleme kriterini enbüyütecek şekilde V kümesini k demete bölmek (C={C1,...,Ck}). Her demet bir altçizge Gi(Vi,Ei) k V i 4 Çizge Tabanlı Demetleme Problemi Demetlemenin sağlaması gereken koşullar: Aynı demetlerdeki nesnelerin birbirine daha çok benzemesi 2. Farklı demetlerdeki nesnelerin birbirine daha az benzemesi Aynı koşullar çizge tabanlı demetlemeye uygulanırsa 1. 2 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Çizge Tabanlı Demetleme 2 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Çizge Aile ilişkileri Sosyal ağlar (eğitim, suçlular arası ilişki...) Telefon çağrıları Bilgisayar ağları ... www 0.8 5 0.8 0.8 0.8 0.6 2 V i 1 0.1 1 3 6 4 0.7 0.2 Ei {w jk E x j , xk Vi } 1. Aynı grup içindeki ağırlıkları enbüyütme 2. Farklı gruplar arasındaki ağırlıkları enküçültme Problem: Çizge tabanlı demetleme yöntemleri için P demetleme kriteri nedir? http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 5 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 6 1 Çizge Kesmesi Çizge Tabanlı Demetleme için Tanımlar Tanımlar: uzaklık d, benzerlik s cut (G1 , G2 ) d=1-s Ci ve Cj demetleri arasındaki uzaklık: d(Ci,Cj) Ci demedinin çapı: diam(Ci) Çizge Kesmesi: Demetleri (altçizgeleri) birbirine bağlayan ayrıtların ağırlıklarının toplamı tek bağ, tam bağ ya da ortalama G1 Ci demedinde bulunan en uzak iki nesne arasındaki uzaklık Ci demedinden bulunan tüm nesneler arasındaki uzaklıkların ortalaması 7 5 3 0.7 0.2 k min cut (G1,G2) minimize Ratio-Cut: k minimize m 1 Problem: Sadece demetler arası ağırlıkları enküçültüyor Demet içi ağırlıkları göz önüne almıyor 9 sezgisel yöntemler http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Benzerlik Matrisi Yaklaşım: Çizge düğümlerin ikili benzerliklerinden oluşan W simetrik matrisi ile temsil edilir Lineer cebir yöntemleri kullanılır D3 Benzerlik Hesaplama Seyrekleştirme Demetleme D2 a11 a1n x1 x1 λ an1 ann xn xn İzgesel Çizge Kuramı (Spectral Graph Theory) 11 W matrisinin en büyük k özdeğeri bulunur Bir matrisin özdeğerleri ve özvektörleri, yapısı hakkında bilgi verir http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 10 İzgesel Demetleme Çizge Tabanlı Demetleme için Seyrekleştirme D1 cut (Gm , G \ Gm ) | Gm | Demetler daha dengeli Problemin optimal çözümü NP karmaşık http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Veri cut (Gm , G \ Gm ) wij vi ,v j Gm Enküçük kesme 8 Min-Max cut: Demet içindeki ağırlıkların enbüyük, demetler arasındaki ağırlıkların enküçük olması m 1 cut(G1,G2) = 0.3 6 4 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Demetler arasındaki ağırlıkları en küçültüyor Optimal kesme 0.8 0.8 Çizge Tabanlı Demetleme Kriteri Kriter: En küçük kesme (Minimum-cut) G2 0.6 0.8 Çizge Kesmesi Kriteri 1 2 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 0.1 0.8 w ij xi G1 , x j G2 Bir matrisin izgesi incelenir. İzge (Spectrum ): Çizgenin öz değerlerinin büyüklüklerine göre sıralanmış özvektörü {1 , 2 ,..., n } http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 12 2 Matris Yapısı Matris Yapısı Benzerlik matrisi (W) nn matris (n: düğüm sayısı) W=[wij]: xi ve xj düğümleri arasındaki ayrıtın ağırlığı 0.1 5 1 0.8 0.8 0.6 2 0.8 6 4 0.7 0.8 0.2 3 Özellikleri: Derece matrisi (D) nn diagonal matris D (i , i ) wij xi düğümünden diğer düğümlere olan j ayrıtların ağırlıklarının toplamı x1 x2 x3 x4 x5 x6 x1 0 0.8 0.6 0 0.1 0 x2 0.8 0 0.8 0 0 0 x3 0.6 0.8 0 0.2 0 0 0.1 1 0.8 0.8 0.6 2 x4 0 0 0.2 0 0.8 0.7 x5 0.1 0 0 0.8 0 0.8 x6 0 0 0 0.7 0.8 0 13 L=D-W 0.1 5 1 0.8 0.6 2 0.8 6 4 0.7 0.2 3 Özellikleri: x2 x3 x4 x5 x6 x1 1.5 -0.8 -0.6 0 -0.1 0 x2 -0.8 1.6 -0.8 0 0 0 x3 -0.6 -0.8 1.6 -0.2 0 0 x4 0 0 -0.2 1.7 -0.8 -0.7 x5 -0.1 0 0 -0.8 1.7 -0.8 x6 0 0 0 -0.7 -0.8 1.5 0 x2 0 1.6 0 0 0 0 x3 0 0 1.6 0 0 0 x4 0 0 0 1.7 0 0 x5 0 0 0 0 1.7 0 x6 0 0 0 0 0 1.5 15 w (p ij i pj) Rayleigh Kuramına göre: vektörü için: İspat: n n i 1 i , j 1 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 16 A. Pothen, H.D. Simon and K. Paul Liou. Partitioning Sparse Matrices with Eigenvectors of Graphs, SIAM J. Mat. Theory and Appl., Vol. 11, No. 3, pp. 430 - 452, 1990. Bölmenin kesmesini enküçültmek için f(p) fonksiyonunu enküçültecek p vektörü bulunur: i , jV p Rn İzgesel Çizge Demetleme İki altçizgeye (G1,G2) bölünen çizge bir vektörle temsil edilir. 1 if xi G1 2 Her n n 1 n 1 n d i pi2 2 pi p j wij d j p 2j wij ( pi p j ) 2 2 i 1 i , j 1 j 1 2 i , j 1 Özvektörler gerçel ve dikey Özdeğerler ve özvektörler çizge yapısı hakkında bilgi veriyor. f ( p) 14 p T Lp p T Dp p T Wp d i pi2 pi p j wij 0 1 2 ... n Önişleme p Lp T Laplacian matrisi f(p)’nin enküçük değeri L matrisinin ikinci enküçük Matrisin özvektörlerinin ve özdeğerlerinin bulunması Veri kümesindeki her nesnenin bir veya daha çok özvektörü kullanılarak daha küçük bir boyuta taşınması Gruplama p için optimal çözüm Fiedler vektörü olarak bilinen λ2 veri kümesinin matris olarak temsil edilmesi Laplacian matrisinin bulunması Ayrıştırma özdeğeri ile elde edilir. x6 0 1 n p L p wij ( pi p j ) 2 2 i , j 1 Özdeğerler pozitif gerçel sayılar, en küçük özdeğer 0 x5 0 T pi 1 if xi G2 x4 0 L matrisinin özellikleri: Optimal Enküçük Kesme Bulma (Hall’70, Fiedler’73) x3 0 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ x1 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ x2 1.5 Matris Yapısı (Devam) Laplacian matrisi (L) nn simetrik matris 0.2 3 Matris Yapısı 0.8 6 4 0.7 0.8 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 0.8 0.8 x1 x1 Simetrik matris 5 Yeni boyutlardan yararlanarak nesnelerin iki veya daha fazla demede ayrılması vektörüdür. http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 17 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 18 3 Spectral Bi-partitioning Algoritması Önişleme 1. Çizgenin L Laplacian matrisini oluşturma Spectral Bi-partitioning Algoritması x1 1.5 -0.8 -0.6 0 -0.1 0 x2 -0.8 1.6 -0.8 0 0 0 x3 -0.6 -0.8 1.6 -0.2 0 0 x4 0 0 -0.2 1.7 -0.8 -0.7 x5 -0.1 0 0 -0.8 1.7 -0.8 x6 0 0 0.0 0.4 0 -0.4 -0.6 -0.3 -0.7 -0.3 -0.8 -0.9 0.2 0.4 -0.4 0.0 0.3 0.3 0.3 0.4 -0.4 -0.6 0.1 0.1 0.6 0.4 0.4 0.4 -0.5 -0.5 -0.6 1.5 2. Ayrıştırma L matrisinin özvektörlerinin X ve özdeğerlerinin Λ bulunması Düğümlerin λ2 özvektörü ile temsil edilmesi 2.1 Λ= 2.3 X= 2.5 0.4 0.4 -0.2 -0.3 -0.3 -0.2 2.6 0.4 0.4 -0.2 0.7 0.7 0.9 x1 -0.4 x2 -0.4 x3 -0.4 x4 0.4 x5 0.4 x6 0.4 Gruplama Bölme noktası nasıl belirlenir? 19 Yinelemeli ikiye demetleme (L. Hagen, A.B. Kahng, New spectral methods for ratio cut partitioning and clustering, IEEE Trans. Comput. Aided Des. 11,1992) Yinelemeli olarak ikiye demetleme algoritmasını hiyerarşıik olarak uygulanması Daha fazla sayıda özvektörü kullanarak demetleme (J. Shi and J. Malik. Normalized cuts and image segmentation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 22(8):888-905, 2000. Orta noktadan -0.4 x3 -0.4 Demet G1: Eksi noktalar Demet G2: Artı noktalar x4 0.4 x5 0.4 x1 -0.4 x4 0.4 x6 0.4 x2 -0.4 x5 0.4 x3 -0.4 x6 0.4 G2 G1 20 Çizgeler arasındaki optimal kesmeyi yaklaşık olarak bulabilir (Shi & Malik, 2002). Veri içindeki grupları belirgin hale getirir (M. Brand and K. Huang. A unifying theorem for spectral embedding and clustering, Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics, January 2003.) Özvektörleri kullanarak veriyi daha az boyutlu bir uzaya taşır http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ -0.4 x2 K-Yönlü İzgesel Demetleme Biz çizge k adet altçizgeye bölünmek isteniyor. İki yaklaşım x1 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ K-Yönlü İzgesel Demetleme Ortalamadan ya da orta noktadan bölünür Demetler nasıl belirlenir? http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Tek boyutlu vektörde bulunan elemanlar sıralanır Vektör ikiye bölünür Benzer nesneler arasındaki ilişki kuvvetleniyor, daha az benzer nesneler arasındaki ilişki zayıflıyor. Uzayı daha iyi ayırıyor Veriyi k adet vektör kullanarak daha az boyutlu uzaya taşır. 21 22 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ K-Özvektör Demetleme Örnek 2 k özvektör kullanarak demetleme yapılıyor (A. Ng, M. Jordan, and Y. Weiss. On spectral clustering: Analysis and an algorithm, In Advances in Neural 1 0.5 Information Processing Systems 14: Proceedings of the 2001.) 1. 0 -2 3. -1 -0.5 0 0.5 1 1.5 2 k-means algoritmasının performansı bu durumda çok düşük -1 Önişleme: ölçeklendirilmiş ağırlık matrisi oluşturulur -1.5 -2 0.8 0.6 Ayrıştırma: W' matrisinin özvektörleri bulunur. Veri kümesi en büyük k özdeğer ile temsil edilir Demetleme: k-means algoritması kullanılarak nk boyutundaki veri k demede ayrılır. http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ -1.5 -0.5 W ' D 1/ 2WD 1/ 2 2. Veri kümesi iki spiral şeklinde gruptan oluşuyor 1.5 0.4 0.2 En büyük iki özdeğer kullanılarak veri k-means algoritması kullanılarak demetlenebiliyor 23 -0.709 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ -0.7085 -0.708 -0.7075 -0.707 -0.7065 0 -0.706 -0.2 -0.4 -0.6 -0.8 24 4 Çizge Tabanlı Demetleme Yöntemi (Kannan’00) Çizge Tabanlı Demetleme Yöntemi (Kannan’00) En küçük kesme bulunarak demetlenirse altçizgeler arasındaki nesneler dengeli dağılmayabilir. Demetlerin kalitesi önemli (Ravi Kannan and Santosh Vempala and Adrian Vetta, Bir kesme Bir kesme 25 wij j Bir demetin genişliği (iletkenliği) demet içindeki kesmelerin genişliklerinin (iletkenliklerinin) en küçüğü Demetlemenin genişliği (iletkenliği) demetlerin genişliklerinin (iletkenliklerinin) en küçüğü Genişliğin (iletkenliğin) büyük olması iyi bir demetleme olduğunu gösteriyor http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 26 Her demedin iletkenliği (genişliği) en az değerinde olmalı Demetler arası ayrıtların ağırlıklarının toplamının bütün ayrıtların ağırlıklarının toplamına oranı değerinden büyük olmamalı Çizge demetleme problemi NP-karmaşık bir problem olduğundan doğa esinli algoritmalar kullanılarak problem çözülebilir (Ş.Uyar and Ş.Oguducu, A New Graph-Based Evolutionary Approach to Sequence Clustering, The Fourth International Conference on Machine Learning and Applications, 2005) Amaç: Problemin çözümü NP-karmaşık olduğu için yaklaşık bir çözüm öneriliyor. 27 Aynı demetteki nesneler arasındaki ayrıtların ağırlıklarının toplamının, demetler arasındaki ayrıtların ağırlıklarının toplamına oranını enbüyütmek Demet sayısını adaptif olarak belirlemek. http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Evrimsel Algoritma Tabanlı Çizge Demetleme 28 Demetleme Değerlendirme xi S , x j S Evrimsel Algoritma Tabanlı Çizge Demetleme Çizgeyi demetlemek için iki kriter beraber kullanılıyor: http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ min{c( S ), c( S )} i Çizge Tabanlı Demetleme Yöntemi (Kannan’00) wij c( S ) c( S ,V ) x S x V wij xi S , x j S c(S) şu şekilde tanımlanmıştır the 41st Annual Symposium on the Foundation of Computer Science, 2000.) min{| S |, | S |} için iletkenlik (S ) On Clusterings: Good, Bad, and Spectral, Proceedings of http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ için genişlik (S ) Hangi demetleme algoritması kullanılmalı? Farklı bir demetleme uygulanmalı mı? Farklı demetleme yöntemleri kullanılarak sonuç nasıl iyileştirilir? İki objektif fonksiyonu: Min-max cut Silhoutte index http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 29 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 30 5 Demetleme Değerlendirme 1 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 y Veri Kümesi 1 0.9 0.4 0.4 0.3 0.3 0.2 0 DBSCAN 0.2 0.1 0.1 0 0.2 0.4 0.6 0.8 0 1 0 0.2 K-means uygulama alanını iyi incelemek gerekiyor demetleme sonucunu iyi anlamak gerekiyor 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0 0.1 0 0.2 0.4 0.6 0.8 0 1 0 0.2 Doğruluk, kesinlik, anma Veri içinde gerçekte demetler var mı? Doğru demet sayısı bulunabiliyor mu? Hatalı veriler için örüntü bulunmaması Farklı demetleme algoritmalarını karşılaştırma Farklı demetlemeleri karşılaştırma ui yapay olarak üretilmiş noktalara olan uzaklık, wi veri kümesinden seçilmiş olan noktalara olan uzaklık Hopkins istatistiği p Oluşturulan demetler gerçeğe ne kadar yakın? H 33 w i 1 p p u w i i 1 i Rastgele üretilmiş noktalar ve veri kümesi içindeki noktalar aynı en yakın komşu uzaklığına sahipse H değeri yaklaşık 0.5 olur Veri demetlemeye uygun değil. http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 34 Demetleme algoritması kullanılarak elde edilen demetleme C={C1,...,Ck} Veri içinden bulunan gruplar P={P1,...,Pm} Demetleme sonucundan elde edilen dağılım SS: Eğer iki nesne C için aynı demette ve P için aynı Tek bağ Tam bağ Demet merkezleri arasındaki uzaklık http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ i Harici Değerlendirme Üç yaklaşım: Harici Gösterge: Veri kümesi için öngörülen bir yapıya dayanarak değerlendirme Dahili Gösterge: Ek bir bilgi kullanmadan veri kümesinden elde edilen bilgiye dayanarak değerlendirme Göreceli Değerlendirme: Aynı algoritmanın farklı parametrelerini kullanarak elde edilen demetleme sonuçlarını değerlendirme İki kriter: Sıkılık: Her demette bulunan nesneler birbirine mümkün olduğunca yakın olmalı Uzaklık: Demetler birbirinden mümkün olduğunca uzak olmalı 32 Veri uzayında rasgele dağılmış p nokta üretilir {R} Veri kümesinden örnekleme ile p nokta seçilir {S} Her iki küme içindeki noktalar için veri kümesinden en yakın nesneler seçilir. Demetleme Değerlendirme Ölçütleri 1 Nesneler rastgele dağılmış i 1 0.8 Her demetleme algoritması veri kümesi üzerinde demetleme yapar Hopkins istatistiği: Veri kümesi içinde demetler bulunup bulunmadığını test etmek için kullanılır Ek bir bilgi olmadan Sınıf etiketleri bilindiği durumda http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 0.6 x Veri kümesi içinde gruplar olmayabilir. Demetleme yöntemlerinde değerlendirilmesi gerekenler: 0.4 Veri Kümesi Demetlemeye Uygun mu? Gözetimli öğrenme için kullanılan yöntemler: 1 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Demetleme Değerlendirme 0.8 Max x 31 0.6 x 1 0.1 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 0.4 x y Farklı demetleme teknikleri En iyi demetleme algoritmasını seçmek zor Verinin istatistiksel özelliğine, önişleme tekniklerine, nitelik sayısına bağlı olarak algoritmaların avantajları ve dezavantajları var Aynı veri kümesi üzerinde farklı algoritmalar farklı demetleme sonuçları üretebilir. Hangi demetlemenin daha iyi olduğuna karar vermek gerekiyor y y Bir Veri Kümesi için Farklı Demetlemeler 35 grupta ise (a) SD: Eğer iki nesne C için aynı demette ancak P için farklı gruplarda ise (b) DS: Eğer iki nesne C için farklı demette ancak P için aynı grupta ise (c) DS: Eğer iki nesne C için farklı demette ancak P için aynı grupta ise (d) http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 36 6 Harici Değerlendirme Ölçütleri Rand Statistics: Jaccard katsayısı: R Harici Değerlendirme Ölçütleri ad abcd Entropi: Her demette sınıfların nasıl dağıldığı ei a J abc e k i1 Folkes ve Mallows göstergesi: FM a a ab ac m p j1 ij log 2 p m: sınıf sayısı k: demet sayısı pij= nij/ni ni: i demedindeki nesne sayısı nij: i demedinde j sınıfından nesne sayısı n: toplam nesne sayısı ij ni ei n Saflık: Bir demette ne kadar tek sınıftan örnek bulunduğu pi max pij j k purity i 1 37 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Dahili Değerlendirme Ölçütleri Sadece veri kümesi özellikleri kullanılarak yapılan değerlendirme Hataların karelerinin toplamı (SSE) İki farklı demetlemeyi ya da iki demeti karşılaştırmak için iyi bir yöntem Demet sayısını tahmin etmek için de kullanılabilir. Silhouette Göstergesi: xi nesnesi Cj demedinde Ortalama uzaklığa göre xi nesnesine en yakın demet Ch xi nesnesi için silhouette göstergesi s ( xi ) 10 9 6 8 4 7 6 SSE 2 0 5 4 -2 d ( xi , Ch ) d ( xi , C j ) max(d ( xi , Ch ), d ( xi , C j )) -1 s(xi) 1 1’e yakın olursa xi doğru demette Demetleme için silhouette göstergesi: -6 0 5 10 15 2 5 10 15 20 25 39 demetlemeler Amaç: Farklı parametrelerle elde edilen demetlemeler arasında veriye en çok uyanı seçme İki durum: Demet sayısı nc Palg’deki parametereler arasında değil: N 1 P(i, j ) Q(i, j ) j 1 j k 40 N= veri kümesindeki nesne sayısı M=N(N-1)/2 P: benzerlik matrisi Q: (i,j) elemanı, xi ve xj nesnelerinin bulundukları demetler arasındaki uzaklık değeri olan matris Dunn göstergesi: d (ci , c j ) Dnc min min i 1,..., nc j i 1,...,nc max k 1,..., nc diam(ck ) ncmin ve ncmax arasında değişen farklı demet sayıları için algoritma çalıştırılır. nc’nin her farklı değeri için algoritma diğer parametreleri değiştirerek r defa çalıştırılır. Her nc için q’nun en büyük değeri seçilir ve nc’nin fonksiyonu olarak çizilir. Bu çizim kullanılarak nc değeri belirlenir. http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ N i 1 j i 1 En iyi demetleme, demetleme göstergesi q kullanarak seçilir. Hubert istatistiği: (1 / M ) Palg’deki parametrelerin değerleri geniş bir aralıkta değiştirilerek demetleme algoritması çalıştırılır. nc << N (nesne sayısı) sabit kaldığı en geniş aralık seçilir. Parametre değerleri olarak bu aralığın orta noktası seçilir. Bu yöntemle demet sayısı da belirlenmiş olur. S Birbiri ile örtüşmeyen demetler için tanımlanmış göstergeler: Demet sayısı nc Palg’deki parametereler arasında: | Cj | Göreceli Değerlendirme Ölçütleri Palg seçilen demetleme algoritmasının parametreleri Ci (i=1,...,nc):Palg’deki parametrelerin farklı değerleri ile elde edilen i i 1 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Göreceli Değerlendirme s( x ) k GS 30 K http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Sj 2 1 |Cj | 3 -4 38 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Dahili Değerlendirme Ölçütleri ni pi n d(ci,cj)=min d(x,y) xci,ycj diam(C)=max d(x,y) x,yC 41 http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 42 7 Örtüşen Demetleri Değerlendirme Hiyerarşik Demetleme için Gösterge Hiyerarşik demetleme için 4 gösterge Demetlerin standard sapmalarının karakökü (RMSSTD) Semi-partial R-squared (SPR) R-Squared (RS) İki demet arası uzaklık (CD) PC http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ Örtüşen demetleme için U=[uij] matrisi: xi nesnesinin cj demedine dahil olma olasılığı Bölme katsayısı: 43 1 N N nc u i 1 j 1 2 ij [1/nc,1] arasında değişir. http://www3.itu.edu.tr/~sgunduz/courses/verimaden/ 44 8