T.C SELÇUK ÜNİ VERSİ TESİ FEN Bİ Lİ MLERİENSTİ TÜSÜ EDEBİ YAT ESERLERİ Nİ N WEB VERİ LERİ NE DAYANARAK SINIFLANDIRILMASI Ercan CANHASI YÜKSEK Lİ SANS TEZİ Bİ LGİ SAYAR MÜHENDİ SLİ ĞİANABİ Lİ M DALI Konya, 2007 T.C SELÇUK ÜNİ VERSİ TESİ FEN Bİ Lİ MLERİENSTİ TÜSÜ EDEBİ YAT ESERLERİ Nİ N WEB VERİ LERİ NE DAYANARAK SINIFLANDIRILMASI Ercan CANHASI YÜKSEK Lİ SANS TEZİ Bİ LGİ SAYAR MÜHENDİ SLİ ĞİANABİ Lİ M DALI Konya, 2007 Bu tez 12/07/2007 tarihinde aş ağı daki jüri tarafı ndan oybirliğ i ile kabul edilmiş tir. Prof.Dr.Ahmet ARSLAN (A.B.D Bş k.- Danı ş man) Prof.Dr. Şirzat KAHRAMANLI (Üye) Yrd.Doç.Dr. Nihat YILMAZ (Üye) ÖZET Yüksek Lisans Tezi EDEBİ YAT ESERLERİ Nİ N WEB VERİ LERİ NE DAYANARAK SINIFLANDIRILMASI Ercan CANHASI Selçuk Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı Danı ş man: Prof. Dr. Ahmet ARSLAN 2007, 95 Sayfa Bu tezde bir metin madenciliği uygulamasıyapı lı ş tı r. Sunulan çalı ş mada metin sı nı flama ve kategorileş tirme yöntemleri kullanı larak Internet’te bulunan edebiyat eserlerin sı nı flanmasıgerçekleş tirilmiş tir. Yapı lan iş lem aslı nda edebiyat eserleri hakkı nda , Internet arama motorlarısayesinde web siteler tespit etmek ve birbirleriyle ilgili web sitelerde tekrarlanan kelimeler ile edebiyat eserleri tanı mlamak ve sı nı flanmaktı r. Edebiyat eserlerinin sı nı flanmasıiçin vektör destek makineleri kullanı lmı ş tı r. Deneysel çalı ş ma kapsamı nda 2 farklı deney sunulmuş tur. Madencilik açı sı ndan metnin uygun hale getirilmesi için yapı lması gereken en önemli öniş lemlerden biri terim seçme ve ağı rlı klandı rma iş lemidir. Bu çalı ş mada bulanı k mantı k sistemine dayanan yeni bir terim seçme ş emasıda sunulmuş tur. Anahtar Kelimeler: Veri madenciliğ i, Metin madenciliği, Sı nı flama, Terim seçme ve ağ ı rlı klandı rma, Bulanı k mantı k. ABSTRACT Master Thesis LITERATURE WORK CLASSIFICATION ON WEB BASED DATA Selçuk University Graduate School of Natural and Applied Sciences Department of Computer Engineering Supervisor: Prof. Dr. Ahmet ARSLAN 2007, 95 Page In this thesis one kind of text mining task is solved. In this work, text classification and categorization techniques are used for classification of literature works presented on the Internet. In particular, webpage’s ranked by search engines are retrieved and analyzed to classify the literature works in term of word occurrenc frequencies on related pages. In order to classify the literature works the support vector machines are used. As a part of experimental work of this thesis 2 experiments are performed. From the many available methods for making a text suitable to text mining tasks, the term selecting and weighting schemas are found as most importants. Additionally a new fuzzy logic system based, term selecting scheme is proposed. Key Words: Data mining, Text mining, Term selecting and weighting, Classifying, Fuzzy Logic. TEŞEKKÜR Çalı ş maları m boyunca değerli yardı m ve katkı ları yla beni yönlendiren tez danı ş manı m değerli Hocam Prof. Dr Ahmet ARSLAN’a teş ekkürü bir borç bilirim. İ Çİ NDEKİ LER ÖZET ABSTRACT TEŞEKKÜR İ Çİ NDEKİ LER ŞEKİ LLER, RESİ MLER VE TABLOLAR 1. Gİ Rİ Ş 2. KONU İ LE İ LGİ LİBİ LGİ LER 3. MATERYAL VE METOT 3.1 – Materyal 3.1.1 – Veri Madenciliği 3.1.1.1 Veri Madenciliğine Genel Bakı ş(Tarihçe) 3.1.1.2 VM Çekirdek Sistemi (MÇS) 3.1.1.3 VTBK İ le Diğer Disiplinler Arası ndaki İ liş ki 3.1.1.3.1 VTBK ile makine öğrenimi arası ndaki iliş ki 3.1.1.3.2 VTBK ile istatistik arası ndaki iliş ki 3.1.1.3.3 VM ile veri tabanıarası ndaki iliş ki 3.1.1.4 Veri Madenciliğinde Karş ı laş ı lan Problemler 3.1.1.4.1 Veri tabanıboyutu 3.1.1.4.2 Veri madenciliğ indeki gürültüler 3.1.1.4.3 Null değerler 3.1.1.4.4 Eksik veri 3.1.1.4.5 Artı k veri 3.1.1.4.6 Dinamik veri 3.1.1.5 Veri Madenciliği Algoritmaları 3.1.1.5.1 Hipotez testi 3.1.1.5.2 Sı nı flama algoritması 3.1.1.5.3 Kümeleme algoritması 3.1.1.5.4 Eş leş tirme algoritması 3.1.1.5.5 Zaman serileri arası ndaki bağı mlı lı klar 3.1.1.5.6 Sı ra örüntüler 3.1.1.6 Veri Madenciliğini Etkileyen Eğilimler 3.1.2 – Metin Madenciliği 3.1.2.1 Giriş 3.1.2.2 Metin Madenciliği Tanı mı 3.1.2.3 İ lgili Araş tı rma alanları 3.1.2.4 Metin Kodlama 3.1.2.4.1 Metin öniş leme 3.1.2.4.2 Filtreleme, Lemmatization ve Stemming iş lemleri 3.1.2.4.3 Endeks Terim Seçimi 3.1.2.4.4 Vektör Uzay Modeli 3.1.2.4.5 Dilbilimi ile öniş leme 3.1.2.5 Metin için Veri Madenciliğ i Metotları 3.1.2.5.1 Metin Sı nı flama 3.1.2.5.2 Endeks Terim Seçimi I II III IV V 1 3 4 4 4 7 8 8 8 9 9 10 10 11 11 12 13 13 14 15 15 16 16 16 17 18 19 19 19 21 21 22 23 23 24 25 25 26 26 3.1.2.5.3 Naive Bayes Sı nı flayı cı 3.1.2.5.4 En yakı n komş uluk Sı nı flayı cı 3.1.2.5.5 Karar Ağaçları 3.1.2.5.6 Destek vektör makineleri ve çekirdek metotları 3.1.2.5.7 Kümeleme 3.1.3 – Web Madenciliği 3.1.4 – Bulanı k Mantı k 3.1.4.1 Giriş 3.1.4.2 Bulanı k Sistemler 3.1.4.3 Bulanı k Kümeler ve Üyelik Fonksiyonları 3.1.4.4 Bulanı klaş tı rma İ ş lemi 3.1.4.5 Durulaş tı rma İ ş lemi 3.1.4.6 Temel İ ş lemler 3.1.5 – Terim Seçme ve Ağı rlı klandı rma Şemaları 3.1.5.1 Terim Seçme 3.1.5.1.1 Terim Seçme Metotları 3.1.5.1.2 Doküman frekansı(DF) 3.1.5.1.3 Enformasyon Kazancı 3.1.5.1.4 Müş terek enformasyon (Mutual information) 2 3.1.5.1.5 istatistiğ i (CHI) 3.1.5.1.6 Terim güçü 3.1.5.2 Terim Ağı rlı klandı rma 3.1.5.2.1 İ lgili Araş tı rmalar 3.1.5.2.2 İ kili ağı rlı k metodu 3.1.5.2.3 Terim frekans (TF) metodu 3.1.5.2.4 Klasik TFIDF metodu 3.1.5.2.5 CDT metodu 3.1.5.2.6 TFRF metodu 3.1.5.3 Var Olan Metotlar Üstüne Bir Eleş tiri 3.2 – Metot 3.2.1 Edebiyat Eserlerini Web Verilerine Dayanarak Sı nı flandı rma 3.2.1.1 Sı nı flama modeli ve algoritma 3.2.1.2 Modelin Genel görünümü ve Akı şş emaları 3.2.1.3 Sı nı flanacak Verilerin Elde Edilmesi 3.2.1.4 Sı nı flama için edebiyat eserlerin ve sı nı fları n seçilmesi 3.2.1.5 Edebiyat eserleri hakkı nda bilgi içeren web sitelerin elde edilmesi 3.2.1.6 Yardı mcıveri tabanıtasarı mı 3.2.1.7 Gürültü Temizliğ i ve Öniş lemler 3.2.1.8 Kelime Vektörün Oluş turulması 3.2.1.9 Sı nı flama İ ş lemi 3.2.1.10 Deneyler için geliş tirilen ve kullanı lan yazı lı mlar ve araçlar 3.2.2 – Bulanı k Terim Seçme Şeması 3.2.2.1 Genel bilgi 27 27 28 28 30 33 37 37 41 44 45 46 47 49 49 49 50 50 50 51 51 52 53 53 54 54 54 55 55 56 56 59 59 60 61 62 64 65 68 71 71 73 73 3.2.2.2 Şemanı n yapı sı 3.2.2.3 Üyelik fonksiyonlar 3.2.2.4 Kural tablosu 3.2.2.5 Durulaş tı rma 3.2.2.6 Çözüm uzayı 3.2.2.7 Bulanı k sistem için bir örnek 3.2.2.8 Önerilen yeni ş emanı n avantajlarıve dezavantajları 4. SONUÇ KAYNAKLAR EK-1 76 77 79 80 81 81 82 84 86 93 ŞEKİ L VE Çİ ZELGELER Şekil 3.1 VTBK sürecinde yer alan basamaklar 6 Şekil 3.2 VM MÇS gösterimi 8 Şekil 3.4 Örnek bir doküman ve bu doküman kelime vektör temsili 22 Şekil 3.5 Destek vektör makineler sı nı flayı cı 29 Şekil 3.6 : Web Madenciliği Sı nı flandı rması 34 Sekil 3.7 : Web Madenciliği Sı nı flandı rması 35 Şekil 3.8 Klasik (Aristo) Mantı k Modeli 39 Şekil 3.9 Bulanı k Mantı k Modeli 39 Şekil 3.10 Genel Bulanı k Mantı k Sistemi 42 Şekil 3.11 T-S-K Bulanı k Mantı k Sistemi 42 Şekil 3.12 Genel Bulanı k Mantı k Sistemi 43 Şekil 3.13 Isıdeğerlerinin bulanı k ve normal kümelerle gösterimi, 44 üyelik fonksiyonları Şekil 3.15 Üçgen üyelik fonksiyonu 45 Şekil 3.16 Yamuk üyelik fonksiyonu 45 Şekil 3.17 Durulaş tı rma iş lemin genel temsili 46 Şekil 3.18 Kelime uzayı nda doküman vektörlerin gösterimi 53 Şekil 3.19 Çalı ş mayıtemsil eden Akı şdiyagramı 59 Şekil 3.19 Web site adreslerin elde edileme algoritması 62 Şekil 3.19 Web sitelerin elde edileme algoritması 63 Şekil 3.22 Web sitelerin madenciliğe uygun hale getirilmesi 67 algoritması Şekil 3.22 Terim seçme ve ağ ı rlı klandı rma ş emasıalgoritması 69 Şekil 3.23 Terim seçme ve ağ ı rlı klandı rma ş emasıalgoritması 70 Şekil 3.24 Doküman – terim uzayı nda İ deal terim dağı lı mı 74 Şekil 3.25 Doküman – terim uzayı nda Gerçek terim dağı lı mı 74 Şekil 3.26 Terim seçimi 75 Şekil 3.27 B-TSŞiçin Bulanı k Sistem 76 Şekil 3.28 B-TSŞiçin Bulanı k Sistem 77 Şekil 3.28 Kategori içi doküman frekansı 77 Şekil 3.29 Kategori dı ş ıtoplam doküman frekansı 78 Şekil 3.30 Terim seçme Ağ ı rlı k değeri için üyelik fonksiyonları 79 Şekil 3.31 Bulanı k sistemin çözüm uzayı 81 Şekil 3.32 Girişdeğerlerine göre elde edilecek çı kı şdeğer örneği 82 1 1. Gİ Rİ Ş İ nternetinin doğuş undan bu yana sadece 20 yı l geçmesine rağmen, sahip olduğu çevrim içi bilgi ile metinsel bir devrim gerçekleş tirildi. (Michael W. Berry 2003). Artı k akı llıarama motorlarısayesinde herhangi bir konuda bilgiye ulaş mak sadece bir sorgu yazı lmasıile mümkündür. Ancak internete yüklenen veri miktarı büyük hı zla büyümeye devam ettiği sürece bu verilere ulaş mak da zorlaş acaktı r. Geleneksel veri madenciliği yapı sal veri kaynakları (veri tabanları ) ile çalı ş maktadı r. Web siteleri ise, çoğu zaman kalı psı z yada yarı -kalı plıkaynaklar oldukları ndan, veri madenciliği onlara yeterli seviyede uygulanamamı ş tı r. Bu yüzden Internet kaynaklıHTML sayfaları ndan (içlerindeki düz metinden) bilgi keş fetmek için, veri madenciliği temeline dayanan web ve metin madenciliği kullanı lmaktadı r. Çalı ş manı n temelinde Internet’te mevcut olan fakat öniş lemler ve bilgi keş fi yapı larak ulaş ı labilecek bilgilerin belirli bir amaç doğrultusunda elde edilip kullanı lmasıana fikir olarak konulmuşve bu yol ile yaygı n kitapları n türlerine göre sı nı flandı rı lmasıhedeflenmiş tir. Burada kastedilen sı radan bir sı nı flama görevi yerine web den toplanacak veriler sayesinde bir sı nı flama gerçekleş tirmek. Çalı ş manı n önemi de ayni sebeptendir, sı nı flamanı n web verilerine dayanarak hangi derecede baş arı labileceğini test etmek. Bu denemenin gerçekleş ebilmesi için gereken yazı lı mlar ve araçları n geliş tirilmesi de deneysel çalı ş maları n bir parçası dı r. Metin madenciliğinde, metinin sayı sal gösterimini elde etmek için terim ağı rlı klandı rma ş emalarıkullanı lı r. Metin madencilik yöntemlerinden olan metin sı nı flama tekniği metnin çok boyutluluğuyla çalı ş amamaktadı r. Metnin çok boyutlu özelik uzayısı nı flamaya uygun hale getirilmesi için bu özelik sayı sı nı n düş ürülmesi gereklidir. Boyut indirgeme iş lemi aslı nda metni oluş turan terimlerin içinden bazı ları nı n seçilmesidir. Bu çalı ş mada yeni bir terim ağı rlı klandı rma ve seçme ş emasıönerilmekte. Tez kapsamı nda yapı lan sı nı flama görevinde önerilen bu yeni ş ema eski var olan ş emalarla da karş ı laş tı rı lmaktadı r. 2 Tezin amacınispeten detaylıolarak aş ağı daki ş ekilde açı klanmı ş tı r: Genel bir sı nı flandı rma yapmak o Web sitelerinde geçen kelimelere dayanan bir sı nı flama modeli geliş tirmek. o Aş ağı da listelenen iş lemleri otomatik gerçekleş tirecek bir algoritma ve yazı lı m geliş tirmek İ lgili web siteleri tespit etmek, yerel veri tabana eklemek Web sitelerini düz metne dönüş türmek Metnin madenciliğe uygun hale getirmek Sı nı flama yani öğrenme sürecini gerçekleş tirmek Sı nı flama modelini test etmek Yeni bir terim seçme ve ağ ı rlı klandı rma ş emasısunmak. o Önerilen yeniliğin var olan yöntemlerle karş ı laş tı rmak. Çalı ş manı n önemi: Bu çalı ş mada denenen sı nı flama modeli ve bunun uygulanması yla elde edilen sonuçlar çalı ş manı n önemini yansı tmakta. Çalı ş mada web sitelerde hali hazı rda bulunan veriler kullanı larak sı nı flama denemesi yapı lmı ş tı r ve sonuç olarak %75 e yakı n bir baş arı yla gerçekleş en sı nı flama, kı smen de olsa web sitelerde bulunan verilere güvenerek sı nı flama yapı labileceği gösterilmiş tir. Ayrı ca bu çalı ş mada, metin dokümanları nıoluş turan kelimeler ya da terimlerin filtrelenmesini sağ layacak yeni bir terim seçme metodu ve bu terimlerin ağı rlı k değerleri ile temsil edilebilmelerini sağlayan ağı rlı klandı rma ş emasıönerilmiş tir. Tez metnin ilk ana baş lı ğ ı nda teorik bilgiler verilmekte. Çalı ş manı n dolaylıveya dolaysı z ilgili olduğu konular sı rayla açı klanmaktalar. İ lk bölümde her ş eyin kaynağı nda bulunan veri madenciliği ele alı nmı ş tı r. İ kinci konuda bu çalı ş manı n temelinde bulunan fikri bize sunan metin madenciliğ i konusu anlatı lmakta. Devamı nda web madenciliğine değinilmektedir. Dördünce kı sı m metin madenciliğinde kullanı lan terim seçme ve ağı rlı klandı rma ş emaları anlatı lmaktadı r. Son bölümü ise bulanı k mantı ğa ayrı lmı ş tı r. 3 Tez metnin ikinci ana baş lı ğ ı pratik çalı ş malarıve uygulamaları anlatı lmaktadı r. Kitapları n sı nı flandı rı lmasıiçin hazı rlanan sı nı flama modeli altyapı sıve gerçek uygulamasıilk bölümde anlatı lmakta. İ kinci kı sı mda ise önerilen yeni terim seçme ve ağı rlı klandı rma ş emasıtanı tı lmaktadı r. 4 3. MATERYAL VE METOT 3.1 Materyal 3.1.1 Veri Madenciliği Bu bölümde veri madenciliğinden, veri tabanı nda bilgi keş finden, kı saca veri madenciliği algoritmaları ndan, veri madenciliği ön veri iş lemeden ve veri madenciliğinde karş ı laş ı lan sorunlardan bahsedilecektir. En son olarak veri madenciliğinde kullanı lan araçlara değinilecektir. Bilgisayar sistemleri her geçen gün hem daha ucuzluyor, hem de güçleri artı yor (Alpaydı n 1999). İ ş lemciler gittikçe hı zlanı yor, disklerin kapasiteleri artı yor. Artı k bilgisayarlar daha büyük miktardaki veriyi saklayabiliyor ve daha kı sa sürede iş leyebiliyor Bunun yanı nda bilgisayar ağ ları ndaki ilerleme ile bu veriye baş ka bilgisayarlardan da hı zla ulaş abilmek mümkün olabilmektedir. Bilgisayarları n ucuzlaması ile sayı sal teknoloji daha yaygı n olarak kullanı lı yor. Veri doğ rudan sayı sal olarak toplanı yor ve saklanı yor. Bunun sonucu olarak da ayrı ntı lıve doğru bilgiye ulaş abiliyoruz. Örneğin eskiden süper marketteki kasa basit bir toplama makinesinden ibaretti. Müş terinin o anda satı n almı şolduğu malları n toplamı nıhesaplamak için kullanı lı rdı . Günümüzde ise kasa yerine kullanı lan satı ş noktası terminalleri sayesinde bu hareketin bütün detaylarısaklanabiliyor. Saklanan bu binlerce malı n ve binlerce müş terinin hareket bilgileri sayesinde her malı n zaman içindeki hareketlerine ve eğer müş teriler bir müş teri numarasıile kodlanmı ş sa bir müş terinin zaman içindeki verilerine ulaş mak ve analiz etmek mümkün olabilmektedir. Bütün bunlar marketlerde kullanı lan barkot, bilgisayar destekli veri toplama ve iş leme cihazlarısayesinde mümkün olmaktadı r. Verilen market örneğ inde olduğ u gibi ticari, tı p, askeri, iletiş im, vb. birçok alanda benzer teknolojilerin kullanı lmasıile veri hacminin yaklaş ı k olarak her yirmi ayda iki katı na çı ktı ğ ıtahmin edilmektedir (Frawley 1991). 5 Verilerin ne kadar hı zlıtoplandı ğı nıve iş lemesinin imkânsı z bir noktaya geldiğini en belirgin bir ş ekilde NASA kurumunda görmekteyiz (Fayyad 2000). NASA’nı n kullandı ğıuyduları n sadece birinden, bir günde terabayt’larca veri gelir. Veri kendi baş ı na değersizdir. İ stediğimiz, amacı mı z doğrultusunda bilgidir. Bilgi bir amaca yönelik iş lenmişveridir. Veriyi bilgiye çevirmeye veri analizi veya bilgi keş fi (BK) denir. Bu tanı mda keş if sözcüğünün kullanı lması nı n amacı , gizli olan ve daha önceden bilinmeyen örüntülerin bulunması ndan kaynaklanmaktadı r. Bilgi, bir soruya yanı t vermek için veriden çı kardı ğ ı mı z anlam olarak da tanı mlanabilir. Veri sadece sayı lar veya harfler değildir; veri, sayıve harfler ve onları n anlamı dı r. Veri hakkı ndaki bu veriye üstveri diyoruz. Veri hacminin hangi boyutlara ulaş abileceğ i ve bunları n iş lenmesinin ne kadar güç olduğu kolayca anlaş ı labilmektedir. Süper market örneğ i incelendiğinde, veri analizi yaparak her mal için bir sonraki ayı n satı ştahminleri çı karı labilir; müş teriler satı n aldı klarımallara bağlıolarak gruplanabilir; yeni bir ürün için potansiyel müş teriler belirlenebilir; müş terilerin zaman içindeki hareketleri incelenerek onları n davranı ş larıile ilgili tahminler yapı labilir. Binlerce malı n ve müş terinin olabileceği düş ünülürse bu analizin gözle ve elle yapı lamayacağı , otomatik olarak yapı lması nı n gerektiğ i ortaya çı kar. Veri madenciliği burada devreye girer: Veri madenciliği büyük miktarda veri içinden gelecekle ilgili tahmin yapmamı zısağ layacak bağı ntıve kuralları n bilgisayar programlarıkullanarak aranması dı r. Geleceğin, en azı ndan yakı n geleceğin, geçmiş ten çok fazla farklı olmayacağı nıvarsayarsak geçmişveriden çı karı lmı şolan kurallar gelecekte de geçerli olacak ve ilerisi için doğ ru tahmin yapmamı zısağ layacaktı r. Büyük miktarlarda verinin VT’lerde tutulduğu bilindiğine göre bu verilerin VM teknikleriyle iş lenmesine de veri tabanı nda bilgi keş fi denir (VTBK). Büyük hacimli olan ve genelde veri ambarları nda tutulan verilerin iş lenmesi yeni kuş ak araç ve tekniklerle mümkün olabilmektedir. Bundan dolayıbu konularda yapı lan çalı ş malar güncelliğini korumaktadı r. Bazıkaynaklara göre; VTBK daha genişbir disiplin olarak görülmektedir ve VM terimi sadece bilgi keş fi (BK) metotları yla uğraş an VTBK sürecinde yer alan bir adı mdı r (Fayyad et al., 6 1996a). Prof. Dr. Usama Fayyad’a göre VTBK sürecinde yer alan adı mlar ş u ş ekilde sı ralanmaktadı r (Fayyad et al., 1996b): 1. Veri Seçimi: Bu adı m veri kümelerinden sorguya uygun verilerin seçilmesidir. Elde edilen verilere örneklem kümesi denmektedir. 2. Veri Temizleme ve Ön iş leme: Örneklem kümesi elde edildikten sonra, örneklem kümesinde yer alan hatalıtutanakları n çı karı ldı ğıve eksik nitelik değerlerinin değ iş tirildiği aş amadı r. Bu aş ama seçilen veri madenciliği sorgusunun çalı ş ma zamanı nıiyileş tirir. 3. Veri Madenciliğ i: veri temizleme ve ön iş lemden geçen örneklem kümesine VM sorgusunun uygulanması dı r. Örnek VM sorguları : kümeleme, sı nı flandı rma, iliş kilendirme, vb. sorgulardı r. 4. Yorumlama: VM sorguları ndan ortaya çı kan sonuçları n yorumlanma kesimidir. Burada geçerlilik, yenilik, yararlı lı k ve basitlik açı ları ndan üretilen sonuçlar yorumlanı r.Bu basamaklar Şekil 3.1’de ifade edilmiş tir. Yorumlama ve Doğrulama Bilgi Veri Madenleme İ ndirgeme Örünüler Öniş leme Veri Seçimi İ ndirgenmi şveri Öniş lemlerden GeçmişVeri VERİ Örnekler Kümesi Şekil 3.1 VTBK sürecinde yer alan basamaklar 7 VM için yapı lan diğer tanı mlardan bazı larıda ş unlardı r: 1. Holsheimer tarafı ndan yapı lan bir tanı ma göre VM, büyük veri kümesi içinde saklıolan genel örüntülerin bulunmasıolarak açı klanmı ş tı r ( Holsheimer and Siebes, 1994). 2. VM, önceden bilinmeyen ve potansiyel olarak faydalıolabilecek, veri içindeki gizli bilgilerin çı karı lması dı r (Frawley et al., 1991). 3.1.1.1 Veri Madenciliğine Genel Bakı ş(Tarihçe) VM yaklaş ı mıortaya çı kmadan önce, büyük veri tabanları ndan faydalı örüntüler elde etmek için, çevrim-dı ş ıveri üzerinde çalı ş an istatistiksel paketler kullanı lı rdı .İ statistiksel yaklaş ı mları n kullanı mı nda bu paketlerin dezavantajları ortaya çı kmaktaydı . Bu dezavantajlardan en önemlisi; toplanması ndan ve amacı n belirlenerek istatistiksel istenen verilerin yaklaş ı mları n uygulanması ndan sonra bir uzman tarafı ndan değerlendirilmesi gerekliliğidir. Baş ka bir dezavantajıise her farklıihtiyaç için bu iş lemlerin tekrarlanması dı r. Bu sorun VTBK’de kı smen aş ı lmı ş tı r. VTBK (Matheus, 1993) çok büyük hacimli verilerden anlamlıiliş kileri otomatik keş feder. 8 3.1.1.2 VM Çekirdek Sistemi (MÇS) VTBK farklıdisiplinleri biraraya getiren bir sistemdir. VM Çekirdek Sistemi (MÇS) (The Mining Kernel System) Şekil 3.2’de gösterilmiş tir [http://www.pccc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_2.html, 2002]. Veri Tabanı Makine öğrenimi Kümeleme ya da Sı nı flama algoritması Veri Madenciliği MÇS İ statistik Görüntüleme Şekil 3.2 VM MÇS gösterimi VM MÇS’ni oluş turan diğer disiplinlerle VTBK arası ndaki iliş ki izleyen kesimde anlatı lacaktı r. 3.1.1.3 VTBK İ le Diğer Disiplinler Arası ndaki İ liş ki 3.1.1.3.1 VTBK ile makine öğrenimi arası ndaki iliş ki Makine öğrenimi gözlem ve deneye dayalıampirik kuralları n otomatik biçimde bulunmasıolan VTBK sistemleri ile yakı ndan ilgilidir. Genel olarak makine öğrenimi ve örüntü tanı ma alanları nda yapı lan çalı ş maları n sonuçları VTBK’de veri modelleme ve örüntü çı karmak için kullanı lmaktadı r. Bu çalı ş malardan bazı ları : 9 Örneklerden öğ renme, düzenli örüntülerin keş fi, gürültülü ve eksik veri ve eksik belirsizlik yönetimi olarak sayı labilir. VTBK’nı n makine öğreniminden en büyük farkıaş ağı da sı ralanmı ş tı r: VTBK büyük veri kümeleriyle çalı ş abilir, VTBK gerçek dünya verileriyle uğraş ı r. Veri görselleş tirmede kullanı lan yöntemler, VTBK sistemi ile elde edilen örüntülerin, kullanı cı ya grafikler aracı lı yla sunumunu sağlar. 3.1.1.3.2 VTBK ile istatistik arası ndaki iliş ki İ statistik ile VTBK arası ndaki iliş kinin ana sebebi veri modelleme ve verideki gürültüyü azaltmadan kaynaklanmaktadı r. İ statistiğin VTBK’de kullanı lan tekniklerinden bazı larıaş ağı da sı ralanmı ş tı r: Özellik seçimi (Corinna, 1995), Veri bağı mlı lı ğı(Zhong and Ohsuga, 1994; Shapiro and Matheus, 1992), Tanı ma dayalınesnelerin sı nı flandı rı lması(Chan and Wong, 1991), Veri özeti (Shapiro and Matheus, 1992), Eksik değerlerin tahmini (Elder-IV and D. Pregibon, 1995), Sürekli değerlerin ayrı mı(Zhong and Ohsuga, 1994; Fayyad and Iranı , 1993), vb. 3.1.1.3.3 VM ile veri tabanıarası ndaki iliş ki VM sorguları na girdi sağlamak amacı yla VT kullanı lmaktadı r. VT’deki sorgu cümlecikleri VM’nin istediği örneklem kümesini elde etmek amacı yla kullanı lmaktadı r. Özellikle iliş kilendirme sorgusunda fazla miktarda VT sorgusu yapmak gerekmektedir. VM, VT’den farklı dı r, çünkü VT’de var olan örüntüler için sorgular çalı ş tı rı lı rken, VM’deki sorgular genelde keş fe dayalıve ortada olmayan örüntüleri keş fetmeye dayalı dı r. 10 3.1.1.4 Veri Madenciliğinde Karş ı laş ı lan Problemler Makina öğrenimiyle VM arası ndaki farklar sı ralanı rken ş u önemli detay hemen söylenir: MÖ küçük deneysel verilerle uğ raş ı rken VM büyük hacimli gerçek dünya verileriyle uğraş ı r. Bu fark VM’de büyük sorunlar oluş turur. Bundan dolayımesela küçük veri setleriyle ve yapay hazı rlanmı şverilerle doğru çalı ş an sistemler büyük hacimli, eksik, gürültülü, NULL değ erli, artı k, dinamik verilerle yanlı şçalı ş abilir. Bundan dolayıbu sorunları n aş ı lmasıgerekmektedir. 3.1.1.4.1 Veri tabanıboyutu Veri tabanıboyutu 2. bölümün baş ı nda verilen NASA örneğinde olduğu gibi veri hacmi büyük boyutlara ulaş maktadı r (Fayyad et al., 2000). VT’de tutulan verilerin boyutu iki boyutlu olarak geniş lemektedir: Yatay Boyut: nesnelerin özellik sayı ları yla geniş lemektedir. Dikey Boyut: nesnelerdeki kayı t sayı sı yla geniş lemektedir. Geliş tirilen pek çok algoritma yüzler mertebesindeki verilerle uğ raş acak ş ekilde geliş tirildiğinden aynıalgoritmanı n yüz binlerce kat daha fazla kayı tlarla çalı ş abilmesi için azami dikkat gerekmektedir. Veri hacminin büyüklüğünden kaynaklanan sorunun çözümü için uygulanacak alternatif çözümlerden bazı ları : Örneklem kümesinin yatay ve dikey boyutta indirgenmesi, Yatay indirgeme: Nitelik değerlerinin önceden belirlenmişgenelleme sı radüzenine göre, bir üst nitelik değeri ile değiş tirilme iş lemi yapı ldı ktan sonra aynıolan çokluları n çı karı lma iş lemidir. Dikey indirgeme: Artı k niteliklerin indirgenmesi iş lemidir. VM yöntemleri sezgisel/buluş sal bir yaklaş ı mla arama uzayı nıtaramalı dı r, vb. 11 Örneklem kümesinin geniş olmasıbulunacak örüntüleri ne kadar iyi tanı mlı yorsa, bu büyük kümeyle uğ raş ma zorluğu da o kadar artmaktadı r. 3.1.1.4.2 Veri Madenciliğindeki gürültüler Veri giriş i veya veri toplanmasıesnası nda oluş an sistem dı ş ıhatalara gürültü denir. Veri toplanmasıesnası nda oluş an hatalara ölçümden kaynaklanan hatalar da dâhil olmaktadı r. Bu hataları n sonucu olarak VT’de birçok niteliğin değeri yanlı şolabilir. Günümüz ticari iliş kisel veri tabanlarıbu tür hataları n ele alı nması için az bir destek sunmaktadı r. VM’de kullanı lan gerçek dünya verileri için bu sorun ciddi bir problemdir. Bu sebepten dolayıVM tekniklerinin gürültülü verilere karş ıdaha az duyarlıolmasıgerekir. Sistemin gürültülü veriye daha az duyarlıolması ndan kası t, gürültülü verilerin sistem tarafı ndan tanı nmasıve ihmal edilmesidir. Chan ve Wong (1991), gürültünün etkisini azaltmak için istatistiksel yöntemler kullanmı ş tı r. Sı nı flama üzerine yaptı ğı çalı ş malardan tanı nan Quinlan’nı n gürültünün sı nı flama üzerine etkileri konusunda yaptı ğıçalı ş mada; etiketli öğ renmede etiket üzerindeki gürültünün öğrenme algoritması nı n performansı nıdoğrudan etkileyerek düş ürdüğünü tespit etmiş tir (Quinlan, 1986). Tümevarı msal karar ağaçları nda uygulanan metotlar bağlamı nda gürültülü verinin yol açtı ğıproblemler araş tı rı lmı ş tı r (Quinlan, 1986). 3.1.1.4.3 Null değerler Eğer VT’de bir nitelik değeri NULL ise o nitelik bilinmeyen ve uygulanamaz bir değere sahiptir. VT’de birincil anahtar haricindeki herhangi bir niteliğin özelliği NOT NULL (NULL olamaz) ş eklinde tanı mlanmadı ğ ısürece bu niteliğin değeri NULL olabilir. 12 Kurulacak bir iliş kide kullanı lacak verilerin aynısayı da niteliğe ve NULL olsa bile aynısayı da nitelik değ erine sahip olmasıgerekir. Lee NULL değ erini iliş kisel veri tabanları nıgeniş letmek için aş ağı daki üç gruba girecek ş ekilde ayı rmı ş tı r (Lee, 1992): Bilinmeyen, Uygulanamaz, Bilinmeyen veya uygulanamaz. Bu ayrı mda ş u ana kadar sadece bilinmeyen değer üzerinde çalı ş malar yapı lmı ş tı r (Luba and R. Lasocki, 1994; Grzymala-Busse, 1991; Thiesson,1995). Veri kümelerinde var olan NULL değerleri için çeş itli çözümler söz konusudur [Quinlan, 1986]: NULL değerli kayı tlar tamamı yla ihmal edilebilir, NULL değerli kayı tlardaki NULL değerleri olasıbir değerle günlenebilir. Bu günleme için çeş itli yöntemler söz konusudur: o NULL değeri yerine o nitelikteki en fazla frekansa sahip bir değer veya ortalama bir değer konulabilir, o NULL değeri yerine varsayı lan bir değer konulabilir, o NULL değerinin bulunduğ u kaydı n diğer özelliklerine göre, NULL değerinin kendine en yakı n değerle günlenmesi sağlanabilir, vb. 3.1.1.4.4 Eksik veri VM’de iliş kilerin kurulabilmesi ve istenen problemin çözümüne ulaş abilmek için gereken örneklem kümesindeki 2 boyutun (bölüm 2.4.1’de tanı mlanan yatay ve dikey boyutun) eksik olmamasıgerekir. Bu boyuttaki eksiklikler ş u ş ekilde olabilir: Yatay boyutta: Yatay boyuttaki eksiklik, örneklem kümesinde olmasıgereken nitelik veya niteliklerin olmaması dı r. Örneğin: eğer insanları n göz rengiyle 13 alakalıbir hastalı ğı n neye bağlıolduğu bulunmaya çalı ş ı lı yorsa, niteliklerden göz renginin örneklem kümesinde bulunmasıgerekir. Dikey boyutta: Dikey boyuttaki eksiklik örneklem kümesindeki kayı tları n eksik olması dı r. Örneğ in bir süper markette yaş ı10 ve 25 yaş ı ndaki kiş iler her yaptı kları alı ş veriş te bir ürünü sürekli alı yorlarsa, bu örüntünün keş fedilmesi için örneklem kümesinde yeterli sayı da 10-25 yaşaralı ğ ı na giren kayı tları n bulunmasıgerekir. Eğer örneklem kümesinde bu kayı tlar bulunmazsa gerçek hayatta var olan bir örüntü kaçı rı lmı şolur. 3.1.1.4.5 Artı k veri Artı k veri, problemde istenilen sonucu elde etmek için kullanı lan örneklem kümesindeki gereksiz niteliklerdir. Artı k nitelikleri elemek için geliş tirilmişalgoritmalar, özellik seçimi olarak adlandı rı lı r. Özellik seçimi arama uzayı nıküçültür ve sı nı flama iş leminin kalitesini de artı rı r (Deogun et al., 1995; Kira and Rendeli, 1992; Almuallim and Dietterich, 1991; Pawlak, 1986). 3.1.1.4.6 Dinamik veri İ çeriği sürekli değiş en veri tabanları dı r. Bunlara örnek kurumsal çevrim-içi veri tabanlarıgösterilebilir. Bir veri tabanı ndaki içeriğin sürekli değiş mesi VM uygulamaları nı n uygulanabilmesini önemli ölçüde zorlaş tı rı cı sorunlar doğurmaktadı r. Bu sorunlardan bazı larış unlardı r: Ortaya çı kan VM örüntülerinin sürekli değiş im halinde olan verilerden hangisini ifade ettiğinin tespitinin zorluğu ve bu üretilen sonuçları n zaman içinde eski üretilen sonuçlardan farkı nı n tespiti ve gereken yerlerin günlenme zorluğu, VM algoritmaları nı n çalı ş abilmesi için verilerin üzerine okuma kilidi konulmasıgerektiğinde, bu verilerin baş ka uygulamalar tarafı ndan değ iş ime 14 açı k olmaması , VM algoritmaları nı n ve çevrim-içi VT uygulamaları nı n aynı anda uygulanması ndan kaynaklanan ciddi performans düş üş lerinin olması , vb. 3.1.1.5 Veri Madenciliği Algoritmaları Veri madenciliği algoritmalarıverilerde var olan bilgiyi anlaş ı labilecek kurallar olarak çı kartmaya yarayan metotlardı r. Veri madenciliği algoritmalarıgenel olarak iki ana gruba ayrı lı r (Simoudis, 1996): Doğrulamaya dayalıalgoritmalar: Kullanı cıtarafı ndan ispatlanmak istenen bir hipotez ortaya sürülür ve VM algoritmaları yla bu hipotez ispatlanmaya çalı ş ı lı r. Çok boyutlu analizlerde ve istatistiksel analizlerde tercih edilen metottur. Hipotez testi buna örnektir. Keş fe dayalıalgoritmalar: Doğrulamaya dayalıalgoritmaları n tersine bu algoritmalarda ortada ispatlanmasıistenen hipotezler yoktur. Tam tersine bu algoritmalar otomatik keş fe dayanmaktadı r. Keş fe dayalıalgoritmaları n birçok kullanı m alanıvardı r: istisnai durumları n keş fi, karar ağacı , kümeleme gibi algoritmalar bu yaklaş ı ma göre kurulmuş tur. VM algoritmaları ndan önemli olanları na izleyen kesimlerde değinilecektir. 15 3.1.1.5.1 Hipotez testi Hipotez testi algoritmaları doğrulamaya dayalı algoritmalardı r. Doğ rulanacak hipotez VT üzerindeki verilerle belli doğruluk ve destek değerlerine göre sı nanı r. Sı nama iş lemi uzman tarafı ndan aş ağı daki ihtiyaçlardan dolayıyapı lı r: Bir kural ortaya çı karı lmak istendiğinde, Ortaya çı karı lmı şbir kuralı n budanmasıveya geniş letilmesinde. 3.1.1.5.2 Sı nı flama algoritması Sı nı f olmak için her kaydı n belli ortak özellikleri olmasıgerekir. Ortak özelliklere sahip olan kayı tları n hangi özellikleriyle bu sı nı fa girdiğ ini belirleyen algoritma, sı nı flama algoritması dı r. Sı nı flama algoritması , denetimli öğrenme kategorisine giren bir öğrenme biçimidir. Denetimli öğ renme, öğrenme ve test verilerinin hem girdi hem de çı ktı yıiçerecek ş ekilde olan verileri kullanması dı r. Sı nı flama sorgusuyla, bir kaydı n önceden belirlenmişbir sı nı fa girmesi amaçlanmaktadı r (Weiss and Kulikowski, 1991). Bir kaydı n önceden belirlenmişbir gruba girebilmesi için sı nı flama algoritması ile öğrenme verileri kullanı larak hangi sı nı fları n var olduğu ve bu sı nı flara girmek için bir kaydı n hangi özelliklere sahip olmasıgerektiği otomatik olarak keş fedilir. Test verileriyle de bu öğrenmenin testi yapı larak ortaya çı kan kurallar optimum sayı sı na getirilir. Sı nı flama algoritması nı n kullanı m alanlarısigorta risk analizi, banka kredi kartısı nı flaması , sahtecilik tespiti, vb. alanlardı r. 16 3.1.1.5.3 Kümeleme algoritması Kümeleme algoritması denetimsiz öğrenme kategorisine giren bir algoritmadı r. Kümeleme algoritması ndaki amaç verileri alt kümelere ayı rmaktı r (Michalski and Stepp, 1993). Sı nı flama algoritması nda olduğu gibi ortak özellikleri olan veriler bir kümeye girer. Alt kümelere ayrı lmak için keş fedilen kurallar yardı mı yla bir kaydı n hangi alt kümeye girdiği kümeleme algoritması sayesinde bulunur. Kümeleme algoritmasıgenelde astronomi, nüfus bilimi, bankacı lı k uygulamaları , vb. uygulamalarda kullanı lı r. 3.1.1.5.4 Eş leş tirme algoritması Eş leş tirme algoritması denetimsiz öğrenme kategorisine giren bir algoritmadı r. Eş leş tirme algoritmasısı nı flama algoritması nı n benzeridir (Seidman, 2000, syf:63). Sı nı flama algoritmalarıile eş leş tirme algoritmalarıarası ndaki fark, eş leş tirmede sı nı flandı rmada olduğ u gibi bir sı nı fa sokulmasıamaçlanmaz. Eş leş tirmedeki amaç örneklem kümesindeki nesnelerin nitelikleri arası ndaki iliş kilerin saptanması dı r. Nitelikler arası ndaki bütün kombinasyonlar çı karı larak bütün niteliklerin farklıkombinasyonları ndaki farklıdeğerleri denenerek örüntüler keş fedilmeye çalı ş ı lı r (Agrawal et al., 1993). Bu, iliş kilendirme algoritması nı n sı nı flandı rma algoritması ndan farkı dı r. Her bir iliş kilendirme kuralıfarklı ifadeleri verecek ş ekilde ortaya çı kar. 3.1.1.5.5 Zaman serileri arası ndaki bağı mlı lı klar Zaman serilerindeki örüntü belli bir periyotta, belli bir sı klı kta gerçekleş en olaylardı r. Belli frekansla tekrarlanan bu olaylar zaman serileriyle yapı lan VM algoritmalarısayesinde keş fedilir. Örneğ in, müş teriler e-ticarette yazı n yazlı k ürünlere, kı ş ı n da kı ş lı k ürünlere rağbet gösteriyorsa bu 6 ay periyotla tekrarlanan bir örüntüdür. 17 3.1.1.5.6 Sı ra örüntüler Belli bir olayı n bir baş kası nıizlemesi sı ra örüntülerini oluş turur (Agrawal and Srikant, 1995). Sı ra örüntülerine örnek ş uş ekilde olabilir: Tenis raketi alan birinin az bir süre sonra tenis topu, daha sonra tenis raketinin tellerini ayarlamak için aleti alması dı r. Sı ra örüntüleri perakende satı ş , telekomünikasyon ve tı p alanı nda kendine genişbir uygulama alanıbulmaktadı r. 3.1.1.6 Veri Madenciliğini Etkileyen Eğilimler Temel olarak veri madenciliğini 5 ana harici eğ ilim etkiler (Vahaplar ve İ nceoğ lu,2001): a) Veri: Veri madenciliğinin bu kadar geliş mesindeki en önemli etkendir. Son yirmi yı lda sayı sal verinin hı zla artması , veri madenciliğindeki geliş meleri hı zlandı rmı ş tı r. Bu kadar fazla veriye bilgisayar ağlarıüzerinden eriş ilmektedir. Diğer yanda bu verilerle uğrasan bilim adamları , mühendisler ve istatistikçilerin sayı sıhala aynı dı r. O yüzden, verileri analiz etme yöntemleri ve teknikleri geliş tirilmektedir. b) Donanı m: Veri madenciliği, sayı sal ve istatistiksel olarak büyük veri kümeleri üzerinde yoğun iş lemler yapmayıgerektirir. Geliş en bellek ve iş lem hı zıkapasitesi sayesinde, birkaç yı l önce madencilik yapı lamayan veriler üzerinde çalı ş mayımümkün hale getirmiş tir. c) Bilgisayar Ağları : Yeni nesil Internet, yaklaş ı k 155 Mbits/sn lik hatta belki de daha da üzerinde hı zlarıkullanmamı zısağlayacak. Bu da günümüzde kullanı lan bilgisayar ağları ndaki hı zı n 100 katı ndan daha fazla bir sürat ve tası ma kapasitesi demektir. Böyle bir bilgisayar ağıortamıoluş tuktan sonra, dagı tı k verileri analiz etmek ve farklıalgoritmalarıkullanmak mümkün olacaktı r. 18 Bundan 10 yı l önceki bilgisayar ağlarıteknolojisinde hayal edilemeyenler artı k kullanı labilmektedir. Buna bağlıolarak, veri madenciliğine uygun ağları n tasarı mıda yapı lmaktadı r. d) Bilimsel Hesaplamalar: Günümüz bilim adamlarıve mühendisleri, simülasyonu teori ve deneyden sonra bilimin üçüncü yolu olarak görmektedirler. Veri madenciliği ve bilgi keş fi, bu 3 metodu birbirine bağ lamada önemli rol almaktadı r. e) Ticari Eğilimler: Günümüzde ticaret ve isler çok karlıolmalı , daha hı zlı ilerlemeli ve daha yüksek kalitede servis ve hizmet verme yönünde olmalı , bütün bunlarıyaparken de minimum maliyeti ve en az insan gücünü göz önünde bulundurmalı dı r. Bu tip hedef ve kı sı tları n yer aldı ğıis dünyası nda veri madenciliğ i, temel teknolojilerden biri haline gelmiş tir. Çünkü veri madenciliği sayesinde müş terilerin ve müş teri faaliyetlerinin yarattı ğ ıfı rsatlar daha kolay tespit görülebilmektedir. edilebilmekte ve riskler daha açı k 19 3.1.2 METİ N MADENCİ Lİ Ğİ 3.1.2.1 Giriş Metin madenciliği, doğal dil metinleri içinden yararlıbilgi keş fetme amacı yla geliş tirilmişbir özel veri madenciliği kavramı dı r. Kı smen yeni bir araş tı rma alanıolsa da, uzun süredir araş tı rmalara tabi bir konudur. Belirli bir amaç için kullanı ş lıbilgi keş fetme için metnin analiz iş lemi olarak da tanı mlanabilir, metin madenciliği. Veri tabanları ndaki yapı sal verilerle kı yasla metin yapı sı z ve madencilik algoritmaları n uygulanabilirliği açı sı ndan kullanı ş sı zdı r. Yine de metin, modern yaş am ve kültürlerde, resmi bilgi alı ş veriş araçları ndan en önemlisi ve en çok kullanı lanı dı r. Bilgisayar ağları n bilim ve ekonominin omurgasıhaline gelmesiyle birlikte makineler tarafı ndan okunabilir dokuman sayı sı nda patlama oldu. Ticari bilgilerin %85 metin formatı nda olduğunu gösteren değerlendirmeler mevcuttur (Text mining summit conference brochure,2005) Ne yazı k ki, dokümanlarda bulunan genelde bulanı k ve birçok anlamıolan bağı ntı ları n, değerlendirilmesinde geleneksel mantı k-tabanlıprogramlama paradigmalarıyetersiz kalmaktadı rlar. Metin madenciliği bu bulanı klı k ve çok anlamlı lı kla bir taraftan, çok boyutlu veriler ve yapı sı z doğal dil metinleriyle diğer taraftan, idare edecek metotları n birleş imi olarak da görülebilir. Bu bölümde metin madeniliği kavramı n, bilgi keş fetme, bilgi yeniden getirme, makine öğrenmesi, istatistik ve özelikle veri madenciliği, disiplinleri ile iliş kisi acı sı ndan tanı mıyapı lacak. Devamı nda metin madenciliği metotlarıve bunalar hakkı nda bilimde son durum (state of the art) raporu verilecek. 3.1.2.2 Metin Madenciliği Tanı mı Metin madenciliğ i metinden bilgi keş fetme iş lemidir. Bu iş lem makine destekli bir analizdir. Bu tanı m ilk olarak Feldman tarafı ndan yapı lmı ş tı r (R. Feldman ve I. Dagan, 1995). Metin madeniliği, bilgi keş fetme ve yeniden bulma (information retrivial), bilgi çı karma ve doğal dil iş leme tekniklerini kullanı r ve 20 bunlarıistatistik, makine öğrenmesi, veri tabanı ndan bilgi keş fetme ve veri madenciliği metotlarıve algoritmalarıile birleş tirir. Bütün bu yukarı da sayı lan disiplinlerle bu kadar iç içe olmasıonlardan metotlar ve algoritmalar devralması , metin madenciliğinin anlamı nıve gerekliliğini sorgulamamı za sebep olabilir. Ancak, metin madenciliğinin sunduğ u yenilik de bu nokta da ortaya çı kmaktadı r. Metin madenciliği diğer disiplinlerin aksine metin yani yapı sal olmayan veriler ile çalı ş ı r. Metin madenciliğini tanı mlamayıdenesek en kolay yol yukarı da sözü geçen ve metin madenciliğ inin yakı n bağlantı sıolan araş tı rma konuları na atı fta bulunmak olurdu. Her bir saha için birer metin madenciliği tanı mıortaya çı kardı . Metin Madenciliği – Bilgi çı karma (Information Extraction). Gerçeklerin metinden elde edilmesi. Metin Madenciliği – Metin Veri Madenciliği. Veri madenciliğine benzer olarak- Kullanı ş lı , anlamlıörüntülerin bulunmasıamacı yla makine öğrenmesi ve metin istatistiği alanları ndan metotları n ve algoritmaları n bir uygulaması dı r. Bu amaçla metin ilk önce uygun ön iş lemlerden geçer. (U. Nahm ve R. Money, 2002) (R. Gaizauskas, 2003). Metin Madenciliği – Veri Tabanları ndan Bilgi Keş fetme Literatürde metin madenciliği, sadece veri madenciliği ve istatistik algoritmaları nıkullanan yeni bir alan olarak tanı mlanmaz. Bunun yanı nda metin madenciliği veri tabanı ndan bilgi keş fi prosesinin bir çok adı mı nıkendi iş lemlerinde kullanan bir proses olarak da tanı mlanmakta (cri 1999). Hearst ise (M. Hearst 1999) bu tanı mış öyle özetlemekte: genişmetin koleksiyonundan henüz keş fedilememişbilgilerin bulma iş lemi. Kadratoff (1999) ve Gomez (2002) de metin verilerine uygulanan proses yönelimli bir yaklaş ı m olarak tanı mlamakta metin madenciliğini. 21 3.1.2.3 İ lgili Araş tı rma alanları Metin betimleme, sı nı flama, kümeleme, bilgi keş fi, gizli paternlerin bulunmasıve modellenmesi konuları , metin madenciliğinde aktüel araş tı rmaları n yoğunlaş tı ğı konulardı r. Bununla birlikte veri madenciliğinde bilinen ve uygulanan metotları n ve algoritmaları n metin verilerine uygulanabilmesi için gerekli adaptasyonları nı n gereksimi de bir ek araş tı rma alanı dı r. (M. Hearst, 1999), (Sparck-Jones ve P. Willett, 1997), (G. Salton ve ark. 1975), (Y. Wilks 1997). İ lerleyen bölümlerde sözü geçen araş tı rma alanları na bir çok defa atı fta bulunarak daha açı klayı cıbilgiler verilecek. 3.1.2.4 Metin Kodlama Metin kodlama, genişmetin doküman koleksiyonları nı , yani düz metin verilerini belirli öniş lemler ile madencilik prosesine daha uygun hale getirme iş lemidir. Daha geleneksel bir yöntem olan kelime çuvalı(bag of words) yönteminde dokümanlar bir kelime kümesi ile temsil edilirler. Geliş tirilen yeni yöntemler ise dokümanlardaki sözdizimi, kelime ve cümle yapı larıve anlamları nı göz önünde bulunduran geleneksel yöntemlere kı yasla çok daha geliş mişve verimli sonuçlar vermektedirler. Kelime çuvalıyönteminde ise bir dokümanı n sadece alt kümesi olan bir küme ile temsil edilmesi yetmemektedir, bunun yanı nda alt kümenin elemanlarıolan kelimelerin dokümana göre önemini gösterecek bir sayı(ağı rlı k) içermeleri lazı m. Kelime kümesindeki elemanlar için bir vektör oluş turularak kelimelerin dokumandaki tekrarlanma sayı sıuygun kelime endeksine göre vektöre kaydedilmesiyle iş lem tamamlanı r. Bu mantı kla geliş tirilen metin betimleme ş emalarıvektör uzay modeli (G. Salton 1975), olası lı k modeli (S. E. Robertson 1977) ve mantı k modelidir (C. J. van Rijsbergen 1986). 22 Metin kodlama, genişmetin doküman koleksiyonları nı , yani düz metin verilerini belirli öniş lemler ile madencilik prosesine daha uygun hale getirme iş lemidir. Daha geleneksel bir yöntem olan kelime çuvalı(bag of words) yönteminde dokümanlar bir kelime kümesi ile temsil edilirler. KELİ MELER metin kodlama geniş doküman koleksiyonları n düz verilerini belirli öniş lemler madencilik prosesine uygun FREKANS 3 1 1 1 1 1 1 1 1 1 1 1 hale getirme iş lemidir geleneksel yöntem olan kelime çuvalı yönteminde dokümanlar kelime kümesi temsil edilirler 1 1 1 1 1 1 1 1 1 1 1 Şekil 3.4 Örnek bir doküman ve bu dokümanı n kelime vektör temisli 3.1.2.4.1 Metin öniş leme Bir dokümanda bulunan bütün kelimelerin elde edilmesi için iş aretleme (tokenization) iş lemi yapı lı r. Bu iş lem esası nda dokumanıoluş turan metinden noktalama iş aretleri, bir tek boş luk karakterinden daha fazla beyaz boş luklarıve diğer metin-olmayan karakterleri silme iş lemidir. İ ş lemin sonunda kelimeler ve araları nda birer boş luk karakteri kalı r. Dokuman koleksiyonunu oluş turan bütün dokümanları n bileş imi ile oluş an metin X olsun. X metnine uygulanan iş aretleme iş lemi sonrası nda ve kelimelerin bir defa tekrarlanma koş uluyla oluş an kelime kümesine “dokuman koleksiyonunun Sözlüğü” denir. Yukarda anlatı lan algoritmanı n daha resmi bir tanı mıiçin ilk önce bazı terimler ve değ iş kenler tanı mlayalı m: D dokuman kümesi olsun, ve T {t 1,..., t m } D küme sözlüğ ü olsun, o zaman D kümesinde bulunan d D dokümanı nda bulunan herhangi bir t T terimin (kelime) frekansı(tekrarlanma 23 sayı sı ) tf(d,t) ile gösterilir. t d (tf (d , t1 ),..., tf ( d , t m )) olur. O zaman terim vektör tanı mı da 3.1.2.4.2 Filtreleme, Lemmatization ve Stemming iş lemleri Sözlük büyüklüğ ünü yani dokümanıtarif eden çok boyutlu yapı nı n boyut indirgenmesi için, sözlüğü oluş turan kelimeler kümesi filtreleme, lemmatization ve stemming iş lemleri ile küçültülmeli. Filtreleme metotları sözlükte bulunan kelime sayı sı nı , terimlerden bazı ları nıkümeden tamamen çı kartarak, azaltmakta. Standart filtreleme stop terimlerin filtrelenmesidir. Stop kelime filtrelemesi fikri bazıkelimelerin cümleden çı kartı lmalarıile cümlede bir değiş ikliğe neden olunmayacağı dı r. Bu kelimeler genelde bağlaçlar (ve, veya, and, or …), İ ngilizcide prepositions, articals gibi kelimeler de bu guruba girmektedirler. Bu kelimelerin listeleri Internet ve değiş ik kaynaklarda mevcutlar. Ayrı ca dokümanlar içinde bir kelimenin diğ er kelimelere kı yasla çok veya az defa tekrarlanmasıbu kelimenin ayrı ş tı rı cıbir değeri olmadı ğı ndan stop kelimesi olarak görülebilir ve filtrelenerek sonuç sözlüğünden çı kartı labilir. Stemming metodu ise kelimelerin değiş ik ş eklerini tespit edip kökünü bulma iş lemi olarak tanı mlanı yor. Kelimenin ön ve son eklerinden arı narak sadece kök kelimeye indirgenip öyle sayı lması , aynıanlamıolan kelimelerin birkaç defa tekrarlanmasıönlenir. Sonuçta da amacı mı z olan sözlük büyüklüğü küçülür. Lemmatization metotlarıise kelimelerin zaman değiş iklikleri ve değiş ik gramer kuralarıile formunu değiş tirmesiyle ortaya çı kan farklıama ayni anlamı olan kelimelerin tespit ederler. 3.1.2.4.3 Endeks Terim Seçimi Terim sayı sı nıdaha da azaltmak için endeks yada kelime seçme algoritmalarıkullanı lmalı dı r. (S. Deerwester ve ark. 1990), (I. H. Witten ve ark. 1999). Bu algoritmaları n uygulanmasıile sadece seçilmişyada endekslenmiş terimler ile sözlük oluş maktadı r. En basit kelime seçim metotları ndan entropi 24 temeli kelime seçme algoritması dı r. Sözlükteki bütün t terimleri için entropi değeri bu formül ile hesaplanı r: 1 W (t ) 1 log 2 D burada P (d , t ) log dD 2 P( d , t ) tf (d , t ) dı r. nl1 tf (d l , t ) P (d , t ) Burada entropi bilindiği üzere bir terimin dokümanlarıayı rı ma baş arı nıtemsil eder. Yani bir terim eğer bir doküman kümesinde her dokumanda ayni sayı da tekrarlanı yorsa o terimin ayrı ş tı rma özelliği düş üktür ve dolayı sı yla entropi değeri de düş üktür. 3.1.2.4.4 Vektör Uzay Modeli Vektör uzay modeli çok büyük dokümanlarıanaliz etmenin zorluğu karş ı sı nda geliş tirilen bir metnin temsil modeldir. Ası l amacıendeksleme ve bilginin yeniden getirilme disiplinlerinde kullanı lmak olsa da (G. Salton 1975), bu model metim madenciliği sürecin en önemli adı mıoldu. Bu model bir doküman koleksiyonu m-boyutlu uzay vektörü ile temsil eder, yani her dokuman d bir özellik vektörü ile temsil edilir w(d ) ( x (d , t1 ),.., x (d , t m )) . Vektörün her elemanıbir kelimeyi temsil eder. Dokumanı n bu vektore gömülmesi için kullanı labilecek en basit yöntem ikili sistemdir. İ kili terim vektöründe her eleman terimi temsil eder ve alabileceği değer bir yada sı fı rdı r, bir terimin o dokümanda bulunması nıve terimin sı fı r değeri bulunmaması nıgösterir. Biraz daha geliş miş vektör oluş turma metodu ikili sistem yerine bir ağı rlı klandı rma fonksiyonu kullanmaktı r. Kelimenin denk geldiği dokümanda tekrarlanma sayı sı(frekansı ), yada o dokümana ve diğer dokümanlara göre önemini yansı tan bir fonksiyon (G. Salton ve C. Buckley 1988) vektör oluş turma için kullanı labilir. 25 3.1.2.4.5 Dilbilimi ile öniş leme Çoğu uygulamalarda bu tür öniş lemlere gerek duyulmaz. Ancak diğer yöntemlerin yetmemesi durumunda dilbilgisi kuralarıkullanı larak (C. D. Manning ve H. Schutze 2001) terimlerin secimi ve terim vektörü oluş turma iş lemleri yapı labilir. Bunun için alta sı ralanmı şyaklaş ı mlar kullanı lı r. Cümle öğe iş aretleme (POS Part-of-Speech tagging) yaklaş ı mıiş e cümle kurmakta kullanı lan öğeler (isim, fiil, zarf, bağlaç) tespit edilip öniş lemde kullanı lı rlar. Metin külçe (text chunking) yaklaş ı mıile dokümanda tekrarlanan kelime grubu kalı plarıtespit edilirler. Örneğin “cari açı k”, her iki kelime tek bası na bir anlam taş ı sa da ikisi bir arda daha çok kullanı lmakta. Parsing yaklaş ı mı nda cümle içindeki kelimelerden bir pars ağacı oluş turularak kelimelerin birbirleriyle olan iliş kisi ve kelimelerin cümleye göre önemi incelenir. Kelime çokanlamlı lı ğıtespiti yaklaş ı mıise kelimenin dokunmada farklı anlamlarla bulunması nıtespit etmeyi amaçlar. 3.1.2.5 Metin için Veri Madenciliği Metotları . Veri madenciliği metotları nı n metin dokümanları na uygulanması n temel nedeni metne bir yapıkazandı rmak. Dokümanları n yapı sal olmasıulaş ı m ve kullanı m acı sı ndan kullanı cı ya büyük derecede kolaylı k sağlar. Dokümanlara ulaş ı m örneği çok iyi bilinen ve kütüphanelerde kullanı lan endeksleme yöntemidir. Ancak ele yapı lmasıdurumunda endeksleme iş lemi özelikle de doküman sayı sıbüyük olan durumlarda zorlaş maktadı r. İ çeriği çok sı k değ iş en WWW ve Internet gibi doküman kaynakları ndan endeksi manule yenilenmiş yapı lar sunmak imkânsı zdı r. Var olan sistemler genellikle doküman kümelerine anahtar kelimeler atayarak (sı nı flama ve kategorileş tirme algoritmaları ) yada otomatik bir iş lem ile dokümanları gruplandı rarak endekslemeyi gerçekleş tirmektedirler. İ lerleyen baş lı klar iş te bu konular hakkı nda daha detaylı bilgiler vermektedirler. 26 3.1.2.5.1 Metin Sı nı flama Metin sı nı flama önceden belirlenmişsı nı flara doküman atamayıhedefler (T. Mitchell 1996) Örneğin bir merkeze ulaş ı lan her bir haberin otomatik bir ş ekilde “spor”, “sanat”, “siyaset” gibi etiketlerden birini atama iş lemidir. Uygulanacak sı nı flama metoduna bağlıkalmadan temelde yapı lan iş lemi açı klayalı m: sı nı flama önceden belirlenmişsı nı flara kümesi yani bir eğitim seti tespiti L L atanmı şdokumanlar D (d1 ,..., d n ) ile baş lar. Bir sonraki adı m yeni ve sı nı fıbeli olmayan dokümanları n sı nı flanmasıiçin kullanı lacak modelin temsilidir: f : D L f (d ) L Bir sı nı flama modelinin baş arıölçümü için sı nı fıbeli dokümanlardan rasgele ve sayı sıküçük olan bir gurup oluş turulur. Bu doküman grubuna test kümesi denir. Test kümesi elemanlarısı nı flama modeli ile sı nı flandı ktan sonra gerçek sı nı flara atanı p atanmadı klarısayı lı r ve elde edilen değer sı nı flama modelin doğruluk (accuracy) ölçüsüdür. 3.1.2.5.2 Endeks Terim Seçimi Sı nı flanacak dokümanlar genellikle yüz binlerce terim içerdiklerinden sı nı flama problemi karmaş ı klı ğıyüksek bir algoritma üstüne kurulmasılazı m. Sı nı flama problemi basitleş tirmenin yolu terim sayı sı nıazaltmaktı r. En çok kullanı lan terim eleme metodu enformasyon kazancıverisidir. Bir terimi için enformasyon kazancıbu formül ile hesaplanı r: 2 1 2 1 1 IG (t j ) p( Lc ) log 2 p(tj m)p( Lc | t j m) log2 p ( Lc ) m 0 p( Lc | t j m) c1 c1 27 3.1.2.5.3 Naive Bayes Sı nı flayı cı Olası lı k sı nı flama olarak adlandı rı lan bu sı nı flama modeli d i dokümanı oluş turan kelimelerin olası lı k mekanizmasıile üretildikleri kabulü ile baş lar. L(d i ) sı nı fı na ait d i dokümanı n içindeki kelimeler sözü geçen sı nı fla bir iliş kisi olduğunu farz edelim. Bu iliş ki de koş ulu dağı lı m formülü p (t1 ,.., tni | L (d i )) olsun. O zaman Bayesian fomülu ş uş ekilde tanı mlanı r (T. Mitchell. 1997 ): p(t1 ,..., t ni | Lc ) p (Lc ) p (Lc | t1 ,..., t ni ) LL p (t1 ,..., tni | L ) p (L ) Burada her bir dokümanı n sadece bir L sı nı fı na ait olmalıve t1 ,.., t n kelimelerden oluş malı . 3.1.2.5.4 En yakı n komş uluk Sı nı flayı cı Her bir sı nı fıtanı yacak acı k bir model geliş tirmek yerine hedef setindeki sı nı flanacak dokümanlara benzeyen ve eğitim setinde bulunan dokümanlarıtespit edebiliriz. Hedef setinde bulunan dokümanları n sı nı fı eğitim setindeki dokümanlara benzerliğinden adı m adı m çı kartı labilir. Eğer k tane benzer doküman tespit edilirse bu yaklaş ı m k-yakı nlı kta komş u sı nı flaması(k-nearest neighbor classı fı cation). Burada önemli bir nokta dokümanları n benzerliğini değerlendirecek bir ölçü bulmaktı r. En basitlerinden karsı laş tı rı lan dokümanları n kelime sayı larıkarş ı laş tı rı lması dı r. Daha geliş miş i kosinüs benzerliğidir. (R. Baeza-Yates ve B. Ribeiro-Neto, 1999) Bir di dokümanı n Lm sı nı fı na ait olup olmadı ğı nıbulmak için eğ itim S(di,dj) benzerlik testi ile dj eğ itim seti nde bulunan dokümanlar ve di dokumanı karş ı laş tı rı lı r. İ lk k tane en çok benzeyen doküman seçilir. 28 3.1.2.5.5 Karar Ağaçları Karar ağaçlarıbir kuralar kümesidir. Bu kurallar ağaç topolojisi ş eklindendirler. Kökten baş layarak belirli bir sı ra içinde uygulanan kulalar sayesinde bir karara verilir, burada amaç sı nı flama olduğuna göre bir dizi testten sonra sı nı flama gerçekleş ir. Burada önemli olan bu kural setinin nası l oluş tuğu ve ağacı n nası l kurlduluğudur. Bu iş lem aslı nda öğreneme iş lemi olarak adlandı rı lı r. Bir eğitim seti ile baş lar ve böl ve yönet yöntemiyle çalı ş an bir öğrenim sürecidir.Bir M eğitim seti içinden bir ti terimi seçilir, bu terim eğitim setindeki dokümanları n sı nı fı nıtarifeme özelliği bulunmalı dı r yani enformasyon kazancı yüksek bir terim olmalı dı r. Ti terimini içeren dokümanlar M+ olarak, terimi içermeyen dokümanlar ise M- olarak adlandı rı larak eğitim seti ikiye bölünür. Bu süreç recursif bir ş ekilde eğitim setindeki bütün dokümanları n birer sı nı fa atanması yla biter. Öğrenme ile oluş turulan ağaç artı k sı nı flamayıgerçekleş tirecek yapı dı r. Sı nı fıbeli olmayan dokümanlarısı nı flamak için bu yapı daki testlerden geçirmek yetmektedir. Karar ağaçlarıstandart veri madenciliği tekniğ idir (J. R. Quinlan 1986). Metnin çok boyutlu doğasıyüzünden metin madenciliğine uygulanmalarıdaha zordur. 3.1.2.5.6 Destek vektör makineleri ve çekirdek metotları Destek vektör makinesi (SVM), son zamanlarda metin sı nı flama görevlerinde genişkullanı m bulan bir gözetmeli sı nı flama algoritması dı r (T. Joachims, 1998), (S. Dumais ve ark 1998 ), (E. Leopold ve J. Kindermann, 2002). Her zamanki gibi bir d dokümanı nıoluş turan terimlerin ağ ı rlı k değerlerinden bir vektör oluş turularak baş lanı r. Tek vektör ile sadece iki sı nı f tespit edilir. Pozitif sı nı f L1 (y = +1) ve negatif sı nı f L2 (y = -1). Girişvektörler uzayı nda alttaki formülde y = 0 tanı mlayarak bir düzlem tanı mlanabilir. N y f (t d ) b0 b j t dj j 1 29 VDM algoritmasıeğitim setinden çekilen pozitif ve negatif eğ itim elemanları n arası nda bulunan bir düzlem bulmaktadı r. Bj parametresi ise en yakı n pozitif ve negatif eğ itim elemanıve bu düzlem arası ndaki uzaklı k olan değerini maksimuma çekecek ş ekilde uyarlanmaktadı r. Şekil 3.5 Destek vektör makineler sı nı flayı cı Burada ayrı ş tı rı cıdüzlemden uzaklı ğı nda bulunan dokümanlar destek vektörleri olarak adlandı rı lı rlar ve esas ayrı ş tı rma düzlemin uzaydaki yerini bunlar belirlerler. Genellikle dokümanları n küçük bir kı smıdestek vektörüdür. Sı nı fıbeli olmayan yeni bir dokümanı n vektörü td olsun. Bu dokümanı n vektörü f(td)>0 ise o zaman doküman L1 sı nı fı na tersi durumunda L2 sı nı fı nda atanı r. Ancak bazen dokümanlar vektörleri lineer bir düzlem ile ayrı ş tı rı lamazlar, o zaman bazı doküman vektörleri bilerek yanlı ştarafa atanı rlar. Girişvektörlerinin bulunduğu uzayıayrı ş tı racak düzlem lineer olmadı ğı durumlarda, destek vektör makinelerinin aynen uygulanabilmesi için giriş parametreleri bir dönüş üm ile lineerleş tirilmekteler. Örneğin özellik haritası tanı mlanı r. 30 (t1 ,.., t N ) (t1 ,..., t N , t12 , t1t 2 ,..., t N t N 1 , t N2 ) 3.1.2.5.7 Kümeleme Kümeleme metotlarıgenişdoküman kümelerde benzer içeriklere sahip doküman guruplarıtespit etmeyi amaçlar. Kümeleme iş lemleri sonucunda kümeler oluş ur. Her küme d sayı sı nda doküman içerir. Kümeye ait nesneler, bu örnekte dokümanlar, diğer kümedeki nesnelere göre benzerlik göstermemeleri gerek. Bir kümeleme iş leminin baş arı sıkümeler arasıfarkı n büyüklüğüne bağlı dı r. Yani bir kümeye ayı t nesne, doküman diğer kümelerdeki nesnelerden ne kadar farklıise kümeleme iş lemi de o derecede baş arı lı dı r. Kümeleme metotları doküman uzayı ndaki dağı lı mı nıkullanarak guruplar oluş tururlar. Kümeleme algoritmalarıparametre olarak bir farklı lı k ölçüsü ve dokümanları n özelliklerini kullanarak iş lem yapmaktadı rlar. Değiş ik kümeleme algoritmalarıve bunları n performans testleri (SEK03) çalı ş mada mevcuttur. Hangi yöntem olursa olsun kümeler birbirine benzer özellik gösteren nesnelerden oluş turulur. Böylece kümeler kendi içinde aynıözelliği taş ı yan nesneleri içermişolur. Manhattan ve Euclid uzaklı k fonksiyonlarıçoğunlukla benzerliklerin bulunması nda kullanı lı r. Uzaklı k fonksiyonunun sonucu yüksek bir değer ise az benzerlik, düş ük bir değer ise çok benzerlik olduğunu ifade eder. Pboyutlu veri nesneleri i : (x i1 , xi2 ,..., xip ) , j : ( x j1 , x j 2 ,..., x jp ) için aş ağı da verilen uzaklı k fonksiyonlarıtanı mlanabilir. Euclid Uzaklı k fonksiyonu: 2 2 d ij x i1 x j 1 x i 2 x j 2 ... xip x jp Manhattan Uzaklı k Fonksiyonu: d ij x i1 x j 1 xi 2 x j 2 ... x ip x jp 2 31 Veri kümeleri için uygulanacak uzaklı k fonksiyonları nı n verimleri farklı olabilir, bundan dolayıEuclide ve Manhattan’ı n haricindeki uzaklı k fonksiyonları bazıveri kümeleri için daha uygun olabilir. Kümeleme Analizinin özellikleri aş ağı da kı saca özetlenmiş tir: Denetimsiz (unsupervised) öğrenmedir. Kümelerin yapı ları nıdoğrudan verilen veriden bulmadı r. Önceden tanı mlanan sı nı f ve sı nı f-etiketli öğrenme örnekleriyle çalı ş mamaktadı r. Bir veri madenciliği fonksiyonudur. Kümeleme; o Veri dağ ı lı mı nıanlamada fayda sağlar, o Her bir kümenin özelliklerini izler. Kümeleme probleminde; Bir d-boyutlu metrik uzayda n veri noktasıverilmiş tir, Veri noktalarık küme içine paylaş tı rı lı r. Kümeleme algoritma türleri aş ağı daki gibi sı nı flandı rı lmı ş tı r: Bölümleme Kümeleme Algoritması( Partioning Clustering Algorithms ) k-Ortalamalar k-medoid (CLARANS) EM (Beklenen Maksimizasyon) ALGORİ TMASI Hiyerarş ik kümeleme Algoritması Toplayı cı (Agglomerative) Hiyerarş ik Kümeleme Algoritması Bölücü (divisive) Hiyerarş ik Kümeleme Algoritması En çok kullanı lan kümeleme algoritmasıK-ortalamalar algoritması dı r. K-ortalamalar algoritmasıbölümleme (partitioning) yöntemleri oalrak adlandı rı lan algoritmalardan biridir. Bölünme kümeleme problemi ş öyle ifade edilmiş tir: d 32 boyutlu metrik uzayda verilen n nesne – bu durumda doküman, aynıkümedeki nesneler diğer kümelerdekine kı yasla daha benzer olacak ş ekilde k kümeye yerleş tirerek bölümlenmesinin yapı lması dı r. K değeri probleme göre bilinebilir yada bilinmez. Hata kareler ölçütü gibi bir kümeleme ölçütünün olmasıgerekir. 33 3.1.3.1 Web Madenciliği Veri madenciliği ve Web son zamanları n geçerli iki araş tı rma sahası dı r. Bu iki sahanı n doğal kombinasyonu Web madenciliği olarak adlandı rı lı r. Veri madenciliği uygulamaları ndan biri olan Web madenciliği, Web verileri üzerinde veri madenciliği fonksiyonları nıyerine getirir (Özakar ve Püskülcü 2002). Birçok yazara göre web madenciliği terimi ilk kez Etzioni tarafı ndan 1996’da ortaya atı lmı ş tı r. Bu bildiride Etzioni Web madenciliğinin veri madenciliği tekniklerini kullanarak Word Wide Web’de bulunan dosya ve servislerden otomatik olarak paternler bulmak ve öngörülmeyen bilgiye ulaş mak olduğunu iddia etmektedir (Etzioni 1996). Araş tı rmacı ları n çoğu çalı ş maları nda bu tanı mlamayıesas almı ş lardı r Burada bu iş lemlerden bazı ları nı n rahatlı kla arama motorlarıtarafı ndan yapı labileceğ i akla gelebilir. Bu durumda Web Madenciliğ ine ihtiyaç duyulması nı n iki sebebi vardı r. Bunlar: 1. Google, Yahoo gibi arama motorları nıkullanı ldı ğı nda genelde iki çeş it sorunla karş ı laş ı lı r: “Veri madenciliği” ile ilgili dokümanlar araş tı rı lı rken sonuç olarak çok fazla doküman listelenebilir ama bunları n birçoğu araş tı rı lan konuyla yeteri kadar ilgili değ ildir. Ayrı ca dokümanlar sı ralanı rken araş tı rı lan konuyla en çok ilgili olandan en az ilgili olana doğru sı ralanmı şdeğildir. Ancak dokümanlar incelendikten sonra istenilen sı rada konuyla ilgili siteler bulunabilmektedir. 2. Arama motorları nda yine “veri madenciliği” konusunun araş tı rı ldı ğı varsayı lı rsa, bu konu ile yakı ndan ilgili olan makine öğrenmesi , bilgi keş fi ile ilgili dokümanlar içerisinde “veri madenciliği ” kelimeleri geçmediği için sonuç olarak listelenmeyecektir. Bu sebeple son zamanlarda araş tı rmacı lar veri madenciliği kavramı nıWeb’e uyarlamı ş lardı r (Sakiroglu ve ark. 2003). Web madenciliği kabaca Web’ten faydalıbilginin keş fi olarak da tanı mlanabilir. Bu tanı m içinde otomatik tarama, bilgi alma ve kullanı labilir kaynakları n milyonlarca web sitesi veya online veritabanları ndan seçilmesi web içerik madenciliği konusuna girerken bir veya birçok web sunucu veya online 34 servisten kullanı cıeriş im desenlerinin analiz ve keş fi Web kullanı m madenciliği konusuna girmektedir (Takcıve Sogukpı nar, 2002). Web üç tip veri bulundurur; içerik, Web log dosyalarıve Web yapıverisi. Sekil 3.8 ‘de madencilik yapı labilecek verinin sı nı flandı rmasıincelenmektedir. Bunlar Web içerik madenciliği, Web yapımadenciliğ i ve Web kullanı m madenciliğidir. Web Madenciliği Web İ çerik Madenciliği Web Sayfa İ çerik Madencliği Web Yapı Madenciliği Arama Sonuç Madenciliğ Genel Web Kullanı m Madenciliği Web Kullanı m Madenciliği Site Günceleme Sistemleri Kiş iseleş tirme Şekil 3.6: Web Madenciliği Sı nı flandı rması 1. Web içerik Madenciliğ i: Web içerik madenciliğ i temel olarak Internet de saklıbilgiyi bulma üzerine yoğunlaş mı ş tı r (arama motorları , vs.). Kı saca konusu, site içeriğidir. Adı ndan da anlaş ı lacağıgibi web dokümanları nı n içeriklerini yorumlamak ile ilgilenir. Web içerik madenciliği akı llıyazı lı m ajanları(web robotları , web örümcekler vs.) daha doğrusu makine öğrenimi veya yapay zeka ile ilgilidir. Son zamanlarda dokümanlardan bilgi çı karma için XML de kullanı lmaya baş lanmı ş tı r. Burada; saniyede binlerce web sayfası nıinceleyen genişölçekli programlara “derleyici” (Crawler) denilmektedir (Belen ve ark. 2003). Web içerik verilerinin çoğu belli bir düzene sahip olmayan düz metinlerdir. Lycos, Alta Vista, Web Crawler gibi bilinen çeş itli arama motorlarıbu tekniklerden faydalanı rlar. Web içerik madenciliği, arama motorları ndaki yapı nı n geniş letilmişhali olarak düş ünülebilir. Internet de arama yapı lı rken birçok teknik kullanı lmaktadı r. 35 Bu tekniklerden, klasik arama motorları nda en çok kullanı lan kelime tabanlı arama yaklaş ı mı dı r. Bunun dı ş ı nda, içerik hiyerarş isi, kullanı cıdavranı ş larıve sayfalar arasılink iliş kileri de kullanı lan en temel yaklaş ı mlardandı r. Derleyicide, çekirdek URL adres setine bakarak değerlendirme baş lamakta ve çekirdek URL adreslerindeki linkler kaydedilip arama bu linklerden devam etmektedir. Web’deki muazzam büyük yapı , özelleş mişderleyici yapı ları nı n geliş tirilmesine neden olmuş tur. Sekil 3.9’da genel derleyici ve özelleş miş derleyicilerdeki arama mantı ğ ıgörülmektedir. Şekildeki siyah gölgeli kı sı mlar derleyicinin değerlendirmeye aldı ğısayfalarıtemsil etmektedir. Buna göre özelleş mişderleyici bir sayfayıilgili bulduysa sayfanı n linklerini değerlendirmeye almakta, aksi halde diğer sayfalarıdeğerlendirmeye geçmekte bir alt seviyeye inmemektedir (Dunham 2003). Sekil 3.7: Web Madenciliği Sı nı flandı rması 2. Web YapıMadenciliği: Web yapımadenciliğ i sitenin yapı sal dizaynı nı iyileş tirmek için kullanı lı r. Web sayfalarıarası ndaki bağlantı ları nı(hyperlink) iliş kilerini keş fetmekle ilgilenir. Yani HTML kodları ndaki <a href> </a> etiketleri arası nda yer alan veriyi yorumlar. Web içerik madenciliği web sayfası nı n içeriği ile ilgilenirken, web yapımadenciliğ i doğrudan web sayfalarıarası ndaki bağlantı lar ile ilgilenir (Sakiroglu ve ark. 2003). 3. Web Kullanı m Madenciliği: Web kullanı m madenciliği; bir veya birçok web sunucudan kullanı cıeriş im desenlerinin otomatik keş finin ve analizin yapı ldı ğıbir tip veri madenciliği etkinliğidir. Birçok organizasyon pazar analizleri için geliş tirdikleri stratejileri ziyaretçi bilgilerine dayanarak yerine getirir. 36 Organizasyonlar günlük operasyonlarla her gün yüzlerce MB veri toplamaktadı r. Bu bilgilerin çoğu web sunucuları n otomatik olarak tuttuğu günlük dosyaları ndan elde edilir. Günlük dosyaları nda, istemcinden sunucuya gönderilen her bir istek bir kayı t olarak tutulur (Takcıve Sogukpı nar 2002). Web verilerinin analizi sonucunda bir ziyaretçinin sitede kalma süresi, hizmet stratejileri, etkin kampanyalar ve diğerleri bulunabilir. Ayrı ca siteye bağlanan bir kullanı cı nı n hangi amaçla siteye bağlandı ğ ı , kötü niyetli bir kullanı cı olup olmadı ğıda bulunabilmektedir. Bir elektronik ticaret sitesi için en iyi müş teri veri madenciliği sayesinde bulunabildiği gibi bir “hacker” da aynıyöntemlerle bulunabilir. Web kullanı m madenciliği baslı ca üç fazdan oluş maktadı r: (Belen ve ark. 2003) 1. Ön İ sleme : Ön isleme veri kaynağı ndan alı nan verinin desen bulmaya hazı r hale getirilmesi adı mı dı r. Belki de web kullanı m madenciliğinin en önemli aş aması dı r. Çünkü etkili bir ş ekilde yapı ldı ğı ndan zaman ve kaynak tasarrufu sağlayacaktı r. Bu adı mda esas olarak veri gürültüden temizlenir. 2. Desen Bulma: Veri madenciliğinde desen bulmak için kullanı lan bir çok yöntem ve algoritma vardı r ve bunları n çoğu web kullanı m madenciliğinde de kullanı lmaktadı r. 3. Desen Analizi: Desen analizi web kullanı m madenciliğinin son adı mı dı r. Desen analizinin amacıbulunan desenlerden ilginç olmayan desenleri elemektir. Desen analizinin en çok karş ı laş ı lan sekli SQL gibi bilgi sorgulama dilleri ile yapı lan uygulamalardı r. Bir baş ka yöntem ise verilerin veri küplerine yüklenerek OLAP iş lemlerinin yapı lması dı r. Web içerik madenciliği dokümanları n içinden bilgi çı karı rken web kullanı m madenciliği kullanı cı ları n eriş imlerinden bilgi çı karmaktadı r. Eriş imlere dayalıbilgilerle kullanı cıdavranı ş larıbulunabilmekte ve kiş iye özel hizmet olanağısağlanabilmektedir. 37 3.1.4.1 BULANIK MANTIK 3.1.4.1 Giriş Bilimde, özelikle de bilim dalları nı n gövdesi sayı lan matematikte, görecelilik yada belirsizlik genelde istenmeyen ve kaçı nı lan bir durum olarak tanı mlanı r. Klasik bilimcilere göre, bilim bütün ortaya koyduğu açı klamalarda kesinlik için uğraş malı dı r ve bundan dolayıda belirsizlik bilimsel olmayan bir ş ey olarak kabul görmüş tür. Ancak bununun yanı nda bir de alternatif bakı şaçı sı vardı r ve buna göre, belirsizlik sadece kaçı nı lmasımümkün olmayan bir durum değil aynızamanda büyük bir fayda alanıaçan ve zerinde çalı ş ı lmasıgereken bir durumdur. Newton fiziğinde, belirsizliğe yer vermeyen matematiksel analizin rolü istatistiksel mekanikte, olası lı k teorisi tarafı ndan karş ı lanmı şve bu teori aslı nda belirli bir tipteki belirsizliklerin giderilmesini amaçlamı ş tı r (Klir ve Yuan, 1995). Bulanı k Mantı ğı n tarihi çok eskilere dayanmaktadı r. Aristoteles’in “Var ya da Yok” yasaları na karş ı n Heraclitus, bir ş eyin hem doğru hem yanlı şolabileceği fikrini ortaya sürmüş tür. Plato ise bu durumu ileriye götürerek “doğru” ve “yanlı ş ” olmanı n dı ş ı nda, doğru ve yanlı ş ı n iç içe olduğu üçüncü bir durumdan bahseder. Ancak ilk kez Lukasiewicz 1900’lerin baş ı nda “olası ” kavramı nıortaya atmı ş tı r. Bu kavram Bulanı k Mantı ğı n temelini oluş turur. Lukasiewicz, Doğru ile Yanlı şarası nda sonsuz farklıdeğer olduğundan bahsetmişve ancak bu mantı k uygulamalarda çok baş arıelde edememiş tir. (Koyuncu E. 2004) 1930’larda ünlü Amerikan filozofu Max Black tarafı ndan belirsizliği açı klayı cıöncü kavramlar geliş tirilmişolsa bile, bugün 1965’te Lütfü Askerzade tarafı ndan yayı nlanan makale modern anlamda belirsizlik kavramı nı n değerlendirilmesinde önemli bir nokta olarak kabul edilmiş tir. Askerzade, bu makalede kesin olmayan sı nı rlara sahip nesnelerin oluş turduğu bulanı k küme teorisini ortaya koymuş tur. Askerzade’nin bu makalesinin önemi sadece ihtimaller teorisine karş ıduruş u ile ilgili değil, ayrı ca ihtimaller teorisini oluş turan Aristo mantı ğı na karş ıda bir meydan okuma ş eklinde geliş miş tir. Bulanı k küme 38 teorisinin üyelikten üye olmamaya dereceli geçiş i ifade etmesindeki yeteneği genişfaydalarıolan bir yetenektir. Bize, belirsizliğin ölçülmesinde güçlü ve anlamlıaraçlar sunması nı n yanısı ra, doğal dilde ifade edilen belirsiz kavramları n anlamlıbir ş ekilde temsilini de vermektedir. Fakat Aristo mantı ğıüzerinde temellenen klasik küme teorisi, verilen bir alana ait bütün bireyleri incelenen özelliğe göre ikiye ayı rı r: kümeye ait olan elemanlar ve ait olmayan elemanlar. Kümeye üye ve üye olmayan elemanlar arası nda kesin ve belirsiz olmayan bir ayrı m vardı r. Doğal dilde ifade edilen ve üzerinde çalı ş ı lan çoğu sı nı flandı rma kavramı , bu türde bir karakterde değildir. Örneğin; uzun insanlar kümesi, birden çok büyük sayı ları n oluş turduğu küme, gibi kavramlar klasik kümenin öngördüğü ş ekilde incelenemezler. Bu kümeler, kesin olmayan sı nı rlara sahip olarak kabul edilir ve üyelikten üye olmamaya geçiş in dereceli olduğunu göz önüne alı narak iş lem yapı lı r (Klir ve Yuan, 1995). Bulanı k Mantı k ile çözümleme yapı lı rken problemin çözümü için gerekli tecrübe, gözlem bilgileri gibi klasik mantı kta ve matematik formüleri ille problemin çözümünde yararıolmayan bilgiler kullanı lmaktadı r. Bulanı k Mantı k iş lemlerinde, yargı lar öznel (bilirkiş i) gözlemlere dayanı r ve bu yargı lar matematiksel olarak analize hazı r bir ş ekilde modellenir. Matematik kural olmaktan çı kar, hayat için birkaç rakam oluverir. (Koyuncu E. 2004) Bulanı k mantı k ve geleneksel Aristo mantı ğı nı n karş ı laş tı rmı ş ı nıalttaki ş eklerde görebilirsiniz. İ lk grafikle belirsizliği,göreceliğ i, öznelliği içermeyen kesin bir çerçeve içinde bir kiş inin yaş ı na göre genç olup olmadı ğı nıgösteren bir grafik görülmekte. Buradaki sorun bir kiş inin yaş ı45 iken genç sayı lmasıbir sonraki sene 46 yaş ı nda yaş lıkabul edilmesi. Gündelik hayata bu ve benzeri kavramlar belirli bulanı klı k içerirler. İ kinci ş ekil ise geleneksel mantı ğ a karş ıgenç ve yaş lıkavramları , gerçekteki bulanı klı ğ ıve kesinsizliği içererek yansı tmakta. 39 Şekil 3.8 Klasik (Aristo) Mantı k Modeli Şekil 3.9 Bulanı k Mantı k Modeli Bulanı k Mantı ğı n uygulama alanlarıgünden güne geniş liyor. Bulanı k mantı ğıkonu eden çok sayı da makale de yayı nlanmakta. Endüstriyel Sistem modellemelerinden, yazı lı m geliş tirmeye; otomatik kontrol sistemlerinden, veri analizine; yöneylem araş tı rma tekniklerinden, sosyolojik değiş im kuralları nı izleme gibi birçok alanda Bulanı k Mantı k uygulamaları nıbaş arı lıbir ş ekilde görmek mümkün. Özellikle Modern Kontrol Sistemleri ve Otomatik Kontrol Sistemleri, Örnek olarak, günümüzde Robotik Hareket Sistemlerinin karmaş ı k kontrol problemleriyle çoğ unlukla Bulanı k Mantı k ilgileniyor (Koyuncu E. 2004). Bulanı k mantı ğ ı n bu kadar uygulamaya yatkı nlı ğı gerçek hayat problemlerinin matematiksel modeller ile temsil edilmesi güç olduğu durumlarda, basit if-then kuralarla tarif edilebilmesinden gelir. 40 Bulanı k mantı ğı n çok değiş ik alanlarda ve bu kadar çok kullanı lması nı n sebeplerini sı ralayalı m: bulanı k mantı ğıanlamak kolaydı r, bulanı k mantı k esnektir, bulanı k mantı k açı k olmayan data bulunmasıdurumunda tolerans gösterir bulanı k mantı kla karmaş ı k lineer olmayan fonksiyonlar modellenebilir, bulanı k mantı k geleneksel kontrol teknikleriyle birlikte kullanı labilir, bulanı k mantı ğı n ana fikri konuş ma dilidir. (Matlab 6.5) Standart olası lı k teorisi, kesinliğin bulunmadı ğıdurumlarda iyi bir çözüm sağlar. Fakat bir çok basit problemde olası lı k teorisinin hiçbir çözüm önerisi yoktur. Birkaç tipik örnek aş ağı da verilmiş tir. 1) Yağmurun yağ ma olası lı ğınedir? 2) Otelden havaalanı na taksiyle ne kadar sürer? 3) Robert genellikle iş ten saat 18:00’da döner. Saat 18:30’da evde olma olası lı ğınedir? 5) Zayı flı k çekicidir. Cindy zayı ftı r. Cindy’nin çekiciliği hakkı nda ne söylenebilir? Bu tip sorularla insanlar rutin olarak karş ıkarş ı ya gelebilir ve cevap verirler. Cevaplar sayıdeğildir. Cevaplar bulanı k algı lamanı n dil ile ifadesidir. “Çok yüksek değil, yaklaş ı k 0.8, hemen hemen olanaksı z” vb. gibi insanlar gündelik hayatı nda karş ı laş tı ğıbu gibi problemlere cevap bulurlar (Askerzade, 2001). Bulanı k mantı ğı n genel özellikleri Askerzade tarafı ndan ş u ş ekilde ifade edilmiş tir: Bulanı k mantı kta, kesin değerlere dayanan düş ünme yerine, yaklaş ı k düş ünme kullanı lı r. Bulanı k mantı kta her ş ey [0,1] aralı ğı nda belirli bir derece ile gösterilir. Bulanı k mantı kta bilgi büyük, küçük, çok az gibi dilsel ifadeler ş eklindedir. Bulanı k çı karı m iş lemi dilsel ifadeler arası nda tanı mlanan kurallar ile yapı lı r. Her mantı ksal sistem bulanı k olarak ifade edilebilir. 41 Bulanı k mantı k matematiksel modeli çok zor elde edilen sistemler için çok uygundur. Bulanı k mantı k tam olarak bilinmeyen veya eksik girilen bilgilere göre iş lem yapma yeteneğine sahiptir (Elmas, 2003). 3.1.4.2 Bulanı k Sistemler Bulanı k sistemler kural-temelli sistemlerdir. Bu kuralar probleme özgü tanı mlanı rlar ve uzman kiş ilerin problem ile ilgili tecrübelerini yansı tı rlar. Bulanı k sistemlerin merkezinde Eğer-İ se (If-Then) ifadeler tablosu bulunur. Örneğin: Eğer hizmet kötü ise fiyat ucuzdur, cümlesi bir bulanı k sistem kuralıolsun. Bu kuraldaki “hizmet” giriş“fiyat” ise çı kı şparametresidir. “Kötü” ve “ucuz” kelimeleri de belirsizlik ve görecelilik içeren iki kavram olduklarıiçin üyelik fonksiyonlarıile temsil edilen girişve çı kı şdeğerlerdirler. Bulanı k sistemlerin literatürde çoğunlukla kullanı lan üç ş ekli vardı r. Genel bulanı k sistem, Takagi-Sugeno-Kank bulanı k sistemi (T-S-K) ve bulanı klaş tı rma durulaş tı rma birimli bulanı k sistemi (Wang, 1997). Geleneksel bulanı k sistemlerdeki girişve çı kı ş lar bulanı k kümeler yani cümlelerden oluş urlar (Şekil 3.9). Bu sistemler bu ş ekilde mühendislik uygulamaları nda kullanı lamazlar. Mühendislikte bulanı k giriş ve çı kı ş ları n kullanı labilmesi için bu değerlerin bulanı klı ğıortadan kaldı rı larak gerçek matematiksel değerle dönüş türülmeleri gerek. 42 Bulanı k Kural Tabanı Bulanı k Giriş Kümeleri (cümleler) Bulanı k Çı kı ş Kümeleri (cümleler) Bulanı k Sistem Motoru Şekil 3.10 Genel Bulanı k Mantı k Sistemi Bulanı k Kural Tabanı Bulanı k Olmayan Bulanı k Olmayan Çı kı ş Ağı rlı klı Ortalama GirişX y=F(x) Şekil 3.11 T-S-K Bulanı k Mantı k Sistemi Bu problemi çözmek üzere Takagi, Sugeno ve Kang, girişve çı kı ş değerlerinin geleneksel değerler alması nısağlayan bir bulanı k sistem kurdular. Takagi-Sugeno-Kang bulanı k sistemi Şekil 3.10’de görülmektedir. Bu sisteme bir örnek verelim : EĞER hizmetin x değeri yüksek İ SE fiyat değeri y = cx’ tir. T-S-K bulanı k sisteminin ana problemi, İ SE kı smı ndan sonra matematik formül bulunması dı r ve sözel bilgileri modelleyememesi ve giriş -çı kı ş değiş kenleri arası nda yazı lmasımümkün olan tüm kuralları n son kı sı mları nı n bulanı k olmamasıdolayı sıile yazı lamaması dı r. Bu sistem bulanı k mantı ğı n çok yönlü uygulamaları nda araş tı rmacı lara gerekli kolaylı ğısağlamamaktadı r (Wang, 1997. 43 Bulanı k Kural Tabanı Giriş Çı kı ş Bulanı klaş tı rı cı Durulaş tı rı cı Verisi Bulanı k Çı karı m Motoru GirişBulanı k Kümeleri Verisi Çı kı şBulanı k Kümeleri Şekil 3.12 Genel Bulanı k Mantı k Sistemi Bütün bu elveriş siz durumlarıortadan kaldı ran sistem ‘Bulanı klaş tı rmaDurulaş tı rma’ birimli bulanı k sistemdir (Şekil 3.12). Mühendislik istemlerinde kullanı labilmesi için genel bulanı k sistemlere, girişkı smı na gerçek değerleri bulanı k kümelere çevirecek bulanı klaş tı rı cıve çı kı ş a da bulanı k kümeleri gerçek değerlere çevirecek durulaş tı rı cıeklemektir (Wang, 1997). Bulanı k sistemlerin baş lı ca özellikleri arası nda en önemli, konu olarak, çoklu girdileri, kural tabanıve çı karı m motoru ile iş leyerek tek çı ktıhaline dönüş türmesi gelir. Bazıözel durumlarda, çı ktı lar birden fazla olabilir. Ancak, hemen her mühendislik çalı ş ması nda en az bir tane çı ktıbulunur. Bulanı k sistem doğrusal olmayan bir ş ekilde girdileri oluş turan değiş kenleri, Çı ktıdeğiş kenine dönüş türerek, sistemin davranı ş ı nıtespit eder. Böylece bilgi tabanı nı n doğ rusal olmayan dönüş ümlere maruz bı rakı lmasıile istenen sonuçlara ulaş mak için incelenen sistemin kontrol altı na alı nmasımümkün olmaktadı r. Bulanı k sistemler sayesinde mühendislikte görüntü iş leme, zaman serileri esaslıtahmin yapmak, kontrol sorunları nıçözmek ve haberleş me yani iletiş im konuları nda uygulamalar yapmak mümkün olmaktadı r. Bunun dı ş ı nda bulanı k sistemler mühendislik, tı p, sosyoloji, psikoloji, iş letme, uzman sistemler, yapay zekâ, sinyal iş lenmesi, ulaş tı rma, kavş ak sinyalizasyon onu gibi birçok alanda rahatlı kla kullanı labilir. (Zekai Ş. 2001) 44 3.1.4.3 Bulanı k Kümeler ve Üyelik Fonksiyonları Klasik küme teorisinde elemanlar ya kümeye dâhildir ya da değ ildir. Bu karakteristik fonksiyonla aş ağı daki gibi ifade edilebilir: U A ( x) {10,, xxAA 1965 yı lı nda Lütfü Askerzade daha esnek üyelik değerlerinin mümkün olduğu bulanı k kümeler teorisini ortaya atmı ş tı r. Bulanı k kümeler teorisinde çok değiş ik üyelik değerleri bulunabilmektedir. Bu üyelik değerleri 0 ile 1 aralı ğı nda değiş ebilmektedir. Bu karakteristik fonksiyonla ş ekil 3.13’te gösterilmiş tir (Tsoukalas, 1997). A ( x) : X [0,1] (x ) (x ) (x ) X { A 1 A 1 ...} { A i } x1 x1 xi Ü y e l i k Çok Düş ük 0 20 Düş ük 40 Orta Seviye 60 80 Yüksek Çok Yüksek 100 Isı°C Şekil 3.13 Isıdeğerlerinin bulanı k ve normal kümelerle gösterimi, üyelik fonksiyonları 45 Literatürde kullanı lan üyelik fonksiyonları : üçgen üyelik fonksiyonu, yamuk üyelik fonksiyonu, Gauss üyelik fonksiyonu, genelleş tirilmişçan üyelik fonksiyonu ve sigmoidal üyelik fonksiyonudur. Bunlardan en yaygı n olarak kullanı lanıve bize kolaylı k sağ layan üçgen üyelik fonksiyonu ve yamuk üyelik fonksiyonudur. Üçgen üyelik fonksiyonlarıve yamuk üyelik fonksiyonları sı rası yla Şekil 3.15 ve Şekil 3.16’da gösterilmiş tir (Wang, 1997). { A(r) 1 ( a t ) / | a t a 1 (t a) / | a t a 0 Şekil 3.15 Üçgen üyelik fonksiyonu { A(r) 1 (a t ) / | a t a 1 | a t b 1 (t a) / | a t a 0 Şekil 3.16 Yamuk üyelik fonksiyonu 3.1.4.4 Bulanı klaş tı rma İ ş lemi Genel olarak, klasik küme ş eklinde beliren değiş im aralı kları nı n bulanı klaş tı rı lması , bulanı k küme, mantı k ve sistem iş lemleri için gereklidir. Bunun için, bir aralı kta bulunabilecek öğelerin hepsinin, 1' e eş it üyelik derecesine sahip olacak yerde, 0 ile 1 arası nda değ iş ik değerlere sahip olmasıdüş ünülür. Bazı 46 öğelerin belirsizlik içerdikleri kabul edilir. Bu belirsizliğin sayı sal olmayan durumlardan kaynaklanmasıhalinde bulanı klı ktan söz edilir. Klasik küme iş lemlerinde bir girdi eğer üyelik fonksiyonu söz konusu ise ya 1 değerini yada 0 değerini alı r. Bulanı k üyelik fonksiyonlarıile bulanı klaş tı rı lan girdi değeri artı k üye olmasıdorumunda bile koş ulsuz 1 değerini almak yerine üyelik fonksiyonunda aldı ğıdeğer ile sisteme girer. 3.1.4.5 Durulaş tı rma İ ş lemi Bulanı k sistemlerin çalı ş abilmesi için girdiler üyelik fonksiyonlarıile bulanı klaş tı rı larak sisteme verilirler sistemin içinde gereken iş lemler gerçekleş ir ve sonuçlar bulanı k kümeler ş eklinde dı ş a verilir. Ancak bu formattaki çı ktı mühendislik çalı ş maları nda kullanı lamaz. Bulanı k sistem çı ktı larıgerçek değerler (sayı lar) olarak alı nmalarılazı m. Bu sorunu çözen iş lemlerine durulaş tı rma (defuzzification) iş lemleri adıverilir. Durulaş tı rma iş lem çeş itleri çoktur, ancak burada detaya inmeden hepsinin temelinde yatan fikri açı klayalı m. Şekil 3.17 Durulaş tı rma iş lemin genel temsili 47 Şekil 3.17 de görülen örnekte 2 tane bulanı k girdimiz var. Her iki girdi denk geldikleri üyelik fonksiyonlarda kestikleri noktaları n bileş imi ile birer alan oluş turmaktadı rlar. Atla görülen grafikte bu alanları n bileş imi görülmekte. Bu bileş ik alanı n değerlendirilmesiyle durulaş tı rma iş lemi gerçekleş ir. Örneğin bu alanı n ağ ı rlı k noktası , ya da entegrali, yada alanıoluş turan doğ runun tepe noktasıbizim için gerçek durulaş mı şdeğer olabilir. 3.1.4.6 Temel İ ş lemler Ayrı ş ma (Veya) : v(a V b) = en-büyük (v(a), v(b)) Birleş me (Ve) : v(a b) = en-küçük (v(a), v(b)) Olumsuzlama (not) : v(~a) = 1 - v(a) İ ki değerli mantı klarda ‘değilleme’, ‘karş ı t anlamlıolma’ya karş ı lı k gelir. Bulanı k sistemlerde ‘doğ ru değil’ ş eklindeki bir ifade, ‘yanlı ş ’ anlamı na gelmeyebilir. Bazıdurumlarda ‘doğ ru değil’i, ‘doğru’ya ‘yanlı ş ’ı n olduğundan daha yakı n olarak algı lamak daha anlamlıolabilir. Kolayca görülebileceğ i gibi, değer kümesi, [0, 1] yerine {0, 1} alı ndı ğı nda bu iş lemlerden klasik mantı klardaki sonuçlar elde edilecektir. En-büyük ve en-küçük fonksiyonları nı n kullanı mı nı n uygunluğ u 1973’te Bellman ve Giertz tarafı ndan gösterilmiş tir. Fung ve Fu ise 1975’te en-büyük ve enküçük’ün tek olası iş lemler olabileceğini bulmuş tur. Matematiksel olarak doğrulanması nı n yanı nda, en-büyük ve en-küçük fonksiyonları nı n etkisi, insan nedensellemesinin nası l olduğ unu da ifade ediyor görünmektedir. n tane, derecelendirilmişdoğruluk değerlerine sahip önerme olsun. Her hangi bir kimsenin bunlarıkullanarak akı l yürüteceğini varsayı n. Bunları n hepsi ‘veya’ bağlacı yla bağ lı olduğunda, doğ ruluk durumuna olabildiğince yakı n olmak isteyecek, ve bu yüzden bu önermeler gurubunun ortak doğruluk değeri olarak, önermeler içinde doğruluk değeri en yüksek olanı nkini seçecektir. Bunları n hepsi ‘ve’ bağlacı yla bağ lı olduğundaysa, en kötü durumu bilmek isteyecektir, bu yüzden bu önermeler gurubunun ortak doğruluk değeri olarak, önermeler içinde doğruluk değeri en düş ük olanı nkini seçecektir. 48 Diğer mantı k teorilerinde geçerli olan iş lemler, bulanı k mantı k için de geçerlidir. Bulanı k mantı ğı , diğ er mantı k sistemlerinden ayı ran önemli özelliklerden birisi, ‘dı ş lanmı şorta kanunu’ ve ‘çeliş mezlik ilkesi’ olarak adlandı rı lan, ve v(a V ~a) = Doğru , ve v(a ~a) = Yanlı ş ş eklinde ifade edilen, diğer mantı k sistemleri için oldukça önemli olan, hatta temel kural denebilecek, iki özelliğ in, bulanı k mantı k için geçerli olmaması dı r. Bulanı k mantı kta v(a V ~a) != Doğru , ve v(a ~a) != Yanlı ş olur. Burada ‘!=‘, 'eş it değildir' demektir. Bunu sözlü olarak ş öyle ifade edebiliriz; bulanı k mantı kta ‘bir önerme ya doğ rudur ya da yanlı ş tı r’ diyemezsiniz, aynızamanda ‘bir önerme aynızamanda hem doğru hem yanlı şolamaz’ da diyemezsiniz. Bu, doğruluğun çok değerli oluş undan ve bu çerçevede ‘V ve ‘ bağlaçları na yüklenen anlamdan kaynaklanmaktadı r. Bulanı klı k, bir önermeyle (a), ‘değili’ (~a) arası ndaki belirsizlikten kaynaklanı r. Eğer v(a)’yıkesin olarak bilmiyorsak, v(~a)’yıde kesin olarak bilmiyoruz demektir. Bu belirsizlik, çeliş mezlik ilkesini ihlal edip ‘v(a ~a) != Yanlı ş ’ olması na, aynızamanda dı ş lanmı şorta kuralı nıihlal edip ‘v(a V ~a) != Doğ ru’ olması na yol açar. 49 3.1.5 Terim Seçme ve Ağı rlı klandı rma Şemaları 3.1.5.1 Terim Seçme Metin sı nı flama ya da kategorileş tirme iş lemi kategorisi beli olmayan dokümanı n önceden belirlenmişkategoriliden birine otomatik atama iş lemidir. Çevrim içi yani Internet sayesinde ulaş ı labilen metin formatı nda dokümanları n ve bilgilerin günden güne artı ş ı yla, verimli doküman endeksleme ve kategorileş tirme tekniklerine de ihtiyaç artmakta. Geçmişsenelerde bu problemi çözecek bir dizi çalı ş ma yapı lmı ş tı r: regresiyon (gerileme) modelleri (N. Fuhr ve ark, 1991), (Y. Yang ve W.J. Wilbur 1996), en yakı n komş uluk sı nı flaması(R.H. Creecy ve ark. 1992), (Y.Yang 1994), Beyes olası lı k yaklaş ı mları(K. Tzeras ve S. Hartman 1993) (D.D. Lewis ve M. Ringuette, 1994), karar ağaçlarısı nı flayı cı lar (D.D. Lewis ve M. Ringuette 1994), yapay sinir ağları(E. Wiener 1995). Metin sı nı flama problemlerinin en önemli özellikleri aynızamanda zorluklarımetinin özellik uzayı nı n çok boyutluluğudur. Metnin doğal özellik uzayıtekil terimlerden (kelimeler) den oluş ur ve bunları n sayı sıbinlerce olabilirler. Bu sayı daki özelik bir öğrenme algoritmasıiçin idare edilemeyecek bir sayı dı r. Burada en uygun çözüm sı nı flama iş lemi doğruluğ undan ödün vermeden özellik uzayı nı n boyut küçültülmesini gerçekleş tirmek. Yani terim sayı sı nı azalmak. Aynızamanda bu iş lemi yapacak bir otomatik yöntem geliş tirmek olmalı dı r çözümün bir baş ka amacı . Otomatik özellik seçme metotlarıile amaçlanan doküman kümesine göre bilgi taş ı yı cıolmayan yani önemi olmayan terimlerin özellik uzayı ndan elemek. 3.1.5.1.1 Terim Seçme Metotları Bu bölümde, terim seçme metotları n kullandı klarıbeşfarklıterim eleme kriteri incelenecektir, doküman frekansı , enformasyon kazancı , müş terek enformasyon, 2 istatistiği ve terim gücü. 50 3.1.5.1.2 Doküman frekansı(DF) Doküman frekansıbir terimin (kelimenin) bulunduğu doküman sayı sı dı r (Yiming Yang ve Jan O. Pedersen 1997). Terim eleme için doküman frekans eş ik değeri seçilir ve her bir terim için doküman frekansıhesaplandı ktan sonra eş ik değerini aş amayan terimler elenir. Burada kullanı lan basit bir varsayı mdı r: doküman kümesinde az tekrarlanan bir terim değerli enformasyon taş ı mamaktadı r. 3.1.5.1.3 Enformasyon Kazancı Makine öğrenmede sı k kullanı lan bir özellik seçme kı stası dı r (J.R. Quinlan 1984) (Tom Mitchell 1996). Enformasyon kazancı , terimin doküman içinde mevcut olup olmaması nı kullanarak kategori tahmininde kullanı lacak enformasyon bit sayı sı nıölçerek hesaplanmaktadı r. G( t) i 1 Pr (ci ) log Pr (ci ) m Pr (t ) i 1 Pr (ci | t) log Pr ( ci | t ) m Pr ( t ) i 1 Pr (ci | t ) log Pr ( ci | t ) m Enformasyon kazancı na dayanan terim eleme metodu, enformasyon kazancı belirli bir eş ik değerden daha düş ük terimlerin elenmesi ile gerçekleş mektedir. 3.1.5.1.4 Müş terek enformasyon (Mutual information) Bu kriter kelime iliş kilerini modelleyen istatistikisel diller ve bunarlı n uygulamaları nda genişkullanı mıvardı r. (R. Fano 1961 ),(Kenneth Ward Church ve Patrick Hanks 1989). İ ki sütunlu bir tablo olduğunu farz edelim burada bir sütün t terimleri bir sütün de c kategorileri temsil etsin. O zaman: A sayı sıt’nin ve c’nin ayni anda var olduklarısayı sı , B t’nin c siz bulunma sayı sı , C ise c’nin t siz tekrarlanma sayı sıve N de toplam doküman ş ayisi olur. T terimi ve c kriteri için müş terek enformasyon kriterinin hesaplanmasıalttaki formüler ile yapı lı r. 51 I ( t, c) log Pr ( tc) Pr (t ) Pr ( c) I ( t, c) log A N ( A C ) ( A B) 3.1.5.1.5 2 istatistiği (CHI) Bu ölçü t terim ve c kategori arası ndaki bağı msı zlı ğıverir ve alttaki formül ile hesaplanı r: N ( AD CB ) 2 (t , c) ( A C ) (B D) ( A B) (C D) 2 Burada A t nin ve cinin birlikte bulunma sayı sı , B t’nin c siz tekrarlanma sayı sı ,C c nin t siz tekrarlanma sayı sı , D t nin ve c nin birlikte bulunmama sayı sıve N de toplam dokuman sayı sı dı r. Genel bakı ldı ğı nda değeri bir önceki anlatı lan 2 2 kriterden farklıolmadı ğıdüş ünülebilir. Değeri normaliz edilmişyani doküman ve terim sayı sı ndan etkilenmeyen bir değerdir. 3.1.5.1.6 Terim güçü Wilbur ve Sirotkin (1992) tarafı ndan Metin madenciliğinde kelime tabanı küçültme için tanı tı lan ve sonralarda Yang ve Wilbur (1996) ile metin sı nı flama iş lemlerine uyarlanan bir terim eleme kriteridir. Bu kriter, terimin benzer dokümanlar içinde tekrarlanma sayı sı nı n terim için bir önem taş ı dı ğıvarsayı mı na dayanarak geliş tirilmiş tir. Doküman kümesi içinde birbirlerine benzeyen dokümanlar tespit edilerek baş lanı r iş leme. Terim gücü ise bir terimin bu iki benzer dokümandan ilkinde koş ulu bulunma ihtimaline eş ittir, s( t ) Pr ( t y | t x). 52 3.1.5.2 Terim Ağı rlı klandı rma Internet’in dünya çapı nda gerçekleş en geliş imi ile web site, elektronik posta, haber gurupları , literatür veritabanlarıgibi dijital formda bulunan doküman sayı sı nda da patlama gerçekleş ti. Bu büyük sayı daki dokümanları n analizi için Metin madenciliği teknikleri kullanı lı r. Metin madenciliği görevinin en önemli adı mlardan biri metni oluş turan kelimelerin bir ağ ı rlı klandı rma ş emasıile doğru değerlere endekslenmesidir (M.A.Andrade ve A.Valencia 1998). Burada doğru ağı rlı klandı rma’dan kastedilen dokuman profilini bozmadan sayı sal (ağrı lı k değ erleri) bir temsil gerçekleş tirmektir. Terim ağı rlı klandı rma ş emalarımetin madenciliği prosesinin baş arı sı nda çok kritik bir yer alı r (E. Leopold ve J.Kinderman 2002),(M .Lan, ve ark. 2005). Bu konuda bir çok araş tı rma yapı lmı ş tı r ve geliş tirilen ş emalar geniş kullanı m bulmuş lardı r. En bilindik ş emalar: ikili ağı rlı k, terim frekansı (TF) ve terim frekansıters dokuman frekansı dı r (TFIDF) (G.Salton ve C.Buckley 1988). Bu ş emalar yanısı ra tamamen istatistik dağı lı m analizler temeli ş emalar da mevcuttur CTD (B. How ve K.Narayanan 2005), TFRF (M .Lan ve ark. 2005), SQRT-IGFF ve SQRT-IGFS (E.Chisholm ve T. Kolda, 1999) . Terim ağı rlı klandı rma ş emaları n çoğu temelinde istatistiksel veriler ile bir ağı rlı klandı rma gerçekleş tirmektedir. Terimin bulunduğu dokumandaki frekansı TF olsun ve bu terimin bulunduğu dokuman dı ş ı nda kaç tane dokümanda tekrarlandı ğıbilgisi de DF olsun. TF ve DF hemen hemen bütün ş emaları n temelinde yatan bilgilerdir, değ iş en sadece bunlarıkullanan formülerdir. 53 3.1.5.2.1 İ lgili Araş tı rmalar Son yı larda sı nı flama, kümeleme, kategorileş tirme gibi metin madenciliği metotları nda on iş lem olarak kullanı lan birçok terim ağ ı rlı klandı rma ş eması geliş tirmekte. Bu ş emaları n araları ndaki görünürde büyük farklara rağmen amaçları ; dokümanı , terimler (kelime) uzayı nda bir vektör ile temsil edebilmektir. ş ekil 3.18. Şekil 3.18 Kelime uzayı nda doküman vektörlerin gösterimi 3.1.5.2.2 İ kili ağı rlı k metodu Kelimenin bir dokümanda bulunması(1) yada bulunmaması nıtemel alan bir ş ema olan İ kili ağı rlı kş emasıalta görünen formüle göre hesaplanı r: wi, j { 1 eğer i terimi j dokümanı nda bulunuyor ise 0 diğer durumlarda 54 3.1.5.2.3 Terim frekans (TF) metodu Bu metot ile bir terimin ağı rlı ğ ıçok basit bir mantı kla i teriminin j dokümanı nda tekrarlanma sayı sı na eş itlenir. wi , j tf i , j 3.1.5.2.4 Klasik TFIDF metodu TFIDF kı saltması ; terim frekansı , ters doküman frekansıanlamı nda kullanı lı r. Bu ş ema iki önemli elemanıbileş tirmekte: t terimin d dokümanı nda tekrarlanma sayı sıyani dokümana göre yerel bir ağı rlı k verisini (terim frekansı ); ve aynıterimin küresel bir ağı rlı k değeri olan doküman setindeki dokümanları n içindeki dağ ı lı m frekansı(doküman frekansı ). Bir terimin beli bir dokümana göre önemi yani ağı rlı k değeri TF in yüksekliğine ve DF in düş üklüğüne bağlı dı r. Tf in yüksek çı kmasıterimin o dokumana göre önemli olduğunu, DF in düş ük çı kması ise bu terimin diğer dokümanlarda az tekrarlandı ğı nıyani sadece söz konusu doküman için önemli olduğunu ifade eder. Otomatik sı nı flama, kümeleme ve benzeri metin madenciliği iş lemlerinde genellikle öniş lem olarak TFIDF ağı rlı klandı rma ş emasıkullanı lmaktadı r. TFIDF in bir ağı rlı klandı rma ş eması nda kullanı lmasıalttaki formül ile gerçekleş ir: wi , j tf i , j log( N ). dfi Bu formülde tf, i terimin j dokümanı ndaki frekansı , N toplam doküman sayı sıve df de i terimini içeren doküman sayı sı . (G.Salton ve C.Buckley, 1988) (Y. Liu ve ark. 2004) … 3.1.5.2.5 CDT metodu TFIDF ağ ı rlı klandı rma ş eması nıgeliş tirerek yeni bir ş ema ortaya koyan araş tı rma (B. How ve K.Narayanan, 2006) da sunulmuş tur. TFIDF in tek 55 doküman üstünden değil de bir kategoriye uygulanmasıile ortaya yeni bir ağı rlı klandı rma ş emasıçı kmı ş tı r CTF, kategori-temeli frekans. CTDt ,c CTFt , c IDFt ,c ICFt ICF log C CFt 3.1.5.2.6 TFRF metodu Yerel terim frekansı nıve yeni tanı mlanan ilgi frekans bilgisini yeni bir ş emada birleş tiren araş tı rma (M.Lan ve ark. 2006) bu yeni ş emaya TFRF adı nı vermiş tir. Bu ş ema ile ağı rlı k hesaplanmasıiçin wi , j tf i , j rf Formülü kullanı lmakta. Burada tf bilindiği üzere i teriminin j dokümanı ndaki frekansı dı r. Rf kı smıise alta bulunan formül ile tanı mlanı r: n rf log(1 i ) ni burada ni , i terimin bulunduğ u doküman sayı sı , ve ni de i terimini içeren ancak kümede bulunmayan doküman sayı sı dı r. 3.1.5.3 Var Olan Metotlar Üstüne Bir Eleş tiri Yukarı da anlatı lan bütün metotları n eksikleri var. En büyük eksikleri basit istatistiksel yöntemleri temel almalarıve genellikle sadece bir dokümanla ilgili olmaları . Bu tez çalı ş mamda terimlerin ağı rlı k hesaplanmasıiçin yeni bir ş ema öneriyorum, ilerleyen bölümlerde bu ş emanı n detaylarıverilecek. 56 3.2 – Metot 3.2.1 Edebiyat eserlerini web verilerine dayanarak sı nı flandı rma Nesneleri özelliklerine göre ayrısı nı flara ayı rma iş lemine sı nı flandı rma denir. Sı nı flandı rma algoritmaları , sı nı flanacak nesnelerin özelliklerini öğrenme esnası nda inceleyerek bir sı nı flandı rma gerçekleş tirirler. Sı nı flanacak nesne özelliklerinin değerlerini içeren veri kaynakları na eğitim örnekleri denilmektedir. Web tabanlısı nı flandı rma modelleri normal sı nı flandı rma uygulamaları ndan bu noktada ayrı lmaktadı rlar. Web tabanlısı nı flandı rma modelleri sı nı flanacak nesnelerin özellik değerlerinin web sitelerinden elde edilebileceğini var sayarak geliş tirilmiş lerdir. Web tabanlısı nı flandı rma uygulamaları ndan biri müzik sanatçı ları nı n yaptı klarımüzik tarzları nı n internet aracı lı ğıile öğrenilmesi ve sı nı flanması uygulaması dı r (Peter Knees ve ark. 2003). Bu problem, yı llarca sanatçı ları n müzik parçaları nı n, ses iş leme modelleri ve filtreleri ile incelenerek, çözülmeye çalı ş ı lmı ş tı r ve ulaş ı lan doğruluk %80leri geçmemiş tir. Yukarı da atı fta bulunulan makalede ise %90 lara varan bir doğrulukla müzik sanatçı larıyaptı klarımüzik tarzları na göre sı nı flanmı ş lardı r. Bu modelin baş arı sıbiraz da eski yöntemlerle toplanan bilgilerin kullanı lmasa bağlı dı r. Baş langı ç parametrelerin değerleri bu bilgilere göre seçilmiş lerdir. Veri toplama iş lemi bu uygulamalarıdiğer benzer uygulamalardan farklı kı lan iş lemdir. Web tabanlıveri ile sı nı flandı rma, denilmesinin sebebi de burada ortaya çı kmaktadı r. Sı nı flanacak nesneler hakkı nda veri web sitelerinden elde edilmektedir. Burada web sitelerinin bulunması değiş ik yöntemler ile gerçekleş tirilmektedir, ancak en geneli web arama motorları nı n kullanı lması dı r. Uygulamalar birbirlerinden kullandı kları arama motorları , bunlara gönderdikleri arama sorgusu ve gelen sonuçlarıdeğerlendirme yöntemlerine göre farklı lı k göstermektedirler. Örneğin, yukarı da atı fta bulunulan müzik sanatçı ları nı sı nı flayan uygulamada arama motoru olarak google ve yahoo, arama sorgusu 57 olarak “sanatçı+ müzik tarzı ” , gelen sonuçları n da değerlendirilmesi için ilk ellisi seçilmiş tir. Bu değerlerin seçimi söz konusu çalı ş mada önceki araş tı rmalara atı fta bulunarak açı klanmı ş tı r. Ancak temel teş kil edecek araş tı rmaları n olmaması durumunda buna benzer modellerde sı kı ntı lar yaş anabileceği ortadadı r. Bu problemin çözümü için ileriki bölümlerde yeni bir model tanı tı lmaktadı r. Web tabanlıveri ile sı nı flandı rma web sitelerinden bilgi keş fetmektir. Web siteleri belirli bir yapıgöstermedikleri ve genelde resim, video, metin vs den oluş tuklarıiçin gürültüye ve istenmeyen verilere sahiptirler. Web tabanlı sı nı flandı rma yöntemleri ilgilendikleri veriler dı ş ı ndaki verileri özellikle html kodları , bannerler, reklamlar vs gürültü olarak değerlendirmekteler. Web sitelerindeki gürültü temizliğ ini konu alan bir çok çalı ş ma mevcutur. Bazı larıhtml sayfaları nıhtml ağaçlar ile temsil ederek gereksiz verileri eleme yoları nıgeliş tirmiş lerdir (Lan Yi ve Bing Liu 2003). Bazıçalı ş malarda ise algoritmik bir yaklaş ı m ile adı m adı m eleme yaparak sadece ilgilenilen verilere ulaş ı lmaktadı r. Müzik sanatçı ları nısı nı flayan çalı ş mada veri temizliği adı na html kodlar, bağlaçlar (stop words), noktalama iş lemleri, problemi ilgilendirmeyen kelimeler ve metin dı ş ı ndaki bütün verilerin eleme iş lemi yapı lmı ş tı r. Web tabanlıveri ile sı nı flandı rma çalı ş maları , açı sı ndan öniş lem süreci veri madenciliğine hazı rlı ktı r. Metin madenciliği açı sı ndan bu hazı rlı k web sitelerin bir temsil modeli ile madenciliğe uygun hale getirmektir. Müzik sanatçı ları nısı nı flayan uygulamada kelime vektör temsili kullanı lmı ş tı r ve benzer çalı ş malarda genelde bu model kullanı lmaktadı r. Doğal dil iş leme yöntemleri tavsiye edilen temsil modelleridirler. Kelime vektör modellerini geliş tirmeyi amaç edinmişmakaleler de mevcuttur (Fabrizio Sebastiani ve Franca Debole 2004). Örnek teş kil etmesi açı sı ndan atı fta bulunulan çalı ş manı n içeriğine değinelim: “Müzik sanatçı ları nı n web tabanlıbilgiler ile sı nı flanması ” (Peter Knees1 ve ark. 2003) isimli makalede müzik sanatçı larıgoogle arama motoru ile sorgulanmı ş lardı r. Sorgu, sanatçıismi + müzik tarzıolarak seçilmiş tir. Gelen 58 sonuçlar genelde sanatçı ları n fan siteleridir. Gelen sonuçlardan ilk ellisi ele alı nmı ş tı r. Sonuç siteleri html taglardan ve bağlaçlardan arı ndı rı lmı ş tı r. Her a sanatçı sı na bağlıdokümanıiçin, her a sanatçı sıve her t terimi için t terimin tekrarlanma sayı sı(frekansı ) tfta hesaplanmı ş tı r. Ayrı ca t terimin geçtiği doküman sayı sı , (frekansı ) dfta hesaplamı ş tı r. Bu hesaplanan terim ve doküman frekansları sayesinde sı nı flandı rma için kullanı lacak terimlere birer ağı rlı k değeri verilmektedir. (1log 2 tf ta )log 2 wta {0, N dft Terim frekansıtfta sı fı r olduğ unda, ağı rlı k değeri Wta sı fı r olarak seçilmektedir. 200 sanatçıiçin yapı lmı şaramalar sonucunda 200,000 farklıterim elde edilmiş tir. Bu sayı yıazaltmak için ek bir terim eleme iş lemi uygulanmı ş tı r. 2 İ statistikte kare olarak bilinen dağı lı m kullanı larak terimler sayı sı%70 kadar azaltı lmı ş tı r. 2 kare testi sayesinde t terimin c sı nı fı yla bağı msı zlı ğıtest edilmektedir. N(AD BC) 2 χtc (A B)(A C)(B D)(C D) Formülde c kategorisindeki t terimini içeren doküman sayı sıA , c kategorisinde olmayan t yi içeren doküman sayı sıB , c de olan t yi içermeyen C , c de olmayan ve t yi içermeyen doküman sayı sıda D ile gösterilmektedir, N ise arama motorundan elde edilen toplam doküman sayı sıile gösterilmektedir. Her 2 terim için kare değeri hesaplandı ktan sonra her c kategorisi için en yüksek test değerine sahip ilk 100 terim seçilmiş tir. Bütün kategoriler (müzik tarzısı nı fı ) için seçilmişolan yüzer tane terim bir araya getirilmiş tir. Terimler seçimi sonucunda her sanatçıterimlerin ağı rlı k değerlerine göre bir kelime (terim) vektörü ile temsil edilmiş lerdir. Burada ağı rlı k değerleri kosinüs normalizasyonu ile (-1,1) normaliz edilmiş lerdir. 59 Sanatçı larısı nı flandı rmak için destek vektör makineleri kullanı lmı ş tı r. Sonuçları n gösterimi de SOM algoritmasıile yapı lmı ş tı r. 14 farklısı nı f yani müzik tarzı(pop,rok vs) için 200 sanatçısorgulanmı ş tı r ve %90 lara varan doğrulukla sı nı flandı rma gerçekleş tirilmiş tir 3.2.1.1 Sı nı flama modeli ve algoritma Bu kı sı mda tezin deneysel çalı ş masıanlatı lacak. Tezin amacıedebiyat eserlerinin web verilerine dayanarak sı nı flanması dı r. Önceki bölümlerde teorik bilgiler verildiğinden metnin devamı nda gerektiğinde bunarla atı fta bulunulacak. 3.2.1.2 Modelin Genel görünümü ve Akı şş emaları Alta görülen akı şş eması ndaki her adı m ilerleyen alt bölümlerde ayrı ntı lı anlatı lacaklar, bu bölümde sadece genel bir bakı şile model tanı tı lacaktı r. Şekil 3.19 Çalı ş mayıtemsil eden Akı şdiyagramı 60 Bu modelin amacıinternette ortak kullanı ma açı k genel web sitelerindeki bilgilerden yararlanı larak bir sı nı flandı rma gerçekleş tirmektir. Sı nı flandı rı lacak nesneler edebiyat eserleri, sı nı flar ise edebiyat türleridir (Roman, Öykü, Masal, Tiyatro, Deneme, bilim kurgu, vs). Şekil 3.19 de görünen akı şdiyagramı ndan da anlaş ı lacağıgibi model önceden belirlenmişparametrelere göre çalı ş arak (öğrenerek) bir sı nı flandı rma problemini çözecektir. Optimal sonuçlarıüretmesi için uygun öniş lem ve madencilik teknikleri yanısı ra parametrelerin doğru seçilmesini de gerektirir. İ nternetteki verilerden yararlanarak sı nı flandı rma gerçekleş tiren benzer çalı ş malarda bu parametrelin baş langı ç değerleri için bazıöneriler bulunabilir ancak bu çalı ş maya temel alı nabilecek bir çalı ş ma bulanamadı ğıiçin bu baş langı ç değerleri ancak sistemin gerçekleş tirilmesi esnası nda tespit edilmiş tir. 3.2.1.3 Sı nı flanacak Verilerin Elde Edilmesi Sı nı flandı rma iş lemini gerçekleş tirmek için bir veri tabanı(eğitim örnekleri) gereklidir. Sı nı flandı rma iş lemi bir görerek öğrenme yöntemidir. Yada diğer tanı mıile örneklerden öğrenme iş lemidir. Dolayı sı yla örnekleri temsil edecek veri tabanı n oluş turulmasıiçin internet kullanı lacaktı r. Sı nı flandı rı lacak nesneler (kitaplar) hakkı nda bilgi tabanıweb siteleridir. Bu sitelere ulaş manı n yolu Web içerik madenciliği ve Bilgi keş fi yöntemleridir. Ancak günümüzde yaygı n olarak kullanı lan akı llıarama motorlarızaten bu iş lemi yaptı klarıiçin onları n kullanı lmasıdaha mantı klı dı r. Bu yüzden istenilen web sitelerinin elde edilmesi arama motorlarıile gerçekleş tirilecektir. Uygun bir sorgu ile internette kitabı n ismi ve türü hakkı nda bilginin birlikte geçtiği siteler arama motoru ile elde edilmektedir. Örnek sorgu => “romeo and juliet” + “book” + “review” İ nternet arama motorları nı n sonuçlarısı ralama iş lemini birçok kı stasa bağlıolarak yapmaktadı rlar. Ancak sı ralamada en öne alı nan siteler genelde baş ka sitelerden kendilerine link alan sitelerdir. Bu bizim sı nı flandı rma iş lemi için bir 61 ş ey ifade etmez çünkü bizi ilgilendiren sonuç olarak gelen sitelerin içinde sı nı flandı rmaya yarayacak bilgilerin olması dı r. 3.2.1.4 Sı nı flama için edebiyat eserlerin ve sı nı fları n seçilmesi Sı nı flama modelin geliş tirilmesi için ilk önce sı nı flar ve bu sı nı flara ait eğitim ve test örnekleri tanı mlanmalı dı r. Bu çalı ş manı n amacıedebiyat eserlerinin yani kitapları n sı nı flanmasıolduğu için ilk aş ama bir test için edebiyat sı nı fları n ve eserlerin belirlenmesidir. Birinci test altısı nı f ve her sı nı fa ait sekizer kitaptan oluş maktadı r. Alta görünen listeler wikkipendia.com Internet ansiklopedisi ve bir çok baş ka kaynaktan yararlanı larak elde edilmiş tir. Kitapları n sı nı flamasıhakkı nda bir çok kaynak literatür bulunması na rağmen bu çalamaya uygun ş eklinin bulunması zahmetli bir süreçti. Bu listelerin oluş turulmasıiçin seçilen çalı ş malar İ ngilizce konuş ma bölgelerinde yapı lan ve İ ngilizce dilinde yazı lmı şeserlere verilen ödülleri kapsamaktadı r. Ödülleri veren kurumlar da İ ngiliz dili bölgelerindendirler (Amerika, İ ngiltere , vs). Bu yöntemin seçilme sebebi bu eserler hakkı nda web sitelerinde daha kolay verimli bilgilere ulaş ma fikrine dayanı r. Edebiyat eserleri için seçilmis sı nı flar : 1. Çocuk kitapları(Children's Boks) 2. Esrarengiz (Mystery ) 3. Bilim kurgu – Fantezi (Sci-fi/Fantasy) 4. Genel edebiyat (General Nonfiction) 5. Edebiyat Kurgu (Literary Fiction) 6. Şiir (Poetry) Her bir sı nı f için seçilen kitaplar son senelerde büyük edebiyat ödülleri kazanmı şeserlerdir. Bunları n tam listesini ek-A da görülebilir. İ kinci ve daha büyük bir test de bilgisayar kitapları n sı nı flandı ğıçalı ş madı r. Bu test için seçilen sı nı flar ve örnekler ek-B de mevcutlar. 62 3.2.1.5 Edebiyat eserleri hakkı nda bilgi içeren web sitelerin elde edilmesi Edebiyat eserleri isimleri tespit edildiğinde, bunlar hakkı nda bilgi toplayı p sı nı flamaya hazı r hale getirmek gerekmektedir. Veri tabanı n uygun tablosunda kitap isimleri kayı tlıolduğunu farz edersek o zaman sı nı flamada kullanı lan yazı lı m bu tablodan okuduğu her kitap ismi için uygun bir sorgu gerçekleş tirerek bir arama motoruna gönderir. Arama motorundan cevap olarak gelen ilk 50 link kitap ID sine göre link tablosuna kitap id ve gelen linkler olarak kaydedilir. Baş la Kitap tablosundan kitap ismi oku Kitap ismini kullanarak uygun sorgu oluş tur Sorguyu Google gönder Gelen cevaplar arası nda ilk 50 tanesini Link tablosuna kaydet Kitap veri tablonun sonuna ulaş ı ldımı ? Hayı r Evet Bitir Şekil 3.20 Web site adreslerin elde edileme algoritması Algoritmada uygun arama sorgusu olarak kastedilen internet arama motoruna gönderilecek arama cümlesinin oluş turulması dı r. Arama motorları anahtar kelimelerine göre çalı ş ı rlar ve birçok denemeden sonra bu çalı ş ma için en 63 uygun arama cümlesi ,“ kitap ismi ” + book + review -amazon.com –pdf , olduğu görülmüş tür. Burada ilk parametre kitap ismidir, ve program tarafı ndan veri tabanı ndan okunarak elde edilmektedir. Ayrı ca eklenen book ve review kelimeleri ile sonuçları n filtrelenmesi amaçlanmı ş tı r. Eksi amazon.com ve pdf parametreleri ile amazon.com web sitesi ve alt domainler ve pdf tipinde dosyaları sonuçlar arası na getirilmesi engellenmiş tir. Amazon sitesinden sı nı flamayı yanı ltan ve devamlıtekrarlanan cümle yapı larıgeldiğ inden, linkleri sonuçlardan elenmiş tir. Her bir kitap için 50 web site adresi elde edildikten ve bu adreslerin link tablosuna uygun kitap referansıile kaydedildikten sonra artı k web siteleri yerel veri tabanı na kaydedilmeleri gerekmektedir. Bu iş lemin özetlenmişhali ş ekil 3.21 de görülmekte. Baş la Link tablosundan link oku Linkin yani web adreste bulunan web siteyi indir İ ndirilen web siteyi öniş lemlerden geçirerek içerik tabloya kaydet Link veri tablonun sonuna ulaş ı ldımı ? Evet Bitir Şekil 3.21 Web sitelerin elde edileme algoritması Hayı r 64 4.2.4 Yardı mcıveri tabanıtasarı mı Deneylerin gerçekleş tirildiği yazı lı m bir veri tabanıbağlantı sısayesinde gereken verileri internetten toplamaktadı r. Verilerin toplandı ğıalanda bir MS Access veri tabanı dı r. Veri tabanıtasarı mıalta görülmektedir. Kitap Tablosu Link Tablosu İ d Kitap_adı İ d link İ çerik Tablosu İ d içerik Web verileri için Veri Tabanı Veri tabanıüç tablodan oluş maktadı r. Kitap tablosu, Link tablosu ve İ çerik tablosu. Kitap tablosu indeks alanıolan id, ve kitap isimlerini içeren Kitap_adı alanı ndan oluş maktadı r. Bu tablo sı nı flama modelin gerçekleş mesi için gerek eğitim ve test örneklerini oluş turacağı mı z kitap örneklerini kaydetmek için kullanı lmaktadı r. Kitap tablosuna kitap isimleri kaydedilmiş tir, kullanı lan index ise iki dijitlik bir numaradı r ilk numara 0-5 arasıyazı lı r ve sı nı fıtemsil eder ikinci dijit de 0-7 arası seçilir ve kitap sayı sı nıtemsil eder. Tablonun birkaç kaydıalttaki ş ekilde görülmekte. id Kitap_ismi 00 The Hello, Goodbye Window 01 Kitten's First Full Moon Örnekte 00 sı fı rcısı nı fa yani çocuk kitapları na ait sı fı r numarali eserdir. 63 koduna sahip kitap Şiir sı nı fı na ait 4 numaralıkitaptı r. 65 İ kinci tablo Link tablosu kitap tablosuyla bağlı dı r. Tablonun amacıher bir kitap için arama motorundan elde edilecek linkleri kaydetmektir. Üçüncü tablo da içerik tablosudur, ve yardı mcıprogramı n link tablosunda okuduğu linklerde bulunan web sitelerin içeriğ inin indirip kaydedildiği tablodur. Deneylerin yapı lmasıiçin bu çalı ş ma kapsamı nda geliş tirilen yazı lı m veri toplama iş lemlerini yukarı daki sı raya göre yapmaktadı r. Girdi olarak okunan kitap isimlerine göre google web servislerini kullanarak kitapla ilgili web siteler veri tabana indirilirler. Bu iş lemler doğal olarak uzun sürmekteler. İ lk teste altısı nı f ve her bir sı nı fa ait sekiz kitapla, 46 elemanlıbir set oluş muş tur. 46 kitap için 50 ş er web site yani 2800 tane web dokümanıtespit edilip veri tabanı na kaydedilmesi gereklidir. İ kinci teste ise yerel veri tabanı na 10 sı nı f, her sinifa ait 14 kitap ve toplam 10x14x50 = 7000 web dokümanıkaydedilmekte. Burada önemli bir nokta web dokümanları n yazı lı m tarafı ndan sadece HTML kodlarıolarak veri tabanı na transfer edilmeleridir. İ lk testin sonucunda oluş an veri tabanıboyutu yaklaş ı k 70 MB dı r. 3.2.1.7 Gürültü Temizliği ve Öniş lemler İ nternet aracı lı ğıile elde edilen sonuçlar birer web site olduklarıiçin bir sonraki adı mda bu web siteler bir öniş lemden geçmektedirler. Web siteler sadece düz metinden oluş mazlar, içlerinde resimler, video görüntüler, reklâmlar, banerler vs. bulunmaktadı r. Metin dı ş ı ndaki veriler bizim için bu çalı ş ma acı sı nda gürültü sayı lmaktadı r. Gürültüden siteyi arı ndı rma iş lemi veri temizleme iş lemidir ve birçok yöntem geliş tirilmiş tir. Genel olarak gürültü temizliği iki iş lemden oluş ur: 1) metin dı ş ı ndaki verilerin elenmesi 2) ve HTML kodları ndan arı ndı rı lması . 66 Gürültü temizliğ i gerçekleş tirdikten sonra kalan saf metnin içinde de istenilmeyen veriler vardı r. Bunlar noktalama iş aretleri (nokta, virgül, soru iş areti), İ ngilizcede stop words olarak tanı mlanan kelimeler (ve,veya, evet hayı r, vs), konuyu ilgilendirmeyen kelimeler, vs. Bu çalı ş mada yapı lan öniş leme, noktalama iş aretlerinin ve stop wordları n çı karı lması ndan oluş maktadı r. Herhangi bir iş lemde veri içindeki gürültü, sonuçları n beklenenin çok altı nda olması na sebep olmaktadı r. Metin madenciliğ i yapı sal olmayan verilerle çalı ş tı ğıiçin gürültüye ve istenmeyen sonuçlara açı ktı r. Metin madenciliği tekniklerinin baş arı sı gürültünün azaltı lması oranı nda değiş mektedir. Yani daha iyi öniş leme metodu sonuçları nı n daha iyi olması na sebep olmaktadı r. Yazı lı mda önceki adı mlarda elde edilen binlerce web site bu öniş lemlere tabi tutulurlar. İ lk önce HTML formatı nda olan doküman HTML Parser adı nı verdiğ im nesne tarafı ndan HTML kodları ndan arı ndı rı lı r. Burada html kodları n tespit edilmesi için regular expression isimli string iş leme metotları kullanı lmaktadı r. Elde edilen düz metinden de ikinci aş amada stop kelimeler ve noktalama iş aretleri çı kartı lı r. Geriye kalan kelime seti de içerik veri tablosundaki eski yerine yazı lı r. Şekil 3.22 de bu iş lemin algoritmasıgörülmekte. 67 Baş la İ çerik tablosundan web doküman içeriğ ini oku Web içeriğ inden HTML kodlarısil Web içeriğinden stop kelimeleri ve noktalama iş aretleri sil İ çerik tablonun sonuna ulaş ı ldımı ? Hayı r Evet Bitir Şekil 3.22 Web sitelerin madenciliğe uygun hale getirilmesi algoritması 68 3.2.1.8 Kelime Vektörün Oluş turulması İ nternetten, arama motoru ile elde edilen web siteleri kaydedilip, gürültüden arı ndı rı lı p öniş lemlerden geçirildikten sonra elimizde düz metin kalmaktadı r. Ancak bu haliyle metin henüz madencilik için uygun değildir. Bir sonraki aş amada metin bir temsil modeli ile madencilik için uygun hale getirilmelidir. En basit ve sı kça kullanı lan metin temsil modeli kelime-vektör temsilidir (baş ka bir ismiyle kelime-çuvalıbag-of-words representation) . Fikir gayet basittir metinden kelimeler sı ra ve yapıgözetmeksizin bir çuvala atarcası na toplanmaktadı r. Her bir kelime için kelime-vektöründe o kelimenin metin içinde tekrarlanma sayı sıtutulur. Bu model en basit olması na rağmen uzun metinlerde en iyi temsil yöntemidir. Kelime vektörü modelinin yetersiz kaldı ğıproblemlerde model geliş tirilmiş tir; mesela tek kelime yerine kelimeler ikiş er ya da üçer olarak gruplanmı şve o ş ekilde kelime-vektörüne yerleş tirilmiş lerdir. Bazıuygulamalarda bu temsilerin ötesinde metnin cümle yapı sı na göre temsil modelleri geliş tirilmiş tir. Çalı ş mamı zda kelime-vektörü temsili yeterli olacaktı r. Yetmemesi durumunda hybrid bir yönteme baş vurulacak. Kelime- vektörü temsil modelinin tez çalı ş ması na uygulanması nıgenel hatları yla açı klayalı m. Her bir kitap için web sayfaları ndan elde edilen düz metinler birleş tirildikten sonra içlerinde geçen kelime sayı sıbinlerce hatta on binlerce olabilir. Bu sayı yıazaltmanı n yöntemleri mevcuttur. Genelde 3 harften kı sa kelimeler atı lı r, yada konuyla ilgi olup olmadı klarıincelenir. Bu çalı ş madaki kelimeler dokümanlar içinde bulunma frekansları na göre sı ralanarak, en yüksek frekansa sahip ilk n tanesi seçilerek kelime-vektör temsili oluş turulmaktadı r. Sı nı flama iş lemine baş lamadan önce son adimdir kelime vektör oluş turulması . Teorik esaslarıönceki bölümlerde verilen bu iş lem burada sadece uygulama açı sı ndan incelenecek. Önceki adı mlardan geriye her bir kitap için kalan birer kelime seti, bu adı mda uygun iş lemler ile ağı rlı klarıhesaplanı p birer sayı sal değere dönüş türülmeleri gerek. Şekil 3.22 de bu adı mda uygun yazı lı m tarafı ndan gerçekleş tirilen algoritma görülmekte 69 Baş la Her bir dokuman için kelime setini veri tabanı ndan oku Dokumanda bulunan her bir t terimi için Tf ve iDf i hesapla (1log 2 tf ta )log 2 wta {0 Bütün dokümanlar okundu mu? N dft Hayı r Evet Bitir Şekil 3.22 Terim seçme ve ağı rlı klandı rma ş emasıalgoritması Burada ağirlı k değeri hesabı nda kullanı lan yöntem TFIDF olarak bilinen ve yaygı n kullanı lan yöntemdir. (1log 2 tf ta )log 2 wta {0, N dft Bu çalı ş mada terim seçme ş emasıolarak sunulan Bulanı k terim seçme yönteminden elde edilen çı kı şdeğeri yukarı daki formülde dft yerine konulabilir. Bu da terim ağı rlı klandı rma da bir yeniliktir, ancak verimi hakkı nda henüz yeteri kadar bilgi edinilmemiş tir. Daha önce de bir çok yerde vurgulandı ğıgibi dokümanları n kelime seti oluş turulduğunda çok sayı da kelime kalmaktadı r. Bu çalı ş mada ilk aş ama kelime 70 yani terim filtreleme olarak 4 harften kı sa kelimelerin ve harf ile baş lamayan kelimelerin elenmesidir. Ancak bu iş lem de kelime sayı sı nı n istenilen sı nı rlarda olması nı sağ layamamaktadı r. Teorik bilgiler arası nda bu durumlar için geliş tirilmişterim eleme ş emalarıanlatı lmaktadı r. Bu çalı ş mada terim elem için çi kare metodu ve bu çalı ş ma kapsamı nda önerilen yeni Bulanı k terim seçme ş eması kullanı lmı şve sonuçlarıtest edilmiş tir. Önerilen yeni ş ema daha sonraki bölümde daha ayrı ntı lıincelenecek. Çi kare testi teorik bilgilerde ayrı ntı lıaçı klanmı ş tı r. Uygulamada kullanı lma ş ekli ise her bir terim için çi ağı rlı klandı rma ile bir değer üretilir ve en yüksek değere sahip ilk 100 terim dokümanıtarif edecek terimler olarak seçilmekteler. Terim seçme iş lemini gerçekleş tiren modülün kullandı ğıalgoritma ş ekil 3.23 da görülmekte. Bu algoritmada kullanı lacak terim seçme ş eması belirlenmeden genel bi algoritma tanı tı lmakta. Yazı lı mda seçilen ş ema parametre olarak verilir ve seçime göre bir çı kı şelde edilmektedir. Baş la Kitap tablosundan kitap ismi oku Kitap ismini kullanarak uygun sorgu oluş tur Sorguyu Google gönder Gelen cevaplar arası nda ilk 50 tanesini Link tablosuna kaydet Kitap veri tablonun sonuna ulaş ı ldımı ? Hayı r Evet Bitir Şekil 3.23 Terim seçme ve ağı rlı klandı rma ş emasıalgoritması 71 Bu aş amada yazı lı m bir önceki adı mdan seçilmişterim eleme yönteminden gelen terimler ve bunarlı n ağı rlı k değerlerinden 46 kitap için sayı sal değerler içeren 46 tane vektör oluş turmakta ve bunlarıbir dosyaya kaydetmektedir. Bu dosya sonradan Matlab yazı lı mı na aktarı larak sı nı flama modeli kurulmaktadı r. 3.2.1.9 Sı nı flama İ ş lemi Kelime vektörleri oluş turulduktan sonra metin madenciliğ i teknikleri uygulanarak çalı ş manı n amacıyerine getirilmektedir. Sı nı flanacak nesneler (kitaplar) sı nı flara (edebiyat türleri) otomatik atama iş lemi bir metin madencilik sı nı flama algoritmasıolan destek vektör makineler ile yapı lamaktadı r. Bu yöntem sı nı fları n önceden bilinmesi durumunda kullanı ldı ğı ndan ve özellikle de çok boyutlu yapı larla iyi performans gösteren bir sı nı flandı rma yöntemi olduğu için seçilmiş tir. Destek vektör makineleri bir öğrenme metodudur. Çekirdek tabanlı doğrusal olmayan sı nı flandı rı cı ları n sinyal iş leme, yapay öğrenme ve VM alanı ndaki pratik problemlerde iyi sonuçlar verdiği bulunmuş tur. Matlab yazı lı mı için geliş tirilmişaçı k kodlu ve birçok makalede en iyi SVM implementasyonu olarak tavsiye edilen Lİ BSVM toolbox u sı nı flama iş lemlerinde kullanı lmaktadı r. (http://www.csie.ntu.edu.tw/c̃jlin/libsvm). Önceki aş amalarda kı taları n birer ağı rlı k değerler vektörleri ile temsileri yapı lmı şve bu veriler bir dosyaya kaydedilmiş tir. Artı k bu verilerin bir kı smı nı n eğitim verisi olarak kullanı larak Lİ BSVM aracıile bir sı nı flama modeli oluş turulur. Sonunda da model rasgele seçilmişkelime vektörleri ile test edilmiş tir. 4.7 Deneyler için geliş tirilen ve kullanı lan yazı lı mlar ve araçlar. Edebiyat eserlerinin web verilerine dayanarak sı nı flandı rma süreci üç temel aş amadan oluş maktadı r: 72 1. Ön hazı rlı k aş aması , analiz surecini kapsamaktadı r. Sadece bu aş ama otomatik değildir ve yazı lı m kullanı lmadan uygulanmaktadı r. 2. Sı nı flama için verilerin Internet ten toplanması , öniş lemler ile sı nı flamaya uygun hale getirilmesi aş aması , tamamen otomatik ve özel olarak bu deneyler için geliş tirilmişyazı lı m ile yapı lamaktadı r. 3. Terim seçme ve ağı rlı klandı rma aş aması , tamamen otomatik ve aynı yazı lı m ile gerçekleş tirilmektedir. 4. Sı nı flama modelin oluş turulmasıve test edilmesi, Matlab ve Lİ BSVM isimli sı nı flama aracıile otomatik yapı lmaktadı r. Matlab yazı lı mıiçin geliş tirilmişLİ BSVM bir SVM sı nı flama aracı dı r. Bu araç seti verilerin bir dosyadan Matlaba aktarı lması nı , aktarı lan verilerden sı nı flama modelinin kurulması nıve test edilmesini sağlamaktadı r. Sı nı flamanı n gerçekleş tirilmesi için gereken verilerin internete tespit edilip, yerel veri tabana aktarı lması , gereken öniş lemlerin uygulanması , metinin terim seçme ve eleme ş emaları nı n uygulanmasıiş lemlerini bir yazı lı m aracı lı ğ ıile yapı lmaktadı r. Yazı lı m deneysel çalı ş malar için, Microsoft un. NET 2.0 ve VS2005 yazı lı m geliş tirme ortamı nda geliş tirilmiş tir. Yukarı da anlatı lan çalı ş ma sürecin her adı mıiçin uygun sı nı flar yazı larak tam modüler ve para metrik bir yazı lı m geliş tirilmiş tir. Web den gereken site adreslerinin tespit edilmesi için google web servisleri kullanı lmaktadı r. Web site içeriklerin veri tabana kaydedilmesi için html protokolünü gerçekleş tiren uygun C# yazı lı m dili sı nı fları kullanı larak veri tabanı na sadece html kodlar aktarı lmaktadı r. Web site içerikleri Html Parser adıverilen bir sı nı f ile Html kodlardan arı ndı rı lmakta. Bulanı k mantı k terim seçme ve ağı rlı klandı rma ş emasıise Matlab Fuzzy Toolbox ile gerçekleş tirilmiş tir. 73 3.2.2 Bulanı k Terim Seçme Şeması(B-TSŞ) 3.2.2.1 Genel bilgi Terim seçme ve ağı rlı klandı rma ş emalarıhakkı nda teorik bilgi bu metnin 3.1.5 numaralıbölümde ayrı ntı yla verilmektedir. Bunun yanı nda mevcut olan ş emalar hakkı nda eleş tiri metnin üçüncü bolümün sonunda verilmektedir. Tez kapsamı nda yapı lan sı nı flama görevi için ön iş lem olarak kullanı lan terim seçme ş emalarıaraş tı rı lmı ş tı r. Birçoğ unun probleme özgü değil de istatistik yöntemlerinin özelik seçme iş lemine uyarlanmı şhalidir. Buna karş ı n değ iş ik araş tı rmalar ideal terim seçme ş eması nısöyle tanı tmaktadı r: İ deal terim seçme ş emasıya da algoritmasıprobleme özgü kurulmuşolandı r. Bu algoritma sı nı flamayıen verimli sonuca yaklaş tı racak terimlerin bir alt kümesini seçip uygun bir ağ ı rlı klandı rma gerçekleş tirmelidir. Metin madenciliğinde terim seçme ve ağı rlı klandı rma algoritmalarıdokümanları n birbirlerinden farklı lı kları nıortaya çı karacak terimleri seçmeyi amaçlarlar. Bulanı k mantı k sistemlerin en büyük avantajı bilirkiş ilerin öznel bilgilerini kullanabilmeleridir. Bilirkiş ilerden alı nacak bilgiler ile girişçı kı şüyelik fonksiyonlarıve kural tablosu oluş turulur. Bu parametrelere göre bulanı k sistemler bir çı kı şvermekteler. Bulanı k sistemlerin terim seçme da kullanı labilir, sonucuna ulaş abiliriz bu noktada. Terim ağı rlı klandı rma için ise dolaylı kullanı labilirler. Bulanı k sistemlerde üyelik fonksiyonları n probleme göre uyarlamakla terim seçme ş emaları n probleme özgü olmalarısağlanı r. Bu çalı ş mada metin madenciliği yöntemlerinden olan sı nı flama tekniğ i kullanı lmı ş tı r. Her bir dokümanıtarif eden birer terim kümesi oluş turulmuş tur. Sı nı flamanı n baş arı lıolmasıiçin bu terim kümelerini oluş turan terimler, dokümanları bir birinden ayrı ş tı racak ve özeliklerini yansı tacak ş ekilde seçilmeleri lazı m. 74 Dokumanlar genelde yüzlerce farklıterimden oluş urlar. Bu da doküman terim uzayı nda gösterilecek iki doküman setinin binlerce elemanıoluş turması na sebep olmaktadı r. Şekil 3.24 de ideal ve Şekil 3.25 de gerçek doküman – terim uzayı ndaki terim dağı lı mı nıgörebilmekteyiz. Şekil 3.24 Doküman – terim uzayı nda İ deal terim dağı lı mı Şekil 3.25 Doküman – terim uzayı nda Gerçek terim dağı lı mı Şeklilerden de anlayabileceğimiz gibi dokümanlarıtarif eden terimler çok sayı dadı rlar. Bütün bu terimlerle sı nı flamayıgerçekleş tirmek imkânsı zdı r, ayrı ş tı rı cıdüzlem bulunamaz. Bir çözüm terimlerin dokümanlarıayrı ş tı racak 75 ş ekilde seçmektir. Şekil 3.26 de iki dokümanıayrı ş tı racak bir düzlem bulunacak ş ekilde terim seçimi yapı lmı ş tı r. Şekil 3.26 Terim seçimi Terimlerden sı nı flamayıkolaylaş tı racak olanlarıseçmek terim seçimi ve ağı rlı klandı rma ş emaları nı n amacı dı r. Bu çalı ş mada değiş ik terim seçme ağı rlı klandı rma ş emalarıuygulandıve ayrı ca bir de yeni bir ş ema denendi. Önerilen ş emanı n temelinde yatan mantı k bir kaç varsayı mdan yola çı kı larak bulunmuş tur: ”Bir D dokümanı nda bulunan t terimi, D dokümanı nda çok tekrarlanı yor ve diğer dokümanlarda az tekrarlanı yor ise t terimi D dokümanıiçin önemlidir”. “Bir t terimi bir doküman setinde bulunduğu doküman ve bulunmadı ğıdoküman sayı larıkarş ı laş tı rı ldı ğı nda terim ayrı ş tı rı cı lı ğıhakkı nda bilgi verir, öyle ki bir dokuman seti olsun, bu setin içinde de belli dokuman kategorileri olsun, bir kategori deki D dokumanıiçinden seçilen bir terim, bu kategoride doküman frekansıdüş ük diğer kategorilerdeki toplam dokuman frekansıyüksek ise bu terim ayrı ş tı rı cıbilgi taş ı r ve seçilmesi lazı m ”. 76 Yukarı da sayı lan ve örnekleri çoğaltı labilen varsayı mlar ve kurallar ile bir bulanı k sistem kurulabileceğ inden, bir Bulanı k Terim ağı rlı klandı rma ş eması tanı mlanı p denendi bu çalı ş mada. 3.2.2.2 Şemanı n yapı sı Bulanı k sistemler, gerçek girişve çı kı şdeğerleri ile çalı ş ı rlar. Giriş değerlerini girişfonksiyonlarıile bulanı klaş tı rı rlar, çı kı şdeğerlerini durulaş tı rı cı adıverilen bir yöntem ile gerçek değere dönüş türler. Şekil 3.27 de B-TAŞiçin tasarlanan bulanı k sistem verilmekte. Şekil 3.27 B-TSŞiçin Bulanı k Sistem Önerilen bulanı k sistemi 2 girişve bir çı kı ş ıvardı r. Her bir terim için ağı rlı k değeri bu sistem sayesinde hesaplanacak. Bir t terimi için 2 değer belirlenecek. Birincisi, terimin bulunduğu dokümandaki tekrarlanma sayı sıyani terim frekansı , ikinci değer ise t terimin bulunduğu dokuman sayı sıyani doküman frekansı . Çı kı şdeğeri ise bulanı k sistemden alı nacak ve t terimin hesaplanan ağı rlı k değeri olacak. Şekil 3.27 görünene B-TSŞş emasıŞekil 3.28 de bu yeni bilgilerle tamamlanmaktadı r. 77 Şekil 3.28 B-TSŞiçin Bulanı k Sistem B-TSŞ için bulanı k sistemi genel hatlarıtanı tı ldı . Metnin devamı nda bulanı klaş tı rma ve durulaş tı rma iş lemlerini gerçekleş tirmek amacı yla kullanı lan girişve çı kı şüyelik fonksiyonlarıincelenecektir. 3.2.2.3 Üyelik fonksiyonlar Bulanı k sistemler giriş değerlerini bulanı klaş tı rmak için üyelik fonksiyonları nıkullanı rlar. B-TSŞsisteminde iki girişverisi tanı mlamı ş tı k. İ lki kategorideki doküman frekansı , ikincisi ise diğer kategorilerdeki toplam dokunma frekansı dı r. Kategori içindeki doküman frekans değ erini bulanı klaş tı racak giriş Şekil 3.28 da görülmekte. Şekil 3.28 Kategori içi doküman frekansı 78 Kategori içi dokuman frekansı nıbulanı klaş tı ran ve ş ekil 3.29 da görünen üyelik fonksiyonlar, düş ük frekans orta frekans ve yüksek doküman frekansıolarak tanı mlanmı ş lardı r. Şekilde görünen grafik ilk testini yaptı ğı mş emadan alı nmı ş tı r, ondan dolayı8 ş ayisi en yüksek değer olarak tanı mlanmı ş tı r. Normal bir uygulamada üyelik fonksiyonları n sı fı r noktalarıprobleme özgü tanı mlanmalı lar. Bu örnekte bir kategoride 8 tane kitap bulunduğ undan kategori içi en büyük değer 8 olabileceğ inden üyelik fonksiyona bu değer atandı . Şekilde görüldüğü gibi frekans değeri 0-3 arasıise düş ük, 1-7 arasıorta ve 5-8 arasıyüksek kabul edilecek. Bu değerler bu uygulamada uygun oldukları göründüklerinden bunlar tavsiye edilmekteler. Ancak baksa uygulamalarda bu parametreler uygun sonuç bulunana kadar değiş tirilmeleri lazı m. Şekil 3.29 Kategori dı ş ıtoplam doküman frekansı İ kinci bulanı klaş tı rı lacak girişdeğeri kategori dı ş ıtoplam doküman frekansı dı r. Bu uygulamada 6 tane sı nı f ve her sı nı fa ait 8 er kitap belirlenmiş tir. C kategorideki t terimi için hesaplanacak bu ikinci değer, söz konusu C kategori dı ş ı ndaki bütün kategoriler de t terimin bulunduğu doküman sayı sı dı r. C dı ş ı ndaki 5 kategoride 8 er kitap 40 değerini vermektedir. Bu yüzden bulanı klaş tı rı cıüyelik fonksiyonlarıda en yüksek değer olarak 40 değ erini alabilmekte. Girişdeğeri 0-15 arası nda ise düş ük frekans, 5-35 arasıorta frekans ve 25-40 arası da yüksek frekans olarak değerlendirilmektedir. 79 Çı kı şdeğeri olarak bulanı k sitemden alı nacak bulanı k değer çı kı şüyelik fonksiyonu ile elde edilir. Bu değer 0-1 arasıbir terim seçme ağı rlı k değeri olarak tasarlandı . Şekil 3.30 Terim seçme Ağı rlı k değeri için üyelik fonksiyonları Şekilde iki üyelik fonksiyonu görünüyor. Çı kı ş olarak seçilen fonksiyonları n ilki düş ük terim seçme ağı rlı ğı nıtemsil eder ve yapı sıda sonucun sı fı r değerine yakı nsayacak ş ekilde seçilmiş tir. Diğer üyelik fonksiyonu ise yüksek terim seçme ağı rlı ğı nıtemsil etmektedir. Çı kı şdeğeri yükselirken ağı lı k değeri de bire yakı nsamasılazı m olduğu için fonksiyon da eğriliği ile bu koş ulu gerçekleş tirmektedir. 1.2.2 Kural tablosu Bulanı k sistemlerin en önemli elemanıkural tablosudur. Bu tablo, giriş değerleri ve bunarlı n üyelik fonksiyonları nda aldı klarıdeğerler ile çı kı şüyelik fonksiyonları nda haritalanacaklarıdeğerler, eğer-ise kuralarıile tanı mlandı kları bir tablodur. Bulanı k terim seçme sisteminde tanı lanan eğer ise karaları listelemeden önce g1 ile kategori içi frekansıyani birinci giriş , g2 ile kategori dı ş ı dokuman frekansıyani ikinci giriştanı mlansı n. Eğer g1 = düş ükF ve g2 = düş ükF ise ağı rlı k = düş ükA Eğer g1 = düş ükF ve g2 = ortaF ise ağı rlı k = yüksekA Eğer g1 = düş ükF ve g2 = yüksekF ise ağı rlı k = yüksekA Eğer g1 = ortaF ve g2 = düş ükF ise ağı rlı k = yüksekA 80 Eğer g1 = ortaF ve g2 = ortaF ise ağı rlı k = düş ükA Eğer g1 = ortaF ve g2 = yüksekF ise ağı rlı k = yüksekA Eğer g1 = yüksekF ve g2 = düş ükF ise ağı rlı k = yüksekA Eğer g1 = yüksekF ve g2 = ortaF ise ağı rlı k = yüksekA Eğer g1 = yüksekF ve g2 = ortaF ise ağı rlı k = yüksekA Eğer g1 = yüksekF ve g2 = yüksekF ise ağ ı rlı k = düş ükA Kı saca bu kuraları n ne anlama geldiklerine bakacak olursak daha önce terim seçme ş emaları nda kullanı lan fikri bulabiliriz. Bir terim bir kategoride az tekrarlanı yor ancak diğer kategorilerde çok tekrarlanı yor ise bu terim ayrı ş tı rı cı değer taş ı maktadı r ve terim seçme ağ ı rlı ğıyüksek olmalı dı r. Diğer yandan bir terim kategoride çok tekrarlanı yor ancak diğer kategorilerde de aynen çok tekrarlanı yor ise o zaman bu terim ayrı ş tı rı cıdeğer taş ı mamaktadı r ve terim seçme ağı rlı ğıolan çı kı şdeğeri de düş ük olması dı r. 3.2.2.4 Durulaş tı rma Bulanı k sistemin durulaş tı rı cıyöntemi için, durulaş tı rma metotları ndan “Ağı rlı klıOrtalama Yöntemi” kullanı lmı ş tı r. Bu yöntem en çok kabul gören yöntemlerden biridir. ü Z ü(n) 81 Çözüm uzayı Şekil 3.31 de görünen grafik problem için kurulan deneme bulanı k sistemin çözüm uzayı nıtemsil etmektedir. Şekil 3.31 Bulanı k sistemin çözüm uzayı 3.2.2.7 Bulanı k sistem için bir örnek Kurulan bulanı k sistemin daha kolay anlaş ı lmasıve bir örnekle test edilmesi için birkaç giriş için elde edilecek çı kı ş ı inceleyelim. İ lk örnek için C kategorisinde bulunan D dokümanı nda t terimi için C kategorisinde bulunduğu dokuman sayı sıyani dokuman frekansı7 olsun, ve diğer kategorilerin toplamı nda bulunduğ u dokuman sayı sıda 5 olsun. 82 Şekil 3.32 Girişdeğerlerine göre elde edilecek çı kı şdeğer örneği Şekil 3.32 da birinci değer 7olarak verildiği görünüyor. Bu değer yüksek frekans üyelik fonksiyonunu ve orta frekans isimli üyelik fonksiyonu kesmektedir. Diğer girişdeğeri ise 8 olarak seçilmiş ti, bu da kategori dı ş ıdeğiş keninde düş ük frekans üyelik fonksiyonu ve orda frekans isimli üyelik fonksiyonu kesmektedir. Durulaş tı rma iş lemi sonrası nda elde edilen çı kı şdeğeri 0.668 dı r. Girişdeğerleri 7 ve 8 olarak seçilen giriş ler terimin bulunduğu kategoride çok tekrarlanı yor diğer kategorilerin toplamı nda az tekrarlandı ğı nıtemsil etmektedir. Beklenen çı kı şdeğ eri orta ve biraz üstünde bir çı kı şdeğeridir, elde edilen değer de 0.668 dir. Giriş lerin arası ndaki fark büyüdükçe çı kı şdeğeri de yükselmektedir ve tam tersi. Bu da tam istenilen bir ağı rlı klandı rma dı r. 3.2.2.8 Önerilen yeni ş emanı n avantajlarıve dezavantajları Çalı ş mada önerilen yeni terim seçme ş eması nı n en büyük avantajıbulanı k sisteme dayanmasıve probleme özgü uyarlanmasıkolaylı ğı dı r. Bulanı k sistemleri tanı mlayan üyelik fonksiyon ve kural tabloları n değiş imiyle sistemin istenilen sonuçlarıvermesi sağlanı r. Bu da ideal bir terim seçme ş eması nı n ön ş artı dı r. 83 Bulanı k terim seçme ş eması nı n ağı rlı klandı rma için kullanı labilmesi de mümkündür. TFIDF isimli ve terim frekansıçarpıters dokuman frekansıolan ş emada ikinci elemanıBulanı k terim seçme çı kı şdeğeri olan ağı rlı kla değiş tirsen yeni bir terim ağ ı rlı klandı rma elde edilir. wi , j tfi , j x log( N ) df i Burada dfi elemanı nıbulanı k sistem çı kı ş ıolan terim seçme ağı rlı ğıile yer değiş tirebiliriz. Sonuçta önerilen yeni ş emanı n formülü : wi , j tfi , j x log( N ) tsAi, j Deneysel çalı ş malarda istenilen sonuçlar elde edilememiş tir. Gelecek çalı ş malarda bunun nedeni araş tı rı labilir. Önerilen yeni terim seçme ş eması nı n en büyük dezavantajıvar olan yöntemlerden hesaplanabilirliği daha yüksek ve benzer sonuçlar vermesinde. Yeni ş emanı n bu çalı ş ma kapsamı nda sadece iki defa test edilmesi mümkün olmuş tu. Daha büyük ve verimli testlerle bu ş emanı n gerçek değeri anlaş ı labilir 84 4 SONUÇ Bu çalı ş ma da web verilerine dayanarak edebiyat eserlerin sı nı flaması gerçekleş tirilmiş tir. Deneysel çalı ş malar ile web sitelerde bulanan verilere göre bir sı nı flamanı n gerçekleş tirilmesi mümkün olduğu gösterilmiş tir. En iyi sonuçlar “kitap ismi” + book + review –amazon.com –pdf sorgu ile elde edilmiş tir. Deneylerden elde edilen bir baş ka ilginç sonuç ise sadece 2 tane eğitim örneği ile %70 lik baş arıgösteren sı nı flama modelinin gerçekleş tirilebilmesidir. Terim seçme yöntemlerinden 2 kare ile en iyi sonuçlar elde edilmiş tir. 2 Ayrı ca bu çalı ş mada geliş tirilen bulanı k terim seçme ş emasıile de kareye yakı n sonuçlar elde edilerek hibrid sistemlerin de kullanı labileceği gösterilmiş tir. Ancak bu çalı ş manı n web de bulunan verileri kullanması ndan dolayıbazı sı nı rlamalar da tespit edilmiş tir. En büyük sı nı rlama edebiyat eserlerini tarif edecek web sitelerin elde edilmesi için kullanı lan arama motorları nı n bulduğu sitelerde problemle ilgili verilerin bulunup bulunmadı ğı nı önceden bilemememizdir. Edebiyat eserlerini yukarı daki sorgu ile sorguladı ğı mı zda karş ı mı za gelen siteler genelde çevrimiçi satı şyapan web sitelerdir. Bu sitelerin içerisinde kitabi tarif eden bilgiler diğer konu ile ilgili olmayan kelimeler sayı sı yla kı yasla çok azdı rlar. Örneğin en yüksek ağı rlı ğıolan kelimeler, items, books, order gibi kelimelerdir, sebebi ise bu kelimelerin en çok defa tekrarlanmaları dı r. Bütün bu problem ile ilgisi olmayan kelimeler sı nı flamayıyanı ltan faktörlerdir. 2 Bu kelimelerin elenmesi için kare testi kullanı lmı şve ayrı ca da bulanı k mantı k sistemini temel alan yeni bir terim eleme metodu tanı tı lmı ş tı r. Burada önemli bir baş ka sonuç da önerilen yeni terim seçme ve ağı rlı klandı rma ş emanı n diğer denenen ş emalar ile yakı n sonuçlar verebilmesidir. 85 6 sı nı f ve her bir sı nı f için 8 er kitaptan oluş an test kümesi ve bir kaç farklı terim eleme ve ağı rlı klandı rma ş emasıile aş ağı daki sonuçlara ulaş ı ldı . Burada t ve d ile sı nı flama modelin kaç tane eğ itim ve test örneğ i ile kurulup test edildiği gösterilmekte. Terim seçme t2-d6 ş eması/ test ve eğitim örnek sayı sı tf*idf 16.6667% (500 özellik) (2/12) 2 83.3333% kare (10/12) (100 özellik ) Bulanı k terim 75% eleme ş eması (9/12) (100 özellik) Tablo 4.1 Sı nı flama sonuçları . t4-d4 t6-d2 20.8333% (5/24) 87.5% (21/24) 27.7778% (10/36) 77.7778% (28/36) 89.333 (20/24) 72.222 (26/36) 86 KAYNAKLAR Agrawal, R., Imielinski, T. and Swami, A., May 1993, Mining association rules between sets of items in farge databases, In ACM SIGMOD Conf. Management of Data. Almuallim, H. and Dietterich, T., 1991, Learning with many irrelevant features, In Proceedings of AAI 91, (Menlo Park, CA), AAAI Press, pp. 547552. Alpaydı n, E., 1999, Zeki veri madenciliği: Ham veriden altı n bilgiye ulaş ma yöntemleri, www.cmpe.boun.edu.tr/~ethem/files/papers/verimaden_2k-notlar.doc . Askerzade, L., 2001. Toward a Perception-based Theory of Probabilistic Reasoning with İ mprecise Probabilities. Journal of Statistical Planning and İ nference 105 (2002) 233-264. B. How and K.Narayanan, Categorical term descrtiptor: A proposed term weighting shememe for fuature selection, in The 2005 IEEE/WIC/ACM International Conference on Web Intelligence [WI 2005], France, 2005, pp. 313-316 Belen, E. Özgür, Ç. ve Özakar, B., 2003. WALA : Web Erisim Kütük Arastı rmacı sı . Türkiye Bilisim Dernegi 3. Bilisim Haftası , _stanbul. http://kurultay.tbd.org.tr/kurultay20/Bildiriler/Belgin_Ozakar/bildiri.pdf C. D. Manning and H. Sch¨utze. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, 2001 C. J. van Rijsbergen. A non-classical logic for information retrieval. The Computer Journal, 29(6):481–485, 1986. Chan, K. C. C. and Wong, A. K. C., 1991, A statistical technique for extracting classifı catory knowledge from databases, In Knowledge Discovery In Databases (G. Piatetsky-Shapiro and W. J. Frawley, eds.), pp. 107-123, Cambridge, MA: AAAI/MIT. Corinna, C., Drucker, H., Hoover, D. and Vapnik, V., Capacity and complexity control in predicting the spread between harrowing and lending interest rates, In The First International Conference on Knowledge Discovery and Data Mining (U. Fayyad and R. Uthurusamy, eds.), (Montreal, Quebec,Canada), pp. 51-76, aug 1995. Cross industry standard process for data mining. http://www.crispdm.org/, 1999. 87 D.D. Lewis and M. Ringuette. Comparison of two learning algorithms for text categorization. In Proceedings of the Third Annual Symposium on Document Analysis and Information Retrieval (SDAIR'94), 1994. Deogun, J. S., Raghavan, V. V. and Sever, H., 1995, August, Exploiting upper approximations in the rough set methodology, In The First International Conference on Knowledge Discovery and Data Mining (U. Fayyad and R. Uthurusamy, eds.), (Montreal, Quebec, Canada), pp. 69-74. Dunham, M.H. 2003. Data Mining Introductory and Advanced Topics. Prentice Hall, New Jersey, 5-19 P, 195-220 P. E. Leopold and J.Kindermann, Text weighting and ranking with support vector machines. How to represent text in input space? Machine Learning, 46 (2002), pp. 423-444. E. Wiener, J.O. Pedersen, and A.S. Weigend. A neural network approach to topic spotting. In Proceedings of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95), 1995. E.Chisholm and T. Kolda, New term weighting formulas for the vector space method in information retrival, Technical report, ORNL/TM-13765, Computer Science and Mathematics Division, Oak Ridge National Laboratory, (1999) Elder-IV, J. F. and Pregibon, D., 1995, August, A statistical perspective on KDD, In The First International Conference on Knowledge Discovery and Data Mining (U. Fayyad and R. Uthurusamy, eds.), (Montreal, Quebec, Canada), pp. 87-93. Elmas, Ç., 2003. Bulanı k Mantı k Denetleyiciler. Seçkin Yayı ncı lı k San. Tic. A.Ş. Etzioni, O. 1996. The World Wide Web: Quagmire or gold mine. Communications ofthe ACM, 65-68. http://www.cs.washington.edu/homes/etzioni/papers/cacm96.pdf Fayyad, P. S. U. M., Piatetsky-Shapiro, G. and Uthurusamy, R., 1996a, Advances in knowledge discovery and data mining, Cambridge, MA: Mİ T Press. Fayyad, P. S. U. M., Weir, N., Djorgovski, S.G., 2000, Mart 22, Automated analysis of a large-scale sky survey: The SKİ CAT System, http://techreports.ipl.nasa.gov/1993/93-0597.pdf . Fayyad, P.S.U. M., Piatetsky-Shapiro, G. , 1996b, The KDD process for extracting useful knowledge from volumes of data, Communications Of ACM 39, 11, 27-34. 88 Frawley, W. J., Piatetsky-Shapiro, G., Matheus, C. J., 1991, Knowledge discovery databases: An overview, In Knowledge Discovery In Databases (G. Piatetsky-Shapiro and W. J. Frawley, eds.), Cambridge, MA: AAAI/M1T pp. 1-27. G. Salton and C. Buckley. Term weighting approaches in automatic text retrieval. Information Processing & Management, 24(5):513–523, 1988. G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic indexing. Communications of the ACM, 18(11):613–620, 1975. (see also TR74-218, Cornell University, NY, USA). G.Salton and C.Buckley, Term weighting approaches in automatic text retrival, Information Processing and Management, 24 (1988), pp 513-523. Grzymala-Busse, J. W., 1991, On the unknown attribute values in learning from examples, In Proceedings of Methodologies for Intelligent Systerrzs (Z. W. Ras and M. Zeı nankowa, eds.), Lecture Notes in Al, New York: SpringerVerlag, 542, pp. 368-377. Holsheimer, M. and Siebes, A.P J. M., 1994, Data mining: the search for knowledge in databases.,Technical Report CS-R9406, CWJ, P .0. Bo x 94079, 1090 BG Amsterdam, The Netherlands. I. H. Witten, A. Moffat, and T. C. Bell. Managing Gigabytes: Compressing and Indexing Documents and Images. Morgan Kaufmann Publishers, San Francisco, 1999. J. M. G. Hidalgo. Tutorial on text mining and internet content filtering. J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81–106, 1986. J.R. Quinlan. Induction of decision trees. Machine Learning, 1(1):81-106, 1986. J.W. Wilbur and K. Sirotkin. The automatic identication of stop words. J. Inf. ci., 18:45 - 55,1992. K. Sparck-Jones and P. Willett, editors. Readings in Information Retrieval. Morgan Kaufmann, 1997. K. Tzeras and S. Hartman. Automatic indexing based on bayesian inference networks. In Proc 16th Ann Int ACM SIGIR Conference on Re-search and Development in Information Retrieval (SIGIR'93), pages 22-34, 1993. 89 Kenneth Ward Church and Patrick Hanks. Word association norms, mutual information and lexicography. In Proceedings of ACL 27, pages 7683, Vancouver, Canada, 1989. Kira, K. and Rendeli, L., 1992, The feature selection problem; Tradational methods and a new algorithm, In Proceedings of AAAI 92, AAAI Press pp. 129-134. Klir, G.J. and Yuan, B., 1995. Fuzzy Sets and Fuzzy Logic: Theory and Application. Prentice Hall, New Jersey Koyuncu E., (2004), Yeni Matematiksel Kod; Bulanı k Mantı k, Teknolojist, ITU IEEE Lee, S. K., 1992, An extended relational database model for uncertain and imprecise İ nformation, In Proceedings Of The 1sth VLDB conference, Vancouver, British Columbia, Canada, pp. 211-218. Luba, T. and Lasocki, R., 1994, On unknown attribute values in functional dependencies, In Proceedings Of The International Workshop On Rough Sets And Soft Computing, San Jose, CA, pp. 490-497. M. A. Andrade and A.Valencia, Automatic extarction of keywords from scientific text: Aplication to the knowledge domain of protein families, Bioinformatics,14 (1998), pp. 600-607 M. Hearst. Untangling text data mining. In Proc. of ACL’99 the 37th Annual Meeting of the Association for Computational Linguistics, 1999. M.Lan, S.-Y. Sung,H.-B. Low, and C.-L. Tan, A comparative stydy on term weighting schemes for text categorization, in International Join Conferece on Neural Network IJCNN, Montreal, Canada, 2005. Matheus, C. J., Chan, P. K., and Piatetsky-Shapiro, G., 1993, Systems for knowledge discovery in databases, IEEE Trans. On Knowledge And Data Engineering, vol. 5, no. 6, pp. 903-912. MatLab 6.5, Fuzzy logic toolbox. Michalski, R. S. and Stepp, R. E., 1983, Learning from observation: Conceptual clustering, In R. S. Michalski, J, G, Oneli C., and Mite T. M., hell editors, Machine Learning: An Artifîcial Intelligence Approach , Vol 1, Morgan Kaufmann, pp 331-363. N. Fuhr, S. Hartmanna, G. Lustig, M. Schwantner, and K. Tzeras. Air/x a rule-based multistage indexing systems for large subject _elds. In 606-623, editor, Proceedings of RIAO'91, 1991. 90 Özakar, B. ve Püskülcü, H., 2002. Web içerik ve web kullanı m madenciligi tekniklerinin entegrasyonu ile olusmus bir veri tabanı ndan nası l yararlanı labilir?.Türkiye’de _nternet Konferansları -VIII. http://inettr.org.tr/inetconf8/bildiri/119.doc Pawlak, Z., Slowinski, K., and Slowinski, R., 1986, Rough classifı cation of patients after highly selective vagotomy for duodenal ulcer, International Journal Of Man-Machine Studies, vol. 24, pp. 413-433. Peter Knees, Elias Pampalk, Gerhard Widmer, Artist Classification with Web Based Data 1Austrian Research Institute for Artificial Intelligence Freyung 6/6, A-1010 Vienna, Austria 2Department of Medical Cybernetics and Artificial Intelligence Medical University of Vienna, Austria Quinlan, J. R., 1986, Induction of decision trees, Machine Learning, vol. l, pp. 81- 106. R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. Addison Wesley Longman, 1999. R. Fano. Transmission of Information. MIT Press, Cambridge, MA, 1961. R. Feldman and I. Dagan. Kdt - knowledge discovery in texts. In Proc. of the First Int. Conf. on Knowledge Discovery (KDD), pages 112–117, 1995. R. Gaizauskas. An information extraction perspective on text mining: Tasks, technologies and prototype applications. http://www.itri.bton.ac.uk/projects/euromap/TextMiningEvent/Rob_Gaizausk as.pdf, 2003. R.H. Creecy, B.M. Masand, S.J. Smith, and D.L. Waltz. Trading mips and memory for knowledge engineering: classifying census returns on the connection machine. Comm. ACM, 35:4863, 1992. S. Deerwester, S.T. Dumais, G.W. Furnas, and T.K. Landauer. Indexing by latent semantic analysis. Journal of the American Society for Information Sciences, 41:391–407, 1990. S. Dumais, J. Platt, D. Heckerman, and M. Sahami. Inductive learning algorithms and representations for text categorization. In 7th Int. Conf. on Information and Knowledge Managment, 1998. E. Leopold and J. Kindermann. Text categorization with support vector machines. How to represent texts in input space? Machine Learning, 46:423 – 444, 2002. S. E. Robertson. The probability Documentation, 33:294–304, 1977. ranking principle. Journal of 91 Sakiroglu, M. Tug, E. ve Bulun, M., 2003. Web Log Dosyaları ndan Genetik Algoritma Yöntemiyle Sı ralıErisimlerin Tespit Edilmesi.Türkiye Bilisim Dernegi, 3. Bilisim Haftası , _stanbul. http://kurultay.tbd.org.tr/kurultay20/Bildiriler/Merve_Sakiroglu/bildiri.pdf Shapiro, G. P. and Matheus, C. J., 1992, Knowledge discovery workbench for exploring business databases, International Journal of Inteldigent Systems, vol. 7, pp. 675-686. Simoudis, E., October 1996, Reality check for data mining, In IEEE Expert: Intelligent Systems and Their Applications , pages ll(5):26-33. T. Joachims. Text categorization with support vector machines: Learning with many relevant features. In C. Nedellec and C. Rouveirol, editors, European Conf. on Machine Learning (ECML), 1998. Takcı , H. ve Sogukpı nar, 2002. Erisim Desenleriyle Saldı rıTespiti. Bilgi Teknolojileri Kongresi, Pamukkale Üniversitesi, 6-8 Mayı s 2002, Denizli. Text mining summit conference brochure. http://www.textminingnews.com/, 2005. Tom Mitchell. Machine Learning. McCraw Hill, 1996. Tsoukalas, L.H., 1997. Fuzzy and Neural Approaches in Engineering. John Wiley and Sons, İ nc. Publication, Canada. Tutorial Notes Online: http://ecmlpkdd.cs.helsinki. fi/pdf/hidalgo.pdf, 2002. U. Nahm and R. Mooney. Text mining with information extraction. In Proceedings of the AAAI 2002 Spring Symposium on Mining Answers from Texts and Knowledge Bases, 2002. Vahaplar, A. ve İ nceoglu, M.M. 2001. Veri Madenciligi ve Elektronik Ticaret Türkiye’de _nternet Konferansları -VII. Elektronik Poster Bildiri. http://inettr.org.tr/inetconf7/eposter/inceoglu.doc Wang, L., 1997. A course in fuzzy systems and control. Prantice Hall Publishers, Toronto. Weiss, S. M. and Kulikowski, C. A., 1991, Computer systems that learn: classifı cation and prediction methods from statistics, Neural Nets, Machine Learning, and Expert Systems , Morgan Kaufman. Y. Kodratoff. Knowledge discovery in texts: A definition and applications. Lecture Notes in Computer Science, 1609:16–29, 1999. 92 Y. Liu, B.J. Ciliaxi K.Borges, V. Dasigi, A. Ram, S.B.Navathe and R.Dİ ngledine, Comparasion of two schemes for automatic keyword extraction from MEDLINE for functionla gene clustering, in Proc. Of 2004 IEEE Computational System Bioinformatics Conference (CSB2004), Stanford University, 2004,pp 394-404. Y. Wilks. Information extraction as a core language technology. In M-T. Pazienza, editor, Information Extraction. Springer, Berlin, 1997. Y. Yang and W.J. Wilbur. Using corpus statistics to remove redundant words in text categorization. In J Amer Soc Inf Sci, 1996. Y. Yang. Expert network: E_ective and e_cient learning from human decisions in text categorization and retrieval. In 17th Ann Int ACM SI-GIR Conference on Research and Development in Information Retrieval (SIGIR'94), pages 13-22, 1994. Yen-Cheng Tseng, Tsung-Ying Sun, (2005), Adaptive Fuzzy Search Algorithm for Improving the Efficiency of Block Motion Estimation. Zekai Şen, (2001), Bulanı k Mantı k ve Modelleme İ lkeleri,. Zhong, N. and Ohsuga, S., 1994, Discovering concept clusters by decomposing databases, Data & Knowledge Engineering, vol. 12, pp. 223244. 93 EK-1 Deneysel çalı ş mada sı nı flamasıgerçekleş tirilen edebiyat eserler listesi. Children's Books 00 01 02 03 04 05 06 07 2006 The Hello, Goodbye Window 2005 Kitten's First Full Moon by Kevin Henkes 2006 Criss Cross by Lynne Rae Perkins 2005 Kira-Kira by Cynthia Kadohata 2006 Remember: The Journey to School Integration by Toni Morrison 2005 The First Part Last by Angela Johnson 2006 Fat Kid Rules the World by K. L. Going 2006 The House of the Scorpion by Nancy Farmer Mystery 10 11 12 13 14 15 16 17 2006 Citizen Vince: A Novel by Jess Walter 2005 California Girl by T. Jefferson Parker 2004 Resurrection Men: An Inspector Rebus Novel by Ian Rankin 2003 Winter and Night by S. J. Rozan 2003 Fox Evil by Minette Walters 2002 The Athenian Murders by Jose Carlos Somoza 2001 Sidetracked by Henning Mankell 2000 Motherless Brooklyn by Jonathan Lethem Sci-fi/Fantasy 20 21 22 23 24 25 26 27 2006 Spin by Robert Charles Wilson 2005 Jonathan Strange and Mr. Norrell by Susanna Clarke 2004 Paladin of Souls by Lois McMaster Bujold 2003 Hominids by Robert J. Sawyer 2005 Camouflage by Joe Haldeman 2004 Paladin of Souls by Lois McMaster Bujold 2003 The Speed of Dark by Elizabeth Moon 2002 American Gods by Neil Gaiman General Nonfiction 30 2003 From the Land of Green Ghosts: A Burmese Odyssey by Pascal Khoo Thwe 31 2002 River Town: Two Years on the Yangtze by Peter Hessler 32 2006 The Worst Hard Time: The Untold Story of Those Who Survived the Great American Dust Bowl by Timothy Egan 33 2005 The Year of Magical Thinking by Joan Didion 34 2005 Plague and Fire: Battling Black Death and the 1900 Burning of Honolulu's Chinatown by James C. Mohr 35 2004 Portland: People, Politics, and Power, 1851-2001 by Jewel Lansing 36 2006 Imperial Reckoning: The Untold Story of Britain's Gulag in Kenya by Caroline Elkins 37 2005 Ghost Wars: The Secret History of the CIA, Afghanistan, and Bin Laden, from the Soviet Invasion to September 10, 2001 by Steve Coll 94 Literary Fiction 40 2005 The Time in Between by David Bergen 41 2005 Small Island by Andrea Levy 42 2006 March by Geraldine Brooks 43 2005 War Trash by Ha Jin 44 2006 On Beauty by Zadie Smith 45 2006 How I Paid for College: A Novel of Sex, Theft, Friendship, and Musical Theater by Marc Acito 46 2006 The March by E. L. Doctorow 47 2006 Rocks That Float by Kathy B. Steele Poetry 50 51 52 53 54 55 56 57 2006 Splay Anthem by Nathaniel Mackey 2005 Migration: New & Selected Poems by W. S. Merwin 2006 Late Wife: Poems by Claudia Emerson 2005 Delights & Shadows by Ted Kooser 2005 Refusing Heaven by Jack Gilbert 2004 The School Among the Ruins: Poems 2000-2004 by Adrienne Rich 2003 Columbarium by Susan Stewart 2004 Early Occult Memory Systems of the Lower Midwest by B. H. Fairchild