BİYOİNFORMATİKTE ÇOK BOYUTLU VERİLERİN BOYUT İNDİRGENEREK SINIFLANDIRILMASI Hatice Zehra DEMİRCİOĞLU YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TEMMUZ 2015 Hatice Zehra DEMİRCİOĞLU tarafından hazırlanan “BİYOİNFORMATİKTE ÇOK BOYUTLU VERİLERİN BOYUT İNDİRGENEREK SINIFLANDIRILMASI” adlı tez çalışması aşağıdaki jüri tarafından OY BİRLİĞİ ile Gazi Üniversitesi Bilgisayar Mühendisliği Anabilim Dalında YÜKSEK LİSANS TEZİ olarak kabul edilmiştir. Danışman: Doç. Dr. Hasan Şakir BİLGE Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum ...……………… Başkan : Prof. Dr. H. Gökhan İLK Elektrik & Elektronik Mühendisliği Anabilim Dalı, Ankara Üniversitesi Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum ………………….. Üye : Doç. Dr. Suat ÖZDEMİR Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum ………………….. Tez Savunma Tarihi: 01/07/2015 Jüri tarafından kabul edilen bu tezin Yüksek Lisans Tezi olması için gerekli şartları yerine getirdiğini onaylıyorum. …………………….……. Prof. Dr. Şeref SAĞIROĞLU Fen Bilimleri Enstitüsü Müdürü ETİK BEYAN Gazi Üniversitesi Fen Bilimleri Enstitüsü Tez Yazım Kurallarına uygun olarak hazırladığım bu tez çalışmasında; Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar çerçevesinde elde ettiğimi, Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun olarak sunduğumu, Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak gösterdiğimi, Kullanılan verilerde herhangi bir değişiklik yapmadığımı, Bu tezde sunduğum çalışmanın özgün olduğunu, bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan ederim. Hatice Zehra DEMİRCİOĞLU 01/07/2015 iv BİYOİNFORMATİKTE ÇOK BOYUTLU VERİLERİN BOYUT İNDİRGENEREK SINIFLANDIRILMASI (Yüksek Lisans Tezi) Hatice Zehra DEMİRCİOĞLU GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ Temmuz 2015 ÖZET Günümüzde biyoinformatik alanda devasa boyuttaki verileri veri madenciliği yöntemleri kullanarak işlemek büyük önem kazanmaktadır. Mikrodizi teknolojisi ile elde edilen gen ifade verileri üzerinde çeşitli boyut indirgeme ve öznitelik seçme yöntemleri kullanılarak hastalığa neden olan genlerin tespit edilmesi biyoinformatik alanda önemli bir yel almaktadır. Bu çalışmada, mikrodizi teknolojisinden elde edilen yumurtalık kanseri gen ifade veri kümesi üzerinde öznitelik seçme yöntemlerinden ve boyut indirgeme yöntemlerinden bazıları kullanılarak veri kümesi küçültülerek çeşitli sınıflandırma yöntemleri ile başarıları ölçülerek yumurtalık kanseri olan hastalarda hangi genlerin daha önemli olduğuna karar verilmeye çalışılmıştır. Öznitelik seçme yöntemlerinden Fisher Korelasyon Skorlama ve Weltch-T İstatistiği yöntemleri kullanılarak veri setindeki gen öznitelik sayısı bine indirgenerek, ilk 100 gen içinde sınıflandırma başarıları bulunmuştur. Çeşitli sınıflandırıcı başarımları arasında destek vektör makineleri(lineer çekirdek fonksiyonu) sınıflandırıcısı ile %100 başarı elde edilmiştir. Bilim Kodu : 902.1.067 Anahtar Kelimeler : Biyoinformatik, veri madenciliği, yumurtalık kanseri, öznitelik seçimi,boyut indirgeme, sınıflandırma Sayfa Adedi : 55 Danışman : Doç. Dr. Hasan Şakir BİLGE v CLASSIFICATION BY DIMENSION REDUCTION OF MULTIDIMENSIONAL DATA SETS IN BIOINFORMATICS (M. Sc. Thesis) Hatice Zehra DEMİRCİOĞLU GAZİ UNIVERSITY GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES July 2015 ABSTRACT Nowadays, Processing the big data in bioinformatics area by using data mining techniques have gained importance. Identifying genes that cause disease by using various size reduction and feature selection methods on gene expression data obtained by microarray technology is an significant role in bioinformatics. Obtained from those methods, size reducted data set measured with various methods of classification performance has been studied which genes are more important in patients with ovarian cancer.Using feature selection methods with the Fisher Correlation Score method and Weltch-T statistic method reduced the number of thousand features, classification successes were found for the first100 genes fetures in the data set. Among the various classifiers successes, support vector machine(linear kernel function) classifier were obtained with a 100% success. Science Code Key Words Page Number Supervisor : 902.1.067 : Bioinformatics, data mining, ovarian cancer, feature selection, dimension reduction, classification : 55 : Assoc. Prof. Dr. Hasan Şakir BİLGE vi TEŞEKKÜR Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren Hocam Doç. Dr. Hasan Şakir BİLGE’ ye ve manevi desteğiyle beni yalnız bırakmayan anneme, babama, kardeşlerime, eşime ve oğluma teşekkürü bir borç bilirim. vii İÇİNDEKİLER Sayfa ÖZET .............................................................................................................................. iv ABSTRACT .................................................................................................................... v TEŞEKKÜR .................................................................................................................... vi İÇİNDEKİLER ............................................................................................................... vii ÇİZELGELERİN LİSTESİ............................................................................................. ix ŞEKİLLERİN LİSTESİ .................................................................................................. x SİMGELER VE KISALTMALAR................................................................................. xi 1. GİRİŞ....................................................................................................... 1 2. VERİ MADENCİLİĞİ ............................................................................ 5 2.1. Veri Madenciliği Aşamaları ................................................................................ 5 2.1.1. Problem tanımlama ................................................................................... 5 2.1.2. Veri anlama ............................................................................................... 5 2.1.3. Veri önişleme ............................................................................................ 5 2.1.4. Veri temizleme .......................................................................................... 6 2.1.5. Modelleme ................................................................................................ 8 2.1.6. Değerlendirme........................................................................................... 8 2.1.7. Yaygınlaştırma .......................................................................................... 9 2.2. Boyut İndirgeme ve Öznitelik Seçme Yöntemleri .............................................. 9 2.2.1. Temel Bileşen Analizi (PCA) ................................................................... 9 2.2.2. İstatistiksel yöntemler ............................................................................... 10 2.2.3. Sarmal yöntemler ...................................................................................... 14 2.2.4. Hibrit yöntemler ........................................................................................ 16 viii Sayfa 2.3. Sınıflandırma Yöntemleri ................................................................................... 17 2.3.1. Naive bayes sınıflandırıcı ......................................................................... 17 2.3.2. Destek vektör makineleri (SVM) .............................................................. 18 2.3.3. Doğrusal diskriminant analizi (LDA) ....................................................... 18 2.3.4. k-En yakın komşu (kNN) ......................................................................... 19 3. LİTERATÜR ÇALIŞMALARI............................................................... 21 4. DENEYSEL ÇALIŞMALAR ................................................................. 29 5. SONUÇ .................................................................................................... 45 KAYNAKLAR ............................................................................................................... 49 ÖZGEÇMİŞ .................................................................................................................... 55 ix ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 4.1. FKS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları ....................................................................................................... 31 Çizelge 4.2. FKS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları ....................................................................................................... 32 Çizelge 4.3. WTS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları ....................................................................................................... 33 Çizelge 4.4. WTS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları ....................................................................................................... 34 Çizelge 4.5. FKS sıralı indirgenmiş gen verisinin ortalama sınıflandırma sonuçları …… ............................................................................................ 39 Çizelge 4.6. WTS sıralı indirgenmiş gen verisinin ortalama sınıflandırma sonuçları. ...................................................................................................... 40 Çizelge 4.7. WTS ve FKS sonrasında sıralanan ilk 100 gen özniteliğinin veri setindeki sıra numaraları ....................................................................... 41 Çizelge 4.8. FKS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları ............... 42 Çizelge 4.9. WTS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları .............. 43 Çizelge 4.10. Temel bileşen analizi (PCA) kullanılarak yeni uzaya taşınan boyutu indirgenmiş veri setinin ortalama sınıflandırma sonuçları ............ 44 x ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 2.1. Veri Madenciliği Aşamaları ........................................................................... 8 Şekil 4.1. FKS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları .......... 35 Şekil 4.2. FKS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları ......... 36 Şekil 4.3. WTS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları ......... 37 Şekil 4.4. WTS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları ........ 38 xi SİMGELER ve KISALTMALAR Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Simgeler Açıklamalar log Logaritma μ Ortalama σ Standart Sapma ε Elemanı ∑ Toplam P Olasılık Kısaltmalar Açıklamalar AHP-HMM Analytic Hierarchy Process-Hidden Markov Model DT Decision Tree FKS Fisher Korelasyon Skorlama KNN k En Yakın Komşu LDA Linear Discriminant Analysis MRMR Minimum Redundancy - Maximum Relevance PCA Principle Component Analysis SVM Support Vector Machine SVM-RFE Support Vector Machine- Recursive WTS Weltch T Statistics 1 1. GİRİŞ İlk zamanlarda, kanser sınıflandırması deneyimli biyologlar tarafından öznel verdikleri kararlar ile yapılırdı. Mikro dizilim teknolojisi bulunduktan sonra, kanser teşhisinde ve sınıflandırılmasında yaygın olarak kullanılmaya başlanmıştır [1]. Mikro dizilim teknolojisinin en önemli uygulaması hastalığı oluşturan küçük gen alt kümelerinin gen ifadelerinin düzeylerinden bulunarak kanserli ve normal hücrelerin ayırt edilmesini sağlayabilmesidir [2]. Hem biyolojik hem de mikro dizilim teknolojisinden kaynaklı yüksek seviyedeki gürültü ve örnek sayısının azlığı gen ifade verilerinin sınıflandırılmasını güçleştirmektedir. Gen ifade verilerinden kanser teşhisine yönelik hesaplama için literatürde birçok yöntem önerilmiştir. Hastalığın teşhisi için hastalığa yol açan az sayıdaki gen alt kümelerinin seçilmesiyle işe başlanır. Bu seçme yöntemleri literatürde filtreleme, sarmal ve gömülü yöntemler olmak üzere üçe ayrılmıştır [3]. Filtreme metotlarına örnek olarak doğrudan sınıflandırıcıya bağımlı olmayan sınıf etiketlerine bağımlılık gösteren fisher korelasyon, ttest, weltch t-test, karşılıklı ilişki gibi istatistiksel yöntemler gösterilebilir. Sarmal metotlara örnek olarak sınıflandırma doğruluğunu maksimum tutarak öznitelik alt kümesinin değerlendirmesini amaç fonksiyonu olarak sınıflandırıcı kullanan k en yakın komşu, destek vektör makineleri, bayes sınıflandırıcı gösterilebilir [4]. Gömülü yöntemlerde ise özel öğrenme metodu ile ilgili gen alt kümesi seçimi yapılır [5]. Mikro dizilim teknolojisi farklı deneysel koşullar karşısındaki büyük sayıdaki genlerin ifade seviyeleri üzerine çalışmaya yardımcı olmuştur. Bu yöntemlerin uygulamaları tıbbi tanı alanları, biyotıp, gen ifadesi profili oluşturma gibi alanları içermektedir [6,7,8]. Gen canlılarda kalıtsal bilginin depolanması için temel birimdir. Teknik açıdan bakıldığından, bir kromozomun bir parçasını oluşturan belirgin bir nükleotid dizisi gibi davranır. Protein olmayan genler için fonksiyonel RNA’lar sentezinde ve proteinler gibi fonksiyonel gen ürünlerinin sentezinde bir genden gelen bilgi kullanılır. Bu sentezleme işlemine gen ifadesi denmektedir. Biyoinformatiğin gelişimiyle büyük boyuttaki verilerin depolanması amacıyla gen bankaları kurulmuştur. Bu veri bankalarından önemli ve anlamlı verilerin elde edilebilmesi 2 için veri madenciliği yöntemleri kullanılmaktadır. Veri madenciliğinin daha iyi anlaşılmasında farklı tanımların incelenmesi etkili olacaktır. Veri madenciliği, anlamlı örüntü ve kuralları bulmak için büyük miktardaki verilerin analizi ve keşfidir [9]. Veri tabanlarında saklı kalmış verilerin istatistik, matematik ve örüntü tanıma teknikleri kullanılarak gözden geçirilmesiyle yeni ilişki ve örüntülerin bulunması işlemidir [10]. Bugünlerde kanser teşhisi klinik değerlendirme, fiziki muayene ve tıbbi öyküye bağlıdır. Fakat bu teşhis uzun zaman almaktadır. Kritik aşamada bulunmuş bir tümör var ise tedavisi için çok geç kalınmış olabilir. Teşhis araştırmalarında fiyatı makul olan ve hastalığı algılayan yeterli sayıdaki genleri içeren mikro dizilim gen ifade verilerine bağlı olan teşhis işlemleri geliştirmek de çok önemlidir. Gen ifade verilerini sınıflandırmak çok sayıda gen ve az sayıda örnek olması hasebiyle zorlu bir iştir. Çok sayıda olan genlerden bazıları hastalıkla ilişkili olmayan genlerdir. Bu yüzden, sınıflandırma doğruluğu maksimum olacak şekilde gen sayısını azaltabilmek çok önemlidir. Makine öğrenmesinde, boyut indirgeme ve öznitelik seçme olarak iki temel yaklaşım vardır. İlki yani boyut indirgeme, negatif olmayan matrisi çarpanlarına ayırma gibi orijinal özniteliklerin birleşiminden yeni özellikler oluşturur [11-13]. Öznitelik seçimi ise, orijinal özniteliklerden en çok alakalı olanların seçimi yöntemidir [14]. Filtreleme yaklaşımı ve sarmal yaklaşım öznitelik seçmede yaygın olarak kullanılan yöntemlerdendir [15]. Filtreleme metotları ön işleme adımı olarak öznitelik seçme yapmaktadırlar. Yani, sınıflandırma doğruluğu olmadan öznitelikleri seçmektedirler. Sarmal yöntemlerde ise, olası öznitelik alt kümelerini seçmek için tahmini bir algoritma doğruluğu kullanılır ve en yüksek doğruluğu sağlayan özniteliklerin alt kümesi seçilir. Sarmal yöntemler filtreleme yöntemlerine göre daha yüksek doğruluk sağlamasına rağmen, hesaplama maliyetini fazladır ve aşırı-oturma riskinin yüksektir. Gen ifade verilerindeki öznitelik sayısının çok fazla olması probleminde, sarmal yöntemler uygun değildir ve filtreleme yöntemleri hesaplama verimliliğinden dolayı benimsenmiştir [16]. Bu çalışmada mikro dizi çiplerinden elde edilmiş olan yumurtalık kanseri veri setinde bulunan az miktardaki (253 adet) örnek sayısına karşın, çok sayıdaki özniteliğin(15154 adet) yani gen ifade verilerinden öznitelik seçerek ve boyut indirgeyerek veri setindeki sınıflandırma bilgisine (hasta/normal) en çok katkı sağlayan önemli genlerin sınıflandırma başarıları kıyaslanarak tespit edilmesi amaçlanmıştır. Bu çalışmada kullanılan Weltch-t testi, Fisher korelasyon skorlama ve Temel bileşen analizi yöntemleriyle gen ifade verisi 3 miktarı azaltılarak sınıflandırma başarısının iyileştirilmesi ve anlamlı genlerin tespiti sağlanmıştır. Son yıllarda biyoinformatik moleküler biyoloji ve DNA genom teknolojilerinin gelişmesiyle birlikte ortaya çıkan yeni bir bilim dalıdır. Çığ gibi büyüyen genetik araştırmalarda büyük verilerle uğraşıldığı için bunları depolayacak geniş veritabanlarına ihtiyaç duyulmuştur. Bu veritabanları ve hesaplamalar kullanılarak biyolojik problemlerin çözümlenmeye çalışılması biyoinformatik olarak tarif edilmiştir [17]. Kelime yapısı detaylı incelendiğinde biyoloji ve informatik kelimelerinin bir araya gelmesiyle oluşturulmuştur. İnformatik kelimesi ise, İngilizce kökenli olup bilgi manasındadır. Kelimenin sonuna ‘-tic’ takısı getirildiğinde ‘teori’ anlamında kullanılmaktadır. Bu bilgiler ışığında biyoinformatik, moleküler biyolojideki sorunların çözülmesinde bilgisayar algoritmalarının kullanılması olarak tanımlanmıştır [18]. Biyoinformatiğin farklı bir tanımında ise, moleküller bakımından biyolojiyi kavramsallaştırır ve bu moleküllerle ilgili bilgiyi anlamak ve düzenlemek için matematik, bilgisayar bilimleri ve istatistik gibi disiplinlerden türetilen enformatik teknikler uygular. Kısacası, biyoinformatik moleküler biyoloji için düzenlenmiş bir bilgi sistemidir ve birçok pratik uygulaması vardır [19]. Biyoinformatik, biyoloji, bilgisayar bilimi ve informatik teknolojisini tek bir disiplin haline getiren bir bilim dalıdır [20]. Biyoinformatiğe tarih yönünden bakıldığında günümüze kadar birçok araştırmacı bu alanda çalışma yapmıştır. Bu çalışmalardan biyoinformatik alanında temel sayılabilecek bazı yayınlar yapılmıştır. Etkin çoklu bir dizi hizalama işleme için ilk yaklaşım, daha sonra CLUSTAL’ da uygulaması [21], protein yapı analizi ve tahmininde ilk yapay zeka uygulamalarından biri [22], Karlin’ in istatistiksel çalışmasına dayalı bir dizi eşleştirme algoritmasının uygulaması [23], threading kullanılarak protein yapı tahmininin ilk uygulaması [24] gibi çalışmalar bunlardan bazılarıdır. Biyoinformatiğin amaçları üç bölüme ayrılır. Bunlar; veri hazırlanması, sistemlerin iyileştirilmesi ve sistemlerin uygulanmasıdır. Sırayla açıklanacak olursa ilk amaç, araştırmacıların kolayca ulaşılabileceği ve yeni sonuçları aktarılabileceği bir şekilde biyolojik verilerin hazırlanmasıdır. Basit veri bankaları kurularak araştırmacılar tarafından bu verilerle sorunsuz çalışılmalıdır. İkinci amaç, biriktirilen verilerin bazı sistemlerle 4 analiz edilmesi ve anlaşılır hale getirilmesi gerektiğinden farklı alanlardan uzmanlar işbirliği yaparak sistemlerin iyileştirilmesi sağlanmalıdır. Araç ve kaynak gelişimi veri analizi için gereklidir. Analiz edilmiş bir protein dizisinin daha önce belirlenmiş diziler ile karşılaştırılması halinde ilgili tüm veri tabanlarını kullanmak gerekir. Üçüncü amaç ise, biyolojik veriler ile geliştirilen sistemlerin yorumlanıp uygulanmasıdır. Akraba türlerinin tespit edilmesi ve filogenetik soy ağacının ortaya çıkarılması bilgisayar destekli dizi analizleri sayesinde mümkün olmaktadır [25]. 5 2. VERİ MADENCİLİĞİ 2.1. Veri Madenciliği Aşamaları 2.1.1. Problem tanımlama Bu aşamada veri madenciliği ile sağlanacak bilgi ihtiyaçları tanımlanmaktadır. Örüntülerle ilgili sorular ve veri tabanında oluşabilecek ilişkilerdir. Veri madenciliği, birçok nitelik arasındaki var olabilecek ilişkilerin incelenmesi durumunda, kendi sorusunu sunar. Böylece, sonuca gelindiğinde tahmin edilemeyen ilişkilerin bulunmasını sağlar [26]. 2.1.2. Veri anlama Veri toplama ile başlayan bu aşamadaki veriler, veri madenciliğinin ham verilerdir. Bu nedenle veri kalitesinin tanımlanması, veri içeriğinin anlaşılması, gizli bilgiden yeni hipotezler oluşturularak farklı değerlendirmelerin yapılması bu aşamadaki adımlardır. Farklı kaynaklardan gelen verilerin anlaşılmasından önce birbiriyle bütünleşmiş olması gerekir. Daha sonra, tablolardaki birincil anahtar bilgileri düzgün bir şekilde girilmiş olması gerekir, girilmediği takdirde veri tutarsızlıkları olabilir [27,28]. 2.1.3. Veri önişleme Problem ve hedefler tanımlandıktan sonra sıra veri hazırlama aşamasındadır. Veri önişleme aşaması, verilerin veri madenciliği için hazırlanmasını kapsamaktadır. Veri hazırlama görevi uzun sürede yapılmaktadır. Verinin dönüşümü, temizlenmesi, birleştirilmesi, azaltılması gibi işlemleri içermektedir [29]. Günümüzde veri tabanları çok büyük olduğundan veri önişleme aşamasında, amaca yönelik olmayan değişkenler varsa çıkarılmasına, eksik ve hatalı veri girişi yapılmış ise bunların ayıklanmasına, eksik verilerin oluşturabileceği sistematik hataların kontrol edilmesine, birbiri yerine geçebilecek tekrar niteliğinde olan veri alanlarının temizlenmesine, eklenecek yeni değişken verisinin hazırlık aşaması için gereken çaba ve getirisinin değerlendirilmesine dikkat etmek gerekmektedir [30]. 6 2.1.4. Veri temizleme Veri temizleme, tam olmayan değerleri tamamlama, tutarsız değerleri belirleyerek gürültüyü azaltma ve verilerdeki anlamsızlıkları giderme gibi çeşitli yöntemler içermektedir. Veri madenciliğindeki kirli veriler karmaşaya ve sonuçların güvenilir olmamasına sebebiyet verir. Bu yüzden veri temizleme işlemleri ardından temizlenmiş verilerin kullanılması gerekmektedir. Kayıp değerler Çeşitli nedenlerden dolayı veri seti içinde kayıp veriler bulunmaktadır. Bu nedenler: - Bazı veriler önemsiz görüldüğü için veri girişi esnasında girilmemesi, - Kayıtlı verilerle uyumlu olmayan veriler silinmesi, - Geçmiş kayıtlar veya verilerdeki değişimlerin dikkate alınmaması, şeklinde sıralanabilir. Bu nedenlerden dolayı oluşabilecek kayıp değerlerden veri setini arındırmak için: - Kayıp değer manuel olarak tamamlanabilir. Ancak çok zaman alıcıdır ve büyük veri setlerinde uygun değildir. - Kayıp değer yerine o değişkene ait ortalama değer kullanılabilir. - Kayıp değer yerine aynı sınıfa ait tüm örnekler için değişkenin ortalaması kullanılabilir. Karmaşık veri Veri girilirken, veri değiştirme yapılırken veya veri kodlanırken hatalar oluşmaktadır. Bu hatalara gürültü adı verilmektedir. Bu gürültü verilerin doğruluğunu azaltmaktadır. Gürültü kaldırılarak veri düzeltilmelidir. Tutarsız veri Veri birleştirme sırasında veya oluşturulmuş veriler arasında tutarsızlıklar bulunabilmektedir. Aynı veri farklı veri tabanlarında farklı isimlerle oluşturulmuş olabilir. Dış referanslar kullanılarak bu veri tutarsızlıkları düzeltilebilir. [31]. 7 Veri dönüşümü Veri madenciliği için kullanılan verinin temsil edilmesinde ve kategorilendirmesinde bazı değişimler yapılabilir. Değişkenler 0 ile 1 şeklinde ölçeklendirilebilir. Bu seçilen sınıflandırma modelin sonuçlarını etkileyecektir [32]. Veri azaltma İncelenecek verinin büyüklüğü ile uygulanacak olan algoritma süresi doğru orantılı olarak değişecektir. Bu yüzden sonucu etkilemeyecek fazla veri uygulamada gereksiz işlemlere neden olur. Bazı algoritmalar belirli tip veriler üzerinde çalışır, bu tipte olmayan verilerin göz ardı edilmesi ya da dönüştürülmesi gerekir. Bundan dolayı veri önişleme aşamasında sonucu etkilemeyecek bir şekilde gereksiz olan verilerin silinmesi, birleştirilmesi ya da nitelik birleştirme, nitelik azaltma, veri sıkıştırma, veri küçültme, veri ayrıştırma ve kavram oluşturma gibi diğer bazı yöntemlerle eldeki verinin daha anlamlı ve verimli hale getirilmesini sağlar. Veri tanımındaki bazı nitelikler birbirleriyle ilgili olabilir. Birden fazla sayıdaki bu tip nitelikler birleştirilerek veri tabanı küçültülebilir. Sonuca etki etmeyecek ya da sonucu değiştiremeyecek kadar düşük öneme sahip bazı nitelikler seçilerek elenebilir. Nitelik seçme, probleme yönelik bilgiyi değerlendirerek yapılabileceği gibi istatistiksel yöntemlerle, karar ağaçlarıyla ya da bilgi kazancı değerleriyle tespit edilebilir. Veri sıkıştırma, sıkıştırma algoritmalarıyla büyük verinin boyutunu azaltarak veri saklamayı ve veri erişim süresini optimize etmeyi hedefler. Bu yöntemin verimli olması için uygulanacak olan algoritmanın sıkıştırılmış veri üzerinde çalışabilmesi gerekir. 8 Yayınlaştırma Değerlendirme Modelleme Veri Önişleme Veri Anlama Problem Tanımlama Şekil 2.1. Veri madenciliği aşamaları 2.1.5. Modelleme Modelleme fazı temel olarak uygun modelleme tekniklerinin belirlenmesi ve uygulanması, eniyileme için model değişkenlerinin düzenlenmesinden oluşur. Gerektiği durumlarda veri hazırlama fazına dönülebilir ve aynı veri madenciliği problemi için birden fazla teknik kullanılabilir [28]. Modelleme ile ilgili en önemli nokta bu sürecin tekrarlanan bir süreç olduğudur. Alternatif algoritmalar ve teknikler kullanılabileceği için kullanıcılar en iyi sonuca hangi yöntemle ulaşacaklarına deneme yanılma yöntemi ile ulaşabilirler. Tahmin için örneğin sınıflandırma veya regresyon analizi seçildikten sonra modelleme için de bir yöntem seçilmelidir. Seçilecek olan yöntem ne tip bir verinin hazırlanacağı ve nasıl ilerleneceği konusuyla doğrudan ilgilidir. Veya kullanılacak olan veri madenciliği aracı hazırlanacak olan verinin özel bir formatta olmasını zorunlu kılar [27,32]. 2.1.6. Değerlendirme Modelleme yapıldıktan sonra bu modelin başlangıçta belirlenen iş hedeflerinin ne kadarını karşıladığı ölçülmeli ve ortaya çıkan sonucun yaygınlaştırma fazından önce kalite ve etkisi değerlendirilmelidir. Bununla birlikte problemde ele alınacak noktaların yeterli derecede 9 dikkate alınıp alınmadığı kontrol edilmeli ve sonuçların kullanılıp kullanılmayacağı ile ilgili net karar verilmelidir [27,28,32]. 2.1.7. Yaygınlaştırma Yaygınlaştırma fazının başarı oranı oluşturulan modelden yararlanılması ile doğru orantılıdır. Ayrıca bu aşamada veri madenciliği çalışmasının sonuçlarının varsa proje sponsoruna raporlanması gerekmektedir. Veri madenciliği çalışması değerlendirilmesi gereken yeni bir bilgiyi ortaya çıkarır ve bu bilginin proje hedefleri ile birleştirilmesi gerekir. Ayrıca araştırma sonucunda elde edilen bilginin zamanla değişebileceği de göz önünde bulundurulmalıdır. Yaygınlaştırma fazında genel parametrelerde radikal bir değişiklik olup olmadığı izlenmelidir [32,33]. 2.2. Boyut İndirgeme ve Öznitelik Seçme Yöntemleri Boyut indirgeme öznitelik seçimi ile yapılmaktadır. Öznitelik seçme yöntemleri üç tiptir. İstatistiksel, sarmal ve hibrit yöntemler olarak gruplandırılmıştır. Ayrıca PCA da bir boyut indirgeme yöntemidir. 2.2.1. Temel Bileşen Analizi (PCA) PCA varyantın çoğunu içeren eksen üzerine veri yansıtan bir yöntemdir. Bu, kovaryans matrisinin özdeğer ayrıştırma hesaplanması ve verilerin sadece birkaç önemli özvektör üzerine yansıtılması sağlanarak yapılır. Bu işleme spektral ayrıştırma adı verilir ve en büyük özdeğerlere karşılık gelen özvektörler temel bileşenler olarak adlandırılır. Özvektörler, verinin en fazla değişkenlik gösterdiği yöne dikkat çekmektedir. Özellik vektörlerinin büyük boyutluluğu çoğu durumda kovaryans matrisinin spektral ayrışmasını zorlu hale getirir. Sonuç olarak, PCA bir boyut indirgeme tekniği olarak (n×n) benzerlik veya mesafe matrislerinin analizinde uygulanır [34]. 10 2.2.2. İstatistiksel yöntemler Relief-F metodu Relief-F [35], gürültülü, tamamlanmamış ve çok sınıflı veri setleri ile ilgilenen Relief [36] algoritmasının genişletilmişi olarak ortaya konulan bir algoritmadır. Bu algoritma her bir öznitelik için “alakalılık” ağırlık değeri belirler. m örnekli bir veri setinden rastgele bir R örneği seçilir. R örneği ile arasındaki farkın en az olan H örneği (en yakın başarı) arasındaki farka ve sınıfın en yakın kaybı adında farklı sınıfa (M(c)) bağlı olarak alakalılık değerleri bu fark değerlerine bağlı olarak güncellenir. Farklı sınıfların komşularından gelen örnekleri ayırt eden özniteliklere daha fazla ağırlık değeri veriliyor. Ağırlıklar en yakın kayıplar olan M(c)’ lerin ortalama katkıları dikkate alınarak güncelleniyor. Ortalama katkı her bir sınıfın önceki olasılığının hesabını da içermektedir. i’ inci özniteliğin ağırlığı Xi, Eş. 3.1 kullanılarak güncellenir. (3.1) fonksiyon R örneği ile en yakın başarı H arasındaki Denklemde bulunan uzaklığı, fonksiyonu ise R örneği ile en yakın kayıplar M(c) arasındaki uzaklığı hesaplamaktadır. Minimum artıklık maksimum alakalılık (mRMR) metodu Ding ve Peng [37] tarafından önerilen mRMR metodu aralarındaki artıklığı en aza indirerek en yüksek alakalılıkla öznitelikleri seçmektedir. mRMR, genler ve sınıf değişkenleri arasındaki f istatistiğini sürekli değişkenler için maksimum alakalılığın skoru olarak kullanmakta iken, ayrık veri setleri için alakalılığın ölçüsü olarak ortak bilgi [38,39] metodunu kullanmaktadır. Xi özniteliğinin F testi değeri Eş. 3.2 ile bulunmaktadır. (3.2) 11 C = {Cj}, j=1,2,…,l değerleri için sınıf kümesidir. ortalaması, değeri , i’ inci öznitelik olan Xi’ nin , ise Cj sınıfına ait Xi’ nin ortalamasıdır. Cj sınıfına ait verilen varyant ve boyut değeri için toplanmış varyant değeri değeri Eş. 3.3 ile bulunmaktadır. (3.3) S öznitelik alt kümesi için maksimum alakalılık kriteri Eş. 3.4 ile hesaplanır. (3.4) Metoda göre, Eş. 3.4 ile ilk öznitelik seçilir ve kalan öznitelikler optimizasyon kriter fonksiyonuna bağlı olarak doğrusal artan arama algoritması ile seçilir. F testi uzaklık çarpımı mRMR (mRMR-FDM) ve f testi benzerlik katsayısı mRMR (mRMR-FSQ) sürekli değişkenler için en popüler iki doğrusal arama programlarıdır. Verilen X öznitelik kümesi için, mRMR-FDM için optimizasyon durumu eşitlik Eş. 3.5’ te verilmiştir. (3.5) Denklemde , ile öznitelikleri arasındaki öklid uzaklığıdır. Verilen X öznitelik kümesi için, mRMR- FSQ için optimizasyon durumu eşitlik Eş. 3.6’ da verilmiştir. (3.6) T istatistiği metodu Bu metot, C1 ve C2 gibi iki sınıfı olan gen ifade verilerinde öznitelik seçme metodu olarak kullanılır. Her bir öznitelik Xi için, t istatistiği Eş. 3.7’ deki gibi hesaplanmaktadır. 12 (3.7) C1 sınıfındaki i’ inci öznitelik olan Denklemde sınıfındaki ’ nin ortalama değerini, ise C2 sınıfındaki ’ nin ortalama değerini, C1 sınıfındaki ise C2 ’ nin standart sapma değerini, ’ nin standart sapma değerini göstermektedir. Çıkan her bir t istatistik değeri her bir gen için önemlilik derecesiyle doğru orantılıdır. Önemli genleri seçmek için çıkan değerler büyükten küçüğe sıralanmalıdır. Ortak bilgi metodu Gen ifade veri seti gibi sürekli değişkenler içeren veri setleri için ortak bilgi Eş. 3.8 ve Eş. 3.9’ daki gibi hesaplanır. (3.8) (3.9) Entegral işlemini yapabilmek için uygulamada , , için olasılık yoğunluk fonksiyonlarının kesin değerlerini bulmak imkânsızdır. Bu yüzden bu sürekli öznitelik uzayını birçok ayrık parçaya ayrılıp bu parçaların ayrık duruma göre belirtilen entropileri ve ortak bilgi değerleri hesaplanarak bulunur [40]. Bilgi kazancı metodu Bilgi kazancı, öznitelik ya da gen seçme kriteri olarak karar ağaçlarında kullanılmaktadır[41,42]. C={Cj}, j=1,2,…,l değerleri için sınıf kümesidir.Her bir Xi özniteliği için bilgi kazancı Eş. 3.10, Eş. 3.11 ve Eş. 3.12’ deki gibi hesaplanmaktadır. (3.10) (3.11) 13 (3.12) Bilgi kazancı ayrık öznitelikler için kullanılır. Bilgi kazancı hesaplanmadan önce nümerik öznitelikler ayrık hale getirilir. Gen ifade verileri için genellikle entropi tabanlı ayrıklaştırma metodu kullanılır. t istatistik metodundakine benzer şekilde bilgi kazancı değeri daha büyük olan öznitelikler seçilir[43]. X2 istatistiği metodu Sınıflarla ilgili her bir öznitelik için X2 istatistiğinin değeri hesaplanır. Bilgi kazancına benzer şekilde X2 istatistiğinin değeri hesaplanmadan önce her bir nümerik öznitelik ayrıklaştırılır. Her bir Xi özniteliği için X2 istatistiği Eş. 3.13 ile hesaplanır. (3.13) , c sınıfı için değeri x olan Xi’ deki örnek sayısını vermektedir. Denklemdeki Beklenen frekans değeri Eş. 3.14 ile hesaplanır. (3.14) Denklemdeki Xi’ deki x değerli örnek sayısını, c sınıfının örnek sayısını, n ise toplam örnek sayısını göstermektedir. Sıralanmış X2 istatistiğinin değerlerine göre öznitelikler seçilir. Welch t istatistiği metodu İki sınıflı veri setlerinde, welch t istatistiği değeri her bir öznitelik değeri için hesaplanır. Her bir sınıf için özniteliklerin ayrı ayrı standart sapma, ortalama değerleri ve sınıfların örnek sayıları bulunup oranlanarak Eş. 3.15’ teki gibi hesaplanır[44,45]. 14 (3.15) i’ nci özniteliğin iki sınıftan biri olan “-” sınıfında bulunan Denklemde yer alan örneklerinin değerlerinin ortalamasını, ise i’ nci özniteliğin “+” sınıfında bulunan örneklerinin değerlerinin ortalamasını, i’ nci özniteliğin “-” sınıfında bulunan örneklerinin değerlerinin standart sapmasını, i’ nci özniteliğin “+” sınıfında bulunan örneklerinin değerlerinin standart sapmasını, i’ nci özniteliğin “-” sınıfında bulunan örneklerin sayısını, ise i’ nci özniteliğin“+” sınıfında bulunan örneklerin sayısını göstermektedir. Bulunan değerler sıralanarak önemli gen öznitelikleri seçilmektedir. Fisher korelasyon skorlama metodu İki sınıflı veri setlerinde t ve welch t istatistiğindekine benzer şekilde, fisher korelasyon skorlama değeri her bir öznitelik değeri için hesaplanır. Her bir sınıf için özniteliklerin ayrı ayrı standart sapma ve ortalama değerleri bulunup oranlanarak Eş. 3.16’ daki gibi hesaplanır[46] . (3.16) Denklemde bulunan ve iki ayrı sınıfın i. öznitelik için ortalama değerleridir. ve iki ayrı sınıfın i. öznitelik için standart sapma değerleridir. Bulunan fisher korelasyon skorlama değerleri büyükten küçüğe sıralanarak önemli genlerin seçimi sağlanır. 2.2.3. Sarmal yöntemler Ardışık ileri arama algoritması (SFS) Ardışık ileri arama ve geri arama algoritmaları basit ve hızlı oldukları için yaygın olarak kullanılmaktadır. İleri arama metodu boş bir küme ile başlar ve seçilen kümeye her defasında bir öznitelik ekleyerek tüm öznitelik kümesine ulaşıncaya kadar devam eder. Geri arama ise tüm öznitelik kümesi ile başlar ve her defasında kümeden bir öznitelik 15 çıkararak devam eder. İleri ve geri aramanın her ikisinde de küme istenen öznitelik sayısına ulaşıldığında arama durdurulur. Bunlar hesaplama açısında etkili yöntemlerdir ancak örneğin dört en iyi özniteliğin seçildiği küme üç en iyi öznitelik içermesi gerektiği gibi iç içe etki olarak adlandırılan durumdan olumsuz etkilenirler. Ardışık ileri değişen arama ve ardışık geri değişen arama yöntemleri daha iyi alt kümeyi bulmak için her bir ardışık aşamadan sonra dinamik geri izleyerek iç içe geçme sorunundan kaçınmayı amaçlayarak Pudil ve ark. [47] tarafından önerilmiştir. İleri arama metodu küçük boyutlu veri setlerinde daha iyi sonuçlar vermektedir. Ardışık geri arama algoritması (SBS) Ardışık geri arama daha büyük boyuttaki veri setlerinde iyi sonuç vermektedir. Geri arama ise tüm öznitelik kümesi ile başlar ve her defasında kümeden bir öznitelik çıkararak devam eder. İleri ve geri aramanın her ikisinde de küme istenen öznitelik sayısına ulaşıldığında arama durdurulur. Parçacık sürü optimizasyonu algoritması (PSO) Parçacık sürü optimizasyonu Kennedy ve Eberhart tarafından geliştirilen basitleştirilmiş bir sosyal modele bağlı bir hesaplama tekniğidir [48–50]. m tane parçacıktan oluşan bir sürü D boyutlu bir problem uzayını aramaktadır. Her bir parçacığa rastgele hızlar ve rastsal pozisyonlar atanmaktadır. Pozisyon problemin çözümüne karşılık gelmektedir. Her bir parçacık uçarken, kendisi ve sürünün üyeleri (ya da komşularındaki üyeler) tarafından şimdiye kadar elde ettiği iyi konuma çekilmektedir. i’ inci parçacığın pozisyonu Eş. 3.17 ve hızı Eş. 3.18’ deki gibidir. (3.17) (3.18) i’ inci parçacığın en iyi önceki pozisyonu, başka bir deyişle en iyi uyan değerli pozisyonu Eş. 3.19’ deki gibidir. (3.19) 16 Popülasyondaki (veya civarındaki) tüm parçacıklar arasında en iyi parçacığın indeksi g sembolü ile temsil edilir. Her bir parçacığın hızı Eş. 3.20 ve pozisyonu Eş. 3.21’ deki denklemler ile güncellenir. (3.20) = + Eş. 3.20’ deki (3.21) , bir sonraki iterasyonda mevcut hızını ne kadar koruduğuna karar veren eylemsizlik ağırlığıdır. Eylemsizlik ağırlığının uygun seçimi taneciklerin sömürü ve keşif yeteneği arasında bir denge sağlayabilir. öğrenme faktörleridir. ve pozitif ivmelenme katsayıları adında Öğrenme katsayıları genellikle 2 olarak alınır. ve , [0,1] aralığında değişen rastgele değer alan değişkenlerdir. Bir parçacığın hızı en yüksek hızı ’ dır. Eylemsizlik ağırlığının ayarlanması ile gösteren testler ve analizler vardır. ayarının etkisi yerine gelebileceğini her boyuttaki değişkenin aralığını ayarlar ve ayrıntılı deneylerde seçme ve ayarlama olmaksızın parçacıkların hızını başlatmakta kullanılır. PSO uygulanma aşamaları, başlatma, uygunluk değerlendirme ve hız ve pozisyon güncelleme ve durdurma kriterinin testi aşamalarını içeren genetik algoritma gibi diğer algoritmalara benzemektedir. 2.2.4. Hibrit yöntemler İstatistiksel yöntemler genellikle veri seti üzerinde tekrarlı hesaplama içermediklerinden daha hızlıdırlar. Verideki belirli bir sınıflandırıcıyla etkileşimini içermediklerinden verinin asıl özelliklerini değerlendirmektedirler. Hibrit yöntemler, sarmal ve istatistiksel yöntemlerin avantajlarını birlikte kullanabilmek için ortaya çıkmış yöntemlerdir. Bu yapılar hem sınıflandırıcı hem de arama algoritması içermektedir. Bu yapılar için hibrit denildiği gibi gömülü tabiri de kullanılmaktadır. Hibrit yapılara örnek olarak karar ağaçları, özyinelemeli öznitelik seçme tabanlı destek vektör makineleri (SVM-RFE), analitik hiyerarşi süreci tabanlı gizli markov model (AHP-HMM) verilebilir. 17 Karar ağaçları (DT) Yukarıdan aşağıya doğru bir ağaç yapısına sahip olan karar ağaçlarında seçilecek nitelikleri tespit etmede kullanılacak öğrenme algoritması büyük önem teşkil etmektedir [51]. Özniteliklerin iyi seçilme başarısı ile doğru orantılı olarak sınıflandırma başarısı da artacaktır. Karar ağaçlarında nitelik seçme yöntemi olarak kullanılan yöntemler istatistiksel yöntemlerdendir. Karar ağaçlarında X2, t-testi, f-testi, gini index, bilgi kazancı ve ortak bilgi gibi ölçütler kullanılarak öznitelik seçimi yapılmaktadır. Ayrıca karar ağaçları bir sınıflandırıcıya ihtiyaç duymaktadır. Bu da hesaplama maliyetini artırmaktadır. Özyinelemeli öznitelik seçme tabanlı destek vektör makineleri (SVM-RFE) Destek vektör makineleri ve özyinelemeli öznitelik seçme yapılarının birlikte kullanıldığı bir algoritmadır [52]. SVM sınıflandırıcısı ile bir eğitim işlemi yapıldıktan sonra eğitildikten sonraki sonuç ile bazı kriterlere dayanarak ağırlık vektörleri ile ağırlıklandırma işlemi gerçekleştirilmektedir. Elde edilen yeni değerler vasıtasıyla veriler sıralanmakta ve en küçük değerli öznitelik bilgisi alt kümeden elenmektedir. 2.3. Sınıflandırma Yöntemleri 2.3.1. Naive bayes sınıflandırıcı Naive Bayes sınıflandırıcı özellikler arasında bağımsız varsayımla basit bir olasılık sınıflandırıcıdır. Domingos and Pazzani [53] bu varsayımın beklenenden daha az etkisi olduğunu bulmuşlardır. Naive Bayes sınıflandırıcı eğitim verisinden öğrenir ve sonra test örneklerinin sınıflarını önceki en yüksek olasılıktan tahmin eder. C, örneklerin sınıfını gösteren rastgele bir değişken; X, (X1, X2 , ….., Xm )’ den oluşan bir gözlemlenen örnek değerlerini gösteren rastgele bir vektör; cj , j’ inci sınıf etiketi ve x, (x1, x2 ,…, xm )’ den oluşan belirli bir gözlemlenen nitelik değer vektörü olsun. Test örneği x’ in sınıfını tahmin etmek için Bayes teoremi olasılığın hesabını Eş. 3.22’ ye göre yapmaktadır. (3.22) 18 Sonra, test örneğinin sınıfı en yüksek olasılıklı olan sınıf olarak tahmin edilir. Denklemdeki anlamına gelmektedir. Test ifadesi örnekleri için, eğitim verisi kullanılarak hesaplama çok kolaydır. 2.3.2. Destek vektör makineleri (SVM) Destek vektör makineleri [54] farklı sınıfların özellik kümeleri arasındaki ayrımı en yüksek seviyeye çıkarmak için özellik vektör uzayında optimal hiper düzlemler oluşturarak sınıflandırma yapmaktadır. Bir hiper düzlem oluşturmak için, Eş. 3.23’ deki hata fonksiyonu en aza indirmek için tekrarlı bir öğrenme algoritması kullanılmaktadır. (3.23) Kısıtlamalar Eş. 3.24’ deki gibidir. i=1,2,….,n için, ve Denklemde, w katsayılar vektörü, b bir katsayı, (3.24) zor ya da gürültülü örneklerin yanlış sınıflandırılmasına izin veren parametrelerdir. Her bir i eğitim örneği için x i sınıf etiketi yi tarafından temsil edilen bağımsız değişkenlerdir. Çekirdek fonksiyonu K giriş verisini daha çok-boyutlu özellik uzayına taşır. Çekirdek fonksiyonu, doğrusal olmayan karar sınırını oluşturmak için kullanılır. 2.3.3. Doğrusal diskriminant analizi (LDA) İki veya daha fazla örnek grup arasındaki farklılıklar üzerinde çalışan diskriminant analizinde sınıfların gruplanmasında matematiksel eşitlikler kullanılır. Bu eşitlikler Diskriminant fonksiyonu olarak adlandırılır ve en çok benzeyen gruplar bulunarak grupların ortak özelliklerini belirlenir. Grupları ayırmak için kullanılan karakteristikler diskriminant değişkenleridir. Diskriminant analizi, iki veya daha fazla sayıdaki grubun farklılıklarının diskriminant değişkenleri kullanılarak ortaya konulmasıdır. Farklılığın en fazla hangi değişkenlerde olduğunun tespiti ve grupları ayıran faktörlerin tespitinde diskriminant analizi önemli rol oynar. 19 2.3.4. k-En yakın komşu (kNN) Bu algoritmada noktalar arası mesafelerden yararlanılmıştır ve her bir örneğe ait ne kadar nokta varsa değerlendirilerek ona göre işlem gerçekleştirilir. k en yakın komşu algoritması basit bir algoritma gibi görünse de birçok çalışmada başarısını kanıtlamış ve en yaygın kullanılan sınıflandırıcı algoritmaları arasında yerini almıştır [55,56]. Yapılan çalışmalara bakıldığında en yaygın olarak Öklid mesafesinin kullanılmıştır. Noktalar arası (öznitelikler arası) mesafe farkının kareleri toplamının karekökü alınarak elde edilen öklid mesafesi hesabında eğitim kümesindeki özniteliklerin değerleri ile test kümesindeki özniteliklerin değerlerin uzaklıkları bulunmaktadır [57]. Her bir sınıf için ayrı bir değer hesaplanır ve elde edilen sonuca göre örnek en büyük değere sahip sınıfa atanmaktadır. En yakın kaç komşu değerine bakılacağı önemli bir noktadır ve tek sayıda komşularına bakılmaktadır. 20 21 3. LİTERATÜR ÇALIŞMALARI Chen ve ark. (2014), gen seçimi için karar ağacı sınıflandırıcı ile birlikte parçacık sürüsü optimizasyonunu veri kümesinde bulunan binlerce gen içinden daha az sayıda bilgi verici olan genleri seçmek için yeni bir model olarak önermişlerdir. Önerdikleri metodun başarısını destek vektör makineleri, kendi kendini düzenleyen harita, geriye yayılım sinir ağı, karar ağacı gibi bilinen yöntemlerin sınıflandırma başarıları ile karşılaştırıldığında daha üstün başarı elde etmişlerdir. Biri Tayvan Ulusal Sağlık Sigortası Araştırma Veritabanı ndan elde edilmiş veriler olmak üzere diğerleri internetten ulaşılabilecek veriler olmak üzere 11 farklı kanser veri kümesi ile çalışmışlardır. Bilinen sınıflandırıcılardan olan DVM ile %72,46, kendi kendini düzenleyen harita ile %52,60, geriye yayılım sinir ağı ile %42,58, karar ağacı ile %93,14 elde edilirken geliştirilen PSOC4.5 metodu ile %97,26 oranında sınıflandırma başarısı elde etmişlerdir. PSO parametre ayarları ve yerel optimum yakalama sorunu üzerinde daha fazla çalışmalar yapılması gerekmektedir. Genetik algoritma ile bir hibrit metot geliştirilebilir. Bu hibrit metottaki genetik algoritmanın mutasyon operatörü kullanılarak parçacıkların çeşitlilik göstermesi sağlanarak yerel optimum sorunu çözülebileceği söylenerek gelecekte yapılabilecek çalışmalara dikkat çekmiştir [58]. Thanh ve ark. (2015), denetimli öğrenen gizli Markov modeli tasarımı ile elde edilen gen ifade profilleri ile kanser sınıflandırmasına bir yaklaşım sunmaktadır. Her bir tümör tipi gen ifadesi veri olasılığını maksimum yapan gizli Markov model ile modellenmiştir. Bilinen farklı genler analitik hiyerarşi sürecinin (AHP) değişikliğine dayanan yeni bir metod ile seçilmektedir. Geleneksel AHP metodu aksine, değiştirilmiş AHP her bir gen seçimi metodunun sonuçlarının sıralanmasını sağlamaktadır. Gen seçimi metodu olarak ttesti, entropi, alıcı işletim karakteristik eğrisi, Wilcoxon testi ve sinyal gürültü oranı kullanılmaktadır. Değiştirilmiş AHP istikrarlı ve kararlı bir gen alt kümesi oluşturmak için her bir gen seçme metodunun sıralama sonuçlarını birleştirmektedir. Deneysel çalışmalarda gizli Markov model yaklaşımının diğer altı sınıflandırma metoduna göre daha iyi performans gösterdiği görülmüştür. Sonuç olarak AHP ile oluşturulan gen alt kümesi, bilgi kazancı, simetrik belirsizlik, Bhattacharyya uzaklığı ve ReliefF gibi diğer gen seçim metotlarından daha fazla doğruluk ve kararlılık göstermiştir. Değiştirilen AHP sadece gizli Markov modelleme (HMM) sınıflandırıcısının değil diğer sınıflandırıcıların da 22 sınıflandırma performanslarını artırmıştır. Lösemi, bağırsak kanseri, prostat kanseri, DLBCL (diffuse large B-cell lymphomas) verileri üzerinde k en yakın komşu (kNN), olasılıklı sinir ağı (PNN), destek vektör makineleri (SVM), çok katmanlı algılayıcı (MLP), bulanık ARTMAP (FARTMAP), grup öğrenen AdaBoost ve yeni önerilen hibrit (AHPHMM) metodun sınıflandırma başarıları karşılaştırılmıştır. HMM %2,20 ile diğer sınıflandırıcılar arasında en küçük AUC standart sapma değerini vermiştir. DLBCL verisinin HMM ile sınıflandırılması ile diğer sınıflandırıcı sonuçları arasında en yüksek sonuç olan %98,83 doğruluk ve %98,14 AUC değeri elde edilmiştir [59]. Jin ve ark. (2015), yaptıkları çalışma ile çoklu destek vektör veri açıklama tabanlı hızlı bir öznitelik seçme metodu önermektedir. Tekrarlı olarak ilgisiz öznitelikler çıkarılarak özyinelemeli bir öznitelik eleme tasarısı önerilmektedir. Önerilen metot çoklu SVDD-RFE (MSVDD-RFE)’ dir. Bu metot her bir sınıf için alakalı gen alt kümesini bağımsız bir şekilde seçmektedir. Bu seçilen alakalı gen alt kümeleri birleşerek nihai gen alt kümesini oluşturmaktadır. MSVDD-RFE metodunun etkinliği ve doğruluğu beş genel mikro dizilim veri seti üzerinde geçerliliği sağlanmıştır. Bu önerilen metot diğer metotlardan daha hızlı ve daha efektiftir. Lösemi, kolon, tümör ve novartis veri setleri üzerinde ortalama %90 üzerinde başarı yakalanmıştır. Akciğer kanseri veri setinde istenilen başarı yakalanamamıştır. Önerilen metodun bu sınıf üzerindeki sınıflandırma başarısını artırmak için metoda grup öğrenmesi çalışması eklenmesi düşünülmektedir [60]. H. Banka ve S. Dara (2015), ikili parçacık sürüsü optimizasyonu tabanlı Hamming uzaklığı yöntemi önerilmiştir. Hamming uzaklığı, önemli öznitelikleri seçmek için ikili parçacık sürüsü optimizasyonundaki parçacık hızlarını güncelleme amacıyla yaklaşık değer olarak verilmektedir. Hesaplanan yaklaşık değer Hamming uzaklıkları kullanan önerilen HDBPSO yöntemiyle gen ifade verilerindeki önemli öznitelik alt kümelerinin daha iyi performans ile bulunabileceği görülmüştür. Leukemia, Colon, defuse dB-celllymphoma veri setleri üzerinde önerilen HDBPSO öznitelik seçme yöntemi uygulanarak çeşitli sınıflandırıcılar ile bu yönteminin başarısı ölçülmüş ve diğer öznitelik seçme yöntemlerinin başarıları ile karşılaştırılmıştır. %50 eğitim, %50 test olarak kullanılmış ve 10 kat çapraz doğrulama yapılmıştır. Kolon veri seti için önerilen metot ile elde edilen öznitelik alt kümesi LibLinear, SVM, MLP ve J48 sınıflandırıcılar ile sınıflandırıldığında %100 başarı göstermiştir. Lymphoma veri seti için önerilen metot LibLinear sınıflandırıcı ile %100 başarı göstermiştir. Leukemia veri seti için ise önerilen metot LibLinear, SVM, RF ve 23 MLP sınıflandırıcı ile %100 başarı göstermiştir. Her bir veri seti için diğer öznitelik seçme yöntemlerinin sınıflandırma başarıları, önerilen öznitelik seçme yönteminin sınıflandırma başarısından kötü çıkmıştır [61]. E. Lotfi and A.Keshavarz (2014) gen ifade verilerinin sınıflandırılması için temel bileşen analizi (PCA) ve beyin duygusal öğrenme (BEL) ağı tabanlı yeni hibrit bir yöntem önermişlerdir. BEL ağı nöropsikolojik özellikleri yansıtan duygusal beynin sayısal sinir modeli halidir. Bu sınıflandırıcının önemli bir ayırt edici özelliği hesaplama karmaşıklığı diğer sınıflandırıcılardan daha az olmasıdır. Çalışmada 5 kat çapraz doğrulama kullanılmıştır. Yeni önerilen hibrit PCA-BEL yöntemi ile küçük yuvarlak mavi hücreli tümörler (SRBCTs), yüksek dereceli gliomalar (HGG), akciğer (lung), kolon (colon) ve meme(breast) kanseri veri setleri sınıflandırılarak bulunan sınıflandırma başarıları sırasıyla %100, %96, %98,32, %87,40 ve %88’ dir [62]. Devi ve ark. (2015) karşılıklı bilgi (MI) tabanlı gen seçimi ve destek vektör makineleri (SVM) kullanarak hibrit bir yöntem önermişlerdir. Genler ve sınıf etiketleri arasındaki karşılıklı bilgi önemli genleri anlamak için kullanılır. Seçilen genler SVM sınıflandırıcıyı eğitmek için kullanılmış ve sınıflandırıcının testi bir çıkarımlı çapraz doğrulama (LOOCV) kullanılarak değerlendirilmiştir. Lenfoma ve kolon kanser veri setleri üzerinde çalışılmıştır. Kolon kanseri veri seti için karşılıklı bilgi (MI) ile bulunan 3 gen ile eğitilen sınıflandırıcı doğrulukları KNN ile %61,29, ANN ile %61,29, SVM (doğrusal) ile %74,19, SVM (Radyal) ile %64,51, SVM (quad) ile %38,70, SVM (pol) ile %64,51 bulunmuştur. Lenfoma veri seti için karşılıklı bilgi (MI) ile bulunan alakalı 4 gen ile eğitilen sınıflandırıcı doğrulukları KNN ile %90,9, ANN ile%100, SVM (doğrusal) ile %100, SVM (Radyal) ile %90,9, SVM (quad) ile %86,36, SVM (pol) ile %90,9 bulunmuştur [63]. Thanh ve ark. (2015), beş farklı istatistiksel yöntemin gen sıralama hesaplamasını ilişkilendirerek gen seçimi yapan yeni bir yöntem olarak değiştirilmiş analitik hiyerarşi yöntemini (MAHP) önermişlerdir. İki-örnek t testi, entropi testi, alıcı işletimi karakteristik eğrisi (ROC), Wilcoxon testi ve sinyal gürültü oranı olmak üzere beş farklı istatistiksel gene sıralama metodunun hesaplanan sonuçlarını karşılaştırarak gen seçimi yapar. Bilgi kazancı (IG), simetrik belirsizlik (SU), ReliefF ve Bhattacharyya uzaklığı (BD) öznitelik seçme yöntemleriyle kıyaslanmıştır. Bir çıkarımlı çapraz doğrulama (LOOCV) ile test ve eğitim kümeleri oluşturulmuştur. DLBCL, lösemi, prostat ve kolon kanseri verileri 24 kullanılmıştır. Doğrusal Ayırma Analizi (LDA), K en yakın komşu (kNN), olasılıklı sinir ağı (PNN), destek vektör makineleri (SVM), çok katmanlı algılama (MLP) sınıflandırıcıları ile önerilen yöntemin ve mevcut bahsedilen diğer gen seçme metotlarının sınıflandırma başarıları her bir veri kümesi için ayrı ayrı bulunarak karşılaştırılmıştır. Lösemi veri kümesi için, en yüksek başarı %97,36 sınıflandırıcılar arasından KNN ve gen seçim metotları arasından bu çalışmada önerilen metot (MAHP) uygulandığında bulunmuştur. Kolon veri kümesi için, en yüksek başarı %87,9 LDA ve MAHP birlikte uygulandığında bulunmuştur. Prostat veri kümesi için, en yüksek başarı %91,18 LDA ve MAHP birlikte uygulandığında bulunmuştur. DLBCL veri kümesi için, en yüksek başarı %98,31 LDA ve MAHP birlikte uygulandığında bulunmuştur [64]. Dajun ve ark. (2014), çeşitli ilişkilerle en önemli genlerin seçimini yapmak için yeni ileri gene seçim algoritmasını (FGSA) önermektedirler. Beş kat çapraz doğrulama kullanılmıştır. Artrit veri kümesinde Elastik Net algoritması ile %88, İleri Gen Seçim Algoritması(FGSA) algoritması ile %91,85 başarı elde edilmiştir. Kolon veri kümesinde üstünde Elastik Net algoritması ile %93,69, FGSA algoritması ile %94,77 başarı elde edilmiştir. Lösemi veri kümesi üstünde FGSA sınıflandırıcı ile %98.41 başarı elde edilmiştir [65]. Jie ve ark.(2015), geliştirilmiş yer çekimi arama algoritmasına dayalı ikili problemlere uygun yeni hibrit bir yöntem önermişlerdir. Bu algoritma genel arama ve yerel aramayı hızlandırmak için sıralı karesel programlama yapmak için parçalı doğrusal kaotik haritalama yapar. Yerçekimi arama algoritmasına parçalı doğrusal kaotik haritalama (PWL) ve sıralı karesel programlama (SQP) algoritmaları katılarak geliştirilmiş yerçekimi algoritması(IGSA) ortaya konulmuştur. Bu algoritma UCI makine öğrenmesi sitesindeki çeşitli öznitelik seçen örneklerle yöntemleriyle karşılaştırılmış daha az alakalı gen ve ve daha iyi başarı elde edilmiştir. Geliştirilmiş yer çekimi arama algoritması (IGSA) 23 lineer olmayan kıyaslama fonksiyonu ile ve 5 sezgisel algoritma ile karşılaştırılarak test edilmiştir. Bu sezgisel algoritmalar sırasıyla Genetik Algoritma(GA), ikili parçacık sürü optimizasyonu (BPSO), Kuantum esinli parçacık sürü optimizasyonu (QBPSO), ikili yerçekimi arama algoritması (BGSA), geliştirilmiş yerçekimi arama algoritması (IGSA)’ dır. Wisconsin meme kanseri veri kümesinde önerilen BIGSA optimizasyonu kNN sınıflandırıcıda 26 gen ile diğer optimizasyonlar arasında en yüksek AUC değeri 98,1 elde edilmiştir. kNN sınıflandırıcı için k değeri 1 seçilmiştir. Bir çıkarımlı çapraz doğrulama 25 (LOOCV) ile test ve eğitim kümeleri oluşturulmuştur. PIMA Diabetes veri kümesinde önerilen BIGSA optimizasyonu kNN sınıflandırıcıda 8 gen ile diğer optimizasyonlar arasında en yüksek AUC değeri 75.1 elde edilmiştir [66]. B. Chandra ve K.V. Naresh Babu (2014), dalgacık Radyal Tabanlı Sinir Ağı (WRNN)’ nın gen ifade verilerine uygulamayı önermişlerdir. Çivileme fonksiyonu olarak doğrusal olmayan bütünleşmiş ve yangın model ve diğer çivileme aralığı türetilmiş ve Dalgacık Radyal Tabanlı Sinir Ağı (WRNN)’ nda kullanılmış ve bu yeni modele Çivileme Dalgacık Radyal tabanlı Sinir Ağı (SWRNN) adı verilmiştir. Karaciğer tümörü, Genel Kanser Haritası (GCM), Glioma, meme kanseri,11-tümor ve Hepato hücresi veri kümelerinde test edilmiştir. On kat çapraz doğrulama ile test ve eğitim kümeleri oluşturulmuştur. WRNN, standart metot ve SWRNN metodu ile yapılan sınıflandırma başarıları her bir veri kümesi için en yüksek olanı SWRNN metodundan elde dilmiştir. Veri kümelerinde sırasıyla %99,651, %99,79, %98,47, %96,02, %73,79 ve %97,77 sınıflandırma başarıları elde edilmiştir [67]. T.Latkowski ve S. Osowski (2015), en iyi temsil eden gen özniteliklerinin bulunarak sınıflandırıcıya girdi olarak verilmesini sağlayan farklı gen seçim yöntemlerinin bir uygulamasını sunmaktadır. Birkaç gen seçim metodu ile seçilen genler Genetik algoritma ve destek vektör makineleri birlikte uygulanarak başarı elde edilmiştir. 10 kat çapraz doğrulama yapılmış ve tüm verilerin %40’ı test ,%60’ı eğitim olarak kullanılmıştır.%%60 seçilen eğitim verisine 8 farklı öznitelik seçme yöntemi uygulanıyor. Fisher korelasyon analizi (FDA), Relief F algoritması (RFA), iki örnek t testi (TT), Kolmogorov–Smirnov testi (KST), Kruskal–Wallistest (KWT), aşamalı regresyon metodu (SWR),sınıfla öznitelik ilişkisi (COR), SVM-RFE metodu olmak üzere 8 öznitelik seçme metodu ile seçilmektedir. Her bir yöntemde seçilen öznitelikler genetik algoritma ile tekrar seçilmektedir. Az sayıda bulunan en iyi özniteliklere ait test bilgileri destek vektör makineler sınıflandırıcısı ile sınıflandırılıyor ve başarımı ölçülmektedir. Önerilen yöntemle %86.07 ile diğer sınıflandırıcılar arasında en yüksek başarı elde etmiştir. Ayrıca aynı sayıda en iyi değil de rastgele seçilen genlerin sınıflandırıcıdaki başarısı %67,16 bulunmuştur [68]. Hui ve ark. (2014), benzemezlik ile oylama tabanlı aşırı öğrenme makineleri (V-ELM) birlikteliğine dayanan bir metot önermişlerdir. Aşırı öğrenme makineleri (ELM) üstün genelleme performansları ve hızlı öğrenmeleri ile veri sınıflandırmak için kullanılan 26 yöntemlerden olmasına rağmen tek başına kullanıldığı zaman sınıflandırmada kararsız olduğu gözlemlenmiştir. Bu yüzden, bu çalışmada aşırı öğrenme makineleri topluluğu olarak kullanılmıştır. Topluluk havuzundan birkaç aşırı öğrenme makinesi farklı benzemezlik ölçülerine dayanarak çıkarılarak topluluk sınıflandırıcısı olarak aşırı öğrenme makineleri çoğunluk oylaması ile gruplandırılmıştır. Benzemezlik aşırı öğrenme makinesini (D-ELM) doğrulamak için benzemezlik ölçüsü ve çift hata ölçüsü kullanılır. Diyabet, kalp ve lösemi veri setleri kullanılmıştır. Her bir veri seti üzerinde farklı sayıda (1 ile 60 arası) seçilen ELM’ ler için DF-D-ELM, D-D-ELM, toplayarak önyükleme (Bagging (Bootstrap aggregating)) ve V-ELM’ nin sınıflandırma başarılarına bakılmıştır. Lösemi veri setinde DF-D-ELM metodunda birçok farklı ELM sayısında diğer üç metottan daha yüksek olan %100 başarı göstermiştir. Kalp veri setinde, en yüksek başarı olan %76,77 ELM sayısı 40 iken D-D-ELM metodunda ve ELM sayısı 35 iken DF-D-ELM metodunda bulunmuştur. Diyabet veri setinde, ELM sayısı 25 iken DF-D-ELM metodunda sağlanmıştır. DF−D−ELM, D−D−ELM, V-ELM ve toplayarak önyükleme (Bagging) algoritmalarının her üç veri setindeki sınıflandırma doğruluğu grafiksel olarak karşılaştırılmış ve en yüksek başarının DF−D−ELM‘ de olduğu görülmektedir. DF−D−ELM algoritması rastgele orman (random forest) algoritması ile sınıflandırma doğruluğu açısından kıyaslanmış ve her üç veri seti için DF−D−ELM algoritması en iyi sonuçları verdiği grafiklerde gösterilmiştir. Sonuç olarak, D-ELM daha az sayıda aşırı öğrenme makinesi ile daha iyi sınıflandırma doğruluğu göstermiştir. D-ELM’ e bağlı çift hata ölçüsü (DF-D-ELM), D-ELM’ e bağlı benzemezlik ölçüsüne (D-D-ELM) göre daha iyi performans göstermiştir [69]. Bolón-Canedo ve ark.(2015), öznitelik seçme işleminin paylaştırılması için yeni bir metot önermişlerdir. Bu metot öznitelikler ile ilgili olan yani dikey paylaştırma yaparak veriyi paylaştırır ve daha sonra sınıflandırma doğruluğundaki gelişmeye göre öznitelik alt kümelerini güncelleyerek birleştirme işlemi yapar. Bu metot Kolon, Lösemi, CNS, DLBCL, Prostat, Akciğer, yumurtalık kanseri, Meme olmak üzere 8 mikro dizilim veri seti üzerinde uygulanarak çalışma zamanı ve performans açısından sonuçları değerlendirilmiştir. Bu metot çalışma zamanını gözle görülür şekilde kısaltmasına karşın, performans aynı kalmış ya da paylaştırılmamış veri setlerine uygulanan standart algoritmalar ile karşılaştırıldığında önerilen metot ile performansın iyileştirilmiş olduğu görülmektedir. Tek değişkenli ve çok değişkenli olmak üzere iki farklı öznitelik seçme sıralayıcısı vardır. Çalışmada öznitelik seçme sıralayıcısı olarak tek değişkenli metotlardan 27 olan bilgi kazancı ve ReliefF seçilmiştir. Önerilen paylaştırılmış algoritmanın iki temel farklı versiyonu vardır. Birincisi paylaştırılmış sıralayıcı filtre (DRF), ikincisi verileri rastgele bölen paylaştırılmış filtre (DF)’ dir. DRF ve ondan türeyen bilgi kazancının sıfır olduğu DRF0 doğruluk açısından en iyi performansı göstermiştir [70]. Sampreeti ve ark.(2014), gen ifade verilerinde boyut indirgemek ve özellik kümelemek için rastgele aramaya dayalı büyük uygulamaların bulanık kümelemesi (FCLARANS) öznitelik seçme yöntemini önermişlerdir. Gen ontoloji ve farklı gen ifadelerine dayalı alansal bilgiler kullanılmaktadır. Alansal bilgilerin kullanımı biyolojik olarak anlamlı bölümlerin otomatik olarak seçilmesinde etkili rol oynar. Gen ontoloji çalışması istatistiksel önemli kümelerin bulunmasına yardımcı olur. Bu kümelerin temsilcileri olarak farklı ifade edilmiş genleri seçmek için kat değişimleri hesaplanmaktadır. Genlerin indirgenmiş alt kümesini topluca oluşturmak için her bir kümeden en iyi temsilci geni seçebilmek adına kat değişimi hesaplanarak genlerin farklı ifadesi hesaplanmaktadır. Kolon, Medullo-blastoma, mide, lösemi veri setleri kullanılmıştır. Her bir veri setinde EBayes, PLSCV, RFMDA, SAM, FCLARANS (önerilen) olmak üzere beş algoritma ve kNN, MLP, NB, karar ağacı, rastgele orman sınıflandırıcıları kullanılmıştır. %100 başarı oranı 32 gen ile mide veri setinde FCLARANS ve kNN ile rastgele orman ve kNN birlikte kullanımlarında elde edilmiştir [71]. Sina ve ark. (2015), genler arasındaki ilişkiyi maksimum, artıklığı minimum tutarak bir filtreleme yaklaşımı kullanan karınca koloni algoritması içeren MGSACO isimli denetimsiz bir gen seçme metodu önermişlerdir. Seçilen genlerin altkümelerinin değerlendirilmesi için hiçbir öğrenme modeline ihtiyaç duymayan önerilen metoda yeni bir uygunluk fonksiyonu uygulanmıştır. Önerilen metodun sınıflandırma başarısı beş halka açık mikro dizilim gen veri seti üzerinde uygulanmıştır. Yedi tane iyi bilinen denetimli ve denetimsiz gen seçme metodu ile önerilen yöntem karşılaştırılmış ve iyi bilinen sınıflandırıcılardan destek vektör makineleri, naiveBayes ve karar ağacı sınıflandırıcıların hata oranları karşılaştırılmıştır. Kolon, SRBCT, Lösemi, Prostat tümörü, akciğer kanseri veri setlerinde 20 gen seçimi ve destek vektör makineleri sınıflandırıcı ile beş veri setinde elde edilen ortalama hata oranları arasında %21,28 ile en düşük önerilen metotta (MGSACO) çıkmıştır. Belirtilen veri setlerinde 20 gen seçimi ve karar ağacı sınıflandırıcı ile beş veri setinde elde edilen ortalama hata oranları arasında %20,14 ile en düşük önerilen metotta çıkmıştır. Belirtilen veri setlerinde 20 gen seçimi ve karar ağacı 28 sınıflandırıcı ile beş veri setinde elde edilen ortalama hata oranları arasında %23,83 ile en düşük önerilen metotta çıkmıştır. Önerilen metot (MGSACO), karınca koloni algoritmasına dayalı denetimsiz öznitelik seçme metodu (UFSACO), rastgele alt uzay metodu (RSM), karşılıklı ilişki (MC), alakalılık artıklık öznitelik seçimi (RRFS), süreli varyans (TV), Laplace puanı (LS) metotlarıyla gen seçimleri(10 ila 100 adet) her bir veri seti için destek vektör makineleri, naiveBayes ve karar ağacı olmak üzere üç sınıflandırıcıda sınıflandırılıp hata sonuçları bulunmuştur. Beş veri setinde her bir sınıflandırıcıyla bulunan hata sonuçlarının ortalaması alınarak destek vektör makineleri, naiveBayes ve karar ağacı sınıflandırıcıdaki yedi gen seçim metodunun hata oranları karşılaştırılmıştır. SVM sınıflandırıcı için %1,4 ile, NB sınıflandırıcı için %2,0 ile, karar ağacı için %1,5 ile en düşük hata oranları yedi metot arasından önerilen metotta elde edilmiştir. Metodun döngüsel geliştirilmesi ve nüfus tabanlı olmasından dolayı, denetimsiz gen seçim metodu olan MGSACO, denetimli minimum artıklık maksimum alakalılık gen seçim metodu olan mRMR ile karşılaştırıldığında önerilen metodun önemli ölçüde daha iyi performans gösterdiği görülmüştür. Deney sonuçları, MGSACO mevcut yöntemlere göre farklı sınıflandırıcıların ve veri kümeleri üzerinde önemli ölçüde üstün olduğunu göstermektedir [72]. Subhajit ve ark. (2015), gen seçme tekniklerine dayalı k en yakın komşu ile beraber parçacık sürüsü optimizasyonu (PSO) yöntemi önerilmiştir. Bu yöntem, minimum sayıda olası anlamlı gen alt kümelerini seçmede kullanılmıştır. Küçük yuvarlak mavi hücre tümörü (SRBCT), akut lenfoblastik lösemi (ALL) and akut miyeloid lösemi (AML) ve karışık kökenli lösemi (MLL) veri setleri üzerinde önerilen yöntem uygulanmıştır. Kör test numuneleri, bilgilendirici genlerin sayıları ve hesaplama süresi açısından önerilen yöntemin yararları deneysel sonuçlar ile görülmüştür [73]. 29 4. DENEYSEL ÇALIŞMALAR Bu tez çalışmasında halka açık bir veri kümesi olan yumurtalık kanseri gen veri seti üzerinde deneysel çalışmalar yapılmıştır [74]. Bu veri seti aynı zamanda Petricoin ve ark. tarafından 2002 yılında yapılan çalışmada kullanılan veri setidir [75]. Yumurtalık kanseri veri setinde 253 adet örnek(denek/insan) ve 15154 adet gen ifade verisi bulunmaktadır. 253 tane örneğin 91 tanesi sağlıklı birey, 162 tanesi yumurtalık kanseri hastalığına yakalanmış (biyopsi sonucuna göre) birey olarak tanımlanmıştır. 15154 adet gen ifade verisi, hastalıkta rol oynayabilecek genlerin hasta bireyler ve normal bireyler üzerinde etkin değerlerini gösteren gen ifadeleri olarak açıklanabilir. Hastaların %80’ inden fazlası yumurtalık kanserinin geç klinik evresinde bulunmakta olduğu ve bu evredeki hastaların %35’i 5 yıllık hayatta kalım süresi ile ilişkilendirilmiştir. Buna karşılık, birinci evrede bulunan yumurtalık kanserli hastaların %90’ından fazlası 5 yıllık hayatta kalım süresi ile ilişkilendirildiği ve bu evredeki hastaların çoğunun sadece cerrahi müdahale ile hastalıklarının tedavi edilmekte olduğu belirtilmiştir. Genlerin bilgileri kütle / yük (m / z) konumlarındaki en yüksek genlik değerleri ile tanımlanarak elde edilmiştir. Veri setindeki örneklerin bilgileri, Northwestern Üniversitesi Hastanesi Ulusal Yumurtalık Kanseri Erken Teşhis Programı (NOCEDP)’ ndan elde edilmiştir [75]. Yumurtalık kanseri gen ifade veri kümesindeki veriler normalize edilmiştir. Maksimumminimum normalizasyonu kullanılarak değerler 0-1 değer aralığına çekilmiştir. Normalize edilen yeni veri kümesinde kayıp değerler (NaN) olması ihtimali bulunduğundan ‘NaN’ değer bulunan genler veri kümesinden çıkarılabilmesi için filtreleme yapılmıştır. Ancak, yumurtalık kanseri gen kümesinde kayıp değerler olmadığından filtrelendikten sonra da örnek ve öznitelik sayısı aynı kalmıştır. Veri setinde çok sayıda gen bulunduğundan, öncelikle Fisher korelasyon skorlama (FKS) ve Weltch t istatistiği (WTS) olmak üzere iki farklı öznitelik seçme yöntemi kullanılarak gen öznitelikleri çıkan sonuçlar ışında ilgililik sıralamasına tabi tutulmuştur. Bu sıralamaya göre öznitelik kümesinden ilk 100 örnek alınmış daha sonra ilk 200 örnek alınmış ve 100 artırımlı olarak tüm veri setinin sınıflandırma başarıları ölçülmüştür. Fisher korelasyon skorlama ve weltch t testi sonucu en yüksek değere sahip ilk 100 gen seçilerek, seçilen genler iki farklı sınıflandırma yöntemi ile sınıflandırmaya tabi tutulmuştur. k en yakın komşu (kNN) ve destek vektör 30 makineleri (SVM) sınıflandırıcılar kullanılarak sınıflandırma başarıları ölçülmüştür. Sınıflandırma yapılırken her bir sınıfa ait örneklerin %40’ ı eğitim, %60’ ı test verisi olarak rastgele örnekler seçilmiştir. Öncelikle rastgele seçilen bir eğitim ve test verisi seçilerek başarı tabloları ve grafikleri Çizelge 4.1, Çizelge 4.2, Çizelge 4.3, Çizelge 4.4 deki çizelgeler ve Şekil 4.1, Şekil 4.2, Şekil 4.3, Şekil 4.4’deki şekiller elde edilmiştir. Daha sonra eğitim ve test verileri olarak 10 faklı kez sınıflandırma başarıları hesaplanmıştır. Bu 10 kez yapılan sınıflandırma başarıları tablosu Çizelge 4.5 ve Çizelge 4.6’ da verilmiştir. Sınıflandırıcılardan kNN için 1, 3, 5, 7, 9 ve 11 olarak farklı k değerleri ve SVM için ise doğrusal, radyal, polinomsal ve karesel olarak farklı çekirdek fonksiyonları ile sınıflandırma başarıları ölçülmüştür. Çizelge 4.1 ve Şekil 4.1’ de FKS ile elde edilen değerlere göre ilk 100, ilk 200, ilk 300 ve 100 artırımlı olarak tüm veri kümesindeki genler alınarak kNN sınıflandırıcının farklı değerleri ile sınıflandırma başarıları gösterilmektedir. Çizelge 4.2 ve Şekil 4.2 ’te FKS ile elde edilen değerlere göre ilk 100, ilk 200, ilk 300 ve 100 artırımlı olarak tüm veri kümesindeki genler alınarak SVM sınıflandırıcının farklı değerleri ile sınıflandırma başarıları gösterilmektedir. Çizelge 4.3 ve Şekil 4.3’ te WTS ile elde edilen değerlere göre ilk 100, ilk 200, ilk 300 ve 100 artırımlı olarak tüm veri kümesindeki genler alınarak kNN sınıflandırıcının farklı değerleri ile sınıflandırma başarıları gösterilmektedir. Çizelge 4.4 ve Şekil 4.4’ te WTS ile elde edilen değerlere göre ilk 100, ilk 200, ilk 300 ve 100 artırımlı olarak tüm veri kümesindeki genler alınarak SVM sınıflandırıcının farklı değerleri ile sınıflandırma başarıları gösterilmektedir. Çizelge 4.1’ de Fisher korelasyon ile sıralanmış genlerden ilk 100 gen için en yüksek başarı değerleri elde edilmiştir. Gen seçilmeksizin tüm veri setine kNN (k=1 için) sınıflandırıcısı uygulandığında %88,74 bulunurken, ilk 100 gen için %99,34 başarı elde edilmiştir. k değişkeninin farklı değerleri için ilk 100 gende yapılan sınıflandırma sonucu en iyi sınıflandırma başarısı k değerinin 1 alındığı durumda elde edilmiştir. En iyi sınıflandırma başarısı FKS ile ilk sıralanmış 1000 örneğe kadar kNN sınıflandırıcının k değişkeninin farklı değerlerinin hepsinde de tüm veri setinden elde edilen başarıdan daha fazla başarı elde edilmiştir. Bu sonuçlardan önerilen ilgililik sıralaması yapılarak sıralandırılmış gen öznitelikleri seçilerek gen veri setinin boyutu indirgenerek daha az boyutlu veri kümesinin sınıflandırılması daha iyi başarı elde etmeye yaramıştır. 31 Çizelge 4.1. FKS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları FKS sıralı indirgenmiş gen verisi KNN KNN KNN KNN KNN KNN (k=1) (k=3) (k=5) (k=7) (k=9) (k=11) % % % % % % İlk 100 gen 99,34 98,01 98,01 98,01 98,01 98,01 İlk 200 gen 98,68 98,01 98,01 98,01 96,69 96,69 İlk 300 gen 98,68 98,01 97,35 97,35 96,03 95,36 İlk 400 gen 98,68 97,35 96,69 96,69 95,36 96,03 İlk 500 gen 98,01 97,35 96,03 96,03 95,36 95,36 İlk 600 gen 97,35 96,69 95,36 95,36 94,70 94,04 İlk 700 gen 96,69 96,69 96,03 96,03 94,04 93,38 İlk 800 gen 97,35 96,03 96,03 95,36 94,04 94,04 İlk 900 gen 98,01 96,69 96,03 95,36 94,70 94,04 İlk1000 gen 98,01 96,69 96,03 95,36 94,70 93,38 Tüm veri 88,74 86,75 86,75 87,42 85,43 85,43 Çizelge 4.2’ de Fisher korelasyon ile sıralanmış genlerden ilk 100 gen için en yüksek başarı değerleri elde edilmiştir. Gen seçilmeksizin tüm veri setine SVM (çf=lineer için) sınıflandırıcısı uygulandığında %98, 68 bulunurken, ilk 100 gen için %100 başarı elde edilmiştir. SVM’ nin farklı çekirdek fonksiyonları için ilk 100 gende en iyi sınıflandırma başarısı SVM çekirdek fonksiyonunun doğrusal (çf=lineer) seçildiği durumda elde edilmiştir. En iyi sınıflandırma başarısı önerilen metot ile ilk sıralanmış 1000 örneğe kadar SVM sınıflandırıcının tüm çekirdek fonksiyonlarının hepsinde de tüm veri setinden elde edilen başarıdan daha fazla başarı elde edilmiştir. 32 Çizelge 4.2. FKS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları FKS sıralı SVM SVM SVM SVM indirgenmiş (ÇF=Lineer) (ÇF=Polinom) (ÇF=Quadratik) (ÇF=Radyal) gen verisi % % % % İlk 100 gen 100,00 98,01 97,35 63,58 İlk 200 gen 100,00 98,68 96,03 63,58 İlk 300 gen 100,00 98,68 94,04 63,58 İlk 400 gen 99,34 98,68 94,04 63,58 İlk 500 gen 99,34 98,68 94,70 63,58 İlk 600 gen 99,34 98,68 94,04 63,58 İlk 700 gen 99,34 98,68 93,38 63,58 İlk 800 gen 99,34 98,68 93,38 63,58 İlk 900 gen 99,34 96,03 92,05 63,58 İlk 1000 gen 99,34 94,70 91,39 63,58 Tüm veri 98,68 63,58 43,71 63,58 Çizelge 4.3’ te Weltch t testi ile sıralanmış genlerden ilk 100 gen ve k=11 için en yüksek başarı değeri %100 sınıflandırma başarısı elde edilmiştir. Gen seçilmeksizin tüm veri setine kNN (k=11 için) sınıflandırıcısı uygulandığında %85,43 bulunurken, ilk 100 gen için %100 başarı elde edilmiştir. En iyi sınıflandırma başarısı WTS ile ilk sıralanmış 1000 örneğe kadar kNN sınıflandırıcının k’ nın farklı değerlerinin hepsinde de tüm veri setinden elde edilen başarıdan daha fazla başarı elde edilmiştir. Bu sonuçlardan önerilen ilgililik sıralaması yapılarak sıralandırılmış gen öznitelikleri seçilerek gen veri setinin boyutu indirgenerek daha az boyutlu veri kümesinin sınıflandırılması daha iyi başarı elde etmeye yaramıştır. 33 Çizelge 4.3. WTS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları WTS sıralı indirgenmiş gen verisi kNN kNN kNN kNN kNN kNN (k=1) (k=3) (k=5) (k=7) (k=9) (k=11) % % % % % % İlk 100 gen 98,01 98,68 98,01 98,01 98,01 100 İlk 200 gen 98,68 97,35 98,01 97,35 96,03 97,35 İlk 300 gen 99,34 98,01 98,01 96,69 96,03 96,03 İlk 400 gen 98,01 97,35 97,35 96,69 96,03 94,7 İlk 500 gen 98,01 96,69 96,69 96,03 95,36 94,7 İlk 600 gen 98,01 96,69 96,69 95,36 96,03 95,36 İlk 700 gen 98,01 96,69 96,03 96,03 96,03 95,36 İlk 800 gen 98,01 96,69 96,03 95,36 96,03 94,7 İlk 900 gen 98,68 96,03 96,03 95,36 96,03 95,36 İlk 1000 gen 98,68 96,03 96,69 95,36 95,36 94,7 Tüm veri 88,74 86,75 83,44 87,42 85,43 85,43 Çizelge 4.4’ de Weltch t testi ile sıralanmış genlerden ilk 100 gen için %99,34 başarı elde edilmiştir. Gen seçilmeksizin tüm veri setine SVM (çf=lineer için) sınıflandırıcısı uygulandığında %98, 68 bulunurken, ilk 200 gen için %100 başarı elde edilmiştir. SVM’ nin farklı çekirdek fonksiyonları arasında en iyi sınıflandırma yapan doğrusal olurken, en kötü ise radyal çekirdek fonksiyon olmuştur. SVM çekirdek fonksiyonu karesel (quadratic) seçildiğinde en iyi başarı ilk 100 gen için bulunmuştur. En iyi sınıflandırma başarısı önerilen metod ile ilk sıralanmış 1000 örneğin SVM ile sınıflandırılması radyal hariç diğer tüm çekirdek fonksiyonlarının hepsinde de tüm veri setinden elde edilen başarıdan daha fazla başarı elde edilmiştir. 34 Çizelge 4.4. WTS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları WTS sıralı SVM SVM SVM SVM indirgenmiş (ÇF=Lineer) (ÇF=Polinom) (ÇF=Quadratik) (ÇF=Radyal) gen verisi % % % % İlk 100 gen 99,34 98,01 97,35 63,58 İlk 200 gen 100 98,68 96,03 63,58 İlk 300 gen 100 99,34 94,04 63,58 İlk 400 gen 100 99,34 9073 63,58 İlk 500 gen 100 99,34 92,05 63,58 İlk 600 gen 100 99,34 93,38 63,58 İlk 700 gen 100 98,01 92,72 63,58 İlk 800 gen 100 98,01 92,05 63,58 İlk 900 gen 99,34 95,36 88,74 63,58 İlk 1000 gen 99,34 94,7 86,09 63,58 Tüm veri 98,68 63,58 43,71 63,58 Şekil 4.1, Şekil 4.2, Şekil 4.3 ve Şekil 4.1, Çizelge 4.1, Çizelge 4.2, Çizelge 4.3 ve Çizelge 4.4’ deki bilgileri içermekte olup ilk 100 örnekten 100 artırımlı olarak tüm veri kümesine kadar seçilen özniteliklerin sınıflandırma başarılarını göstermektedir. Şekil 4.1 ve Şekil 4.3 iki farklı yöntemle sıralanmış özniteliklerin kNN sınıflandırıcısındaki başarılarını, Şekil 4.2 ve Şekil 4.4 ise iki farklı yöntemle sıralanmış özniteliklerin SVM sınıflandırıcısındaki başarılarını göstermektedir. 35 Şekil 4.1. FKS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları 36 Şekil 4.2. FKS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları 37 Şekil 4.3. WTS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları 38 Şekil 4.4. WTS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları 39 Çizelge 4.5. FKS sıralı indirgenmiş gen verisinin ortalama sınıflandırma sonuçları FKS sıralı KNN KNN KNN KNN KNN KNN SVM SVM SVM SVM indirgenmiş (k=1) (k=3) (k=5) (k=7) (k=9) (k=11) (ÇF= (ÇF= (ÇF= (ÇF= % % % % % % Lin.) Pol.) Quad) Rad) % % % % gen verisi İlk 100 gen 100 98,6 98,0 97,3 97,3 97,35 99,34 98,01 98,01 88,7 İlk 200 gen 100 98,0 97,3 98,0 96,6 96,69 100 98,68 96,69 88,7 İlk 300 gen 100 97,3 96,6 96,6 96,0 96,03 100 99,34 97,35 88,7 İlk 400 gen 100 97,3 96,6 96,6 94,7 94,04 100 98,68 98,01 88,7 İlk 500 gen 99,3 97,3 96,6 96,0 94,7 94,7 100 99,34 96,69 88,7 İlk 600 gen 99,3 98,0 96,0 96,0 94,7 93,38 100 98,01 96,03 88,7 İlk 700 gen 100 96,6 96,6 96,0 94,7 93,38 100 96,03 94,7 88,7 İlk 800 gen 100 96,6 96,6 95,6 94,0 94,04 100 97,35 94,7 88,7 İlk 900 gen 100 96,6 96,0 94,7 94,0 94,7 99,34 95,36 93,38 88,7 İlk1000gen 99,3 96,0 96,0 95,3 94,7 94,04 99,34 90,07 92,72 88,7 Tüm veri 90,0 84,1 82,1 80,7 81,4 81,46 99,34 35,76 42,38 88,7 Çalışmanın farklı test ve eğitim verileri ile eğitilerek ve test edilerek sınıflandırıcıların başarılarının ortalaması alınmıştır. Çizelge 4.5’ te bu 10 farklı eğitim ve test verisi ile yapılan sınıflandırıcı başarılarının ortalaması görülmektedir. En iyi başarının destek vektör makineleri lineer çekirdek fonksiyonunda ve k en yakın komşu sınıflandırıcısının k=1 olduğu durumda elde edildiği görülmektedir. Ayrıca tüm veri seti öznitelik seçmeden önce kNN (k=1) sınıflandırıcıda %90,07 başarı ile sınıflandırılırken ilk 100 öznitelik seçildiğinde %100 başarı elde edildiği görülmektedir. 40 Çizelge 4.6. WTS sıralı indirgenmiş gen verisinin ortalama sınıflandırma sonuçları FKS sıralı KNN KNN KNN KNN KNN KNN SVM SVM SVM SVM indirgenmiş (k=1) (k=3) (k=5) (k=7) (k=9) (k=11) (ÇF= (ÇF= (ÇF= (ÇF= % % % % % % Lin.) Pol.) Quad.) Rad.) % % % % gen verisi İlk 100 gen 98,0 97,3 97,3 97,3 97,3 97,35 100 97,35 96,69 61,5 İlk 200 gen 97,3 96,6 96,6 96,6 96,6 96,69 100 98,01 94,7 61,5 İlk 300 gen 97,3 96,0 96,6 96,0 96,0 95,36 99,34 98,68 91,39 61,5 İlk 400 gen 97,3 95,3 96,0 95,3 95,3 94,04 99,34 98,01 93,38 61,5 İlk 500 gen 97,3 96,0 96,0 95,3 94,7 94,04 99,34 88,74 93,38 61,5 İlk 600 gen 96,6 96,0 96,0 95,3 94,0 94,04 99,34 82,78 93,38 61,5 İlk 700 gen 96,0 95,3 95,3 95,3 94,7 92,72 99,34 74,83 92,72 61,5 İlk 800 gen 96,0 95,3 94,7 94,7 94,7 92,05 99,34 75,5 92,05 61,5 İlk 900 gen 96,6 95,3 94,7 94,0 94,7 93,38 99,34 70,86 90,73 61,5 İlk1000gen 96,6 95,3 95,3 93,3 93,3 93,38 99,34 70,2 90,73 61,5 Tüm veri 87,4 83,4 81,4 81,4 80,7 78,15 98,68 38,41 50,99 61,5 Çizelge 4.7.’ de Weltch T istatistiği ve Fisher korelasyon skorlama sonucu tüm veri setindeki gen ifade verilerine ait ağırlıklandırma değerlerine göre sıralanarak gen ifade verilerinin veri setindeki sıralamaları listelenmiştir. İlk 18’ deki WTS ve FKS ile seçilmiş veri setindeki gen sıra değerlerine bakılacak olursa sadece 1 tane hariç aynı gen numaralarının farklı sırada olduğu görülmektedir. Bu sonuç, benzer değerleri kullanarak ağırlıklandırma değerleri bulan WTS ve FKS istatistiksel metotları sıralama yaparken aynı genleri farklı sırada seçmesi doğru şekilde ağırlıklandırma değerleri bulunduğunu göstermektedir. 41 Çizelge 4.7. WTS ve FKS sonrasında sıralanan ilk 100 gen özniteliğinin veri setindeki sıra numaraları NO FKS WTS NO FKS WTS NO FKS WTS NO FKS WTS 1 1680 1680 26 1688 1738 51 2314 2313 76 578 579 2 1679 1679 27 2312 543 52 546 546 77 572 566 3 1681 1681 28 2194 2191 53 2234 541 78 9605 6802 4 1682 1682 29 1689 1687 54 6783 6782 79 570 2190 5 1678 2237 30 2241 544 55 1604 1734 80 577 578 6 1683 2238 31 1594 1594 56 2195 6781 81 569 547 7 2237 1678 32 1738 1600 57 6781 1605 82 568 2667 8 1684 2236 33 1601 2310 58 2171 2195 83 571 573 9 2238 2239 34 544 1603 59 1734 576 84 573 577 10 2236 1683 35 543 2194 60 2172 2172 85 547 564 11 2239 2240 36 1602 2311 61 2242 575 86 9604 1595 12 1685 2235 37 2313 1598 62 1605 568 87 567 2665 13 1736 1684 38 2309 545 63 2190 569 88 1595 565 14 1686 1736 39 1600 542 64 541 570 89 9610 563 15 2192 1737 40 1599 2309 65 576 567 90 183 6803 16 1737 2192 41 1674 2312 66 2170 6783 91 580 9608 17 2235 1685 42 545 1674 67 575 2171 92 9594 9607 18 2240 2241 43 6782 2234 68 9607 572 93 9603 9609 19 1687 1677 44 1593 1688 69 9608 574 94 9595 580 20 2193 1735 45 181 2242 70 1606 1690 95 9596 562 21 1677 2193 46 182 1593 71 1596 2314 96 9593 9606 22 1735 1602 47 1598 1689 72 9606 1596 97 581 2668 23 2311 1599 48 1603 181 73 579 2666 98 9597 581 42 Çizelge 4.7. (devam) WTS ve FKS sonrasında sıralanan ilk 100 gen özniteliğinin veri setindeki sıra numaraları 24 2191 1686 49 542 1604 74 574 571 99 566 9590 25 2310 1601 50 1690 182 75 9609 2308 100 6802 9589 Çalışmada ilk 1000 gen için gen sayısı azaldıkça sınıflandırma başarısının arttığı görülerek, WTS ve FKS ile sıralama yapılan ilk 10 gen içinden en az kaç tanesi kullanılarak en iyi başarıya yakın başarı yakalanacağı sorusuna cevap verebilmek için, ilk 100 gen içindeki ilk 1, ilk 2, ilk 3, ilk 4 ve bir artırımlı olarak ilk 10 genin birlikte sınıflandırma başarılarına bakılmıştır. Bu sınıflandırma başarılarına bakılırken her sınıftan örnek olacak şekilde 10 farklı eğitim ve test seti hazırlanmıştır ve sınıflandırma başarıları elde edilmiştir. Bu 10 farklı indeks değerlerindeki sınıflandırma başarılarının ortalaması alınarak Çizelge 4.8 ve Çizelge 4.9’ daki tablolar elde edilmiştir. Çizelge 4.8. FKS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları FKS sıralı KNN KNN KNN KNN KNN KNN SVM SVM SVM SVM indirgenmiş (k=1) (k=3) (k=5) (k=7) (k=9) (k=11) (ÇF= (ÇF= (ÇF= (ÇF= % % % % % % Lin.) Pol.) Quad) Rad) % % % % gen verisi İlk 1 gen 98,0 97,3 97,3 97,3 97,3 97,35 97,35 96,03 96,69 97,3 İlk 2 gen 98,0 98,0 98,0 97,3 97,3 97,35 98,01 97,35 97,35 97,3 İlk 3 gen 98,0 97,3 97,3 97,3 96,6 96,69 97,35 97,35 97,35 97,3 İlk 4 gen 98,0 96,6 97,3 97,3 96,0 96,69 97,35 97,35 97,35 97,3 İlk 5 gen 98,0 98,0 98,0 97,3 96,6 97,35 97,35 97,35 97,35 97,3 İlk 6 gen 98,0 98,0 97,3 96,6 96,6 96,69 97,35 97,35 97,35 97,3 İlk 7 gen 98,6 97,3 97,3 98,0 98,0 98,01 97,35 99,34 96,69 97,3 İlk 8 gen 98,6 97,3 97,3 98,0 98,0 98,01 97,35 98,68 96,69 97,3 İlk 9 gen 98,6 97,3 97,3 97,3 98,0 97,35 97,35 98,68 96,69 97,3 43 Çizelge 4.8. (devam) FKS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları İlk 10 gen 98,6 97,3 98,0 97,3 98,0 97,35 97,35 98,68 96,69 97,3 Çizelge 4.9. WTS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları sıralı KNN KNN KNN KNN KNN KNN SVM SVM SVM SVM indirgenmiş (k=1) (k=3) (k=5) (k=7) (k=9) (k=11) (ÇF= (ÇF= (ÇF= (ÇF= % % % % % % Lin.) Pol.) Quad.) Rad) % % % % FKS gen verisi İlk 1 gen 98,0 97,3 97,3 97,3 97,3 97,35 97,35 96,03 96,69 96,6 İlk 2 gen 98,0 98,0 98,0 97,3 97,3 97,35 98,01 97,35 97,35 97,3 İlk 3 gen 98,0 97,3 97,3 97,3 96,6 96,69 97,35 97,35 97,35 97,3 İlk 4 gen 98,0 96,6 97,3 97,3 96,0 96,69 97,35 97,35 97,35 97,3 İlk 5 gen 98,6 97,3 97,3 97,3 98,0 98,01 97,35 98,68 96,69 96,6 İlk 6 gen 98,6 97,3 97,3 98,0 98,0 98,01 96,69 98,01 96,69 96,6 İlk 7 gen 98,6 97,3 97,3 97,3 98, 97,35 96,69 99,34 96,69 96,6 İlk 8 gen 98,6 97,3 98,0 97,3 97,3 97,35 96,69 99,34 96,69 96,6 İlk 9 gen 98,6 97,3 98,0 97,3 98,0 97,35 96,69 99,34 96,69 96,6 İlk 10 gen 98,6 97,3 98,0 97,3 98,0 97,35 96,69 98,68 96,69 96,6 Çizelge 4.10’ da temel bileşen analizi kullanılarak veri seti yeni bir uzaya taşınarak boyut indirgeme yapılmıştır. Temel bileşen analizi tüm veri setini en iyi ifade eden genleri vermektedir. Temel bileşen analizi’ nde elde edilen veri setini farklı k değerlerindeki kNN sınıflandırıcı ve farklı çekirdek fonksiyonlarındaki destek vektör makineleri sınıflandırıcıları ile sınıflandırma başarıları ölçülerek Çizelge 4.10 elde edilmiştir. Çizelge’ deki başarı oranlarına bakılarak 15154 gen ifade verisi bulunan veri seti 150 gen ifade verisi ile tanımlanabileceği görülmüştür. 44 Çizelge 4.10. Temel bileşen analizi (PCA) kullanılarak yeni uzaya taşınan boyutu indirgenmiş veri setinin ortalama sınıflandırma sonuçları PCA ile boyut indirgenmiş KNN KNN KNN KNN KNN KNN SVM SVM SVM SVM (k=1) (k=3) (k=5) (k=7) (k=9) (k=11) (ÇF= (ÇF= (ÇF= (ÇF= % % % % % % Lin.) Pol.) Quad) Rad) % % % % gen verisi İlk 10 gen 87,42 86,7 86,0 85,4 84,1 82,78 98,68 91,39 97,35 68,8 İlk 20 gen 87,42 87,4 84,1 86,7 86,0 85,43 98,68 85,43 86,09 63,5 İlk 30 gen 88,08 86,7 84, 88,0 86,0 84,77 98,68 81,46 85,43 63,5 İlk 40 gen 88,74 86,7 85,4 87,4 85,4 84,77 98,68 72,19 84,11 63,5 İlk 50 gen 88,74 86,7 85,4 88,0 86,0 84,77 100 69,54 82,78 63,5 İlk 60 gen 88,74 86,7 86,0 87,4 86,0 84,11 100 65,56 84,11 63,5 İlk 70 gen 88,74 86,7 84,7 86,7 86,0 84,11 100 63,58 83,44 63,5 İlk 80 gen 88,74 86,7 84,7 86,7 86,0 84,11 100 62,91 81,46 63,5 İlk 90 gen 88,74 86,7 85,4 87,4 86,0 84,77 100 63,58 78,81 63,5 İlk100 gen 88,74 87,4 84,7 87,4 86,0 84,11 100 63,58 74,83 63,5 İlk110 gen 88,74 87,4 84,7 87,4 86,0 84,11 100 63,58 75,55 63,5 İlk120 gen 88,74 87,4 84,7 87,4 86,0 84,11 100 63,58 75,55 63,5 İlk130 gen 88,74 87,4 84,7 87,4 86,0 84,11 100 63,58 75,55 63,5 İlk140 gen 88,74 87,4 84,7 87,4 86,0 84,11 100 63,58 75,55 63,5 İlk150 gen 88,74 87,4 84,7 87,4 86,0 84,11 100 63,58 75,55 63,5 Tüm veri 88,74 87,4 84,7 87,4 86,0 84,11 100 63,58 75,55 63,5 45 5. SONUÇ Bu çalışmada, biyoinformatikte çok boyutlu veri kümelerindeki özellikle kanser veri kümelerindeki binlerce öznitelik bilgisinin Fisher korelasyon skorlama ve Welcth t testi ile boyut indirgeyerek diğer bir deyişle ilgili öznitelikleri seçerek sınıflandırma başarıları değerlendirilmiştir. Mikro dizilim çip verilerinden gelen binlerce gene ait veriler biyologlar tarafından gözle değerlendirilip genlerin hastalık ile alakalılığı hakkında bir kanıya varılıyor. Çalışma mikro dizi çip verilerinden alakalı olan daha az sayıdaki gen ifade verileri olan genler üzerinde ilgili çalışmaların yapılabileceğini göstermektedir. Çalışmada eğitim ve test verileri her iki sınıftan %40 eğitim ve %60 test verisi alınarak test ve eğitim verilerinde her iki sınıftan da örneklerin var olması sağlanarak sınıflandırma sırasında iyi eğitilip her grubun test edilmesi sağlanmıştır. Ayrıca eğitim verilerinin sayısının test verilerinin sayısından az olarak seçilmesi aşırı öğrenmeye karşı tedbir alınarak sınıflandırma başarısının artması ve daha çok test verisi üzerinde sınıflandırıcı test edilmiştir. Çizelge 4.1 ve Çizelge 4.3’ deki FKS ve WTS ile seçilmiş genlerin farklı k değerlerinde kNN sınıflandırıcısındaki başarıları karşılaştırıldığında WTS ile sıralanan ilk 100 gen ve k=11 değerinde kNN %100 başarı ile FKS’ den daha yüksek başarı elde edilmiştir. Çizelge 4.2’ de FKS değerlerine göre büyükten küçüğe sıralandığındaki ilk100, ilk 200 ve 100 artırımlı olarak ilk 1000 gen özniteliğinin farklı k değerlerinde kNN sınıflandırıcıdaki başarıları yüzde olarak ifade edilmiştir. Bu tablodan görülmektedir ki k=1 değerinde yani en yakın 1 komşuluk alındığında kNN sınıflandırıcıdaki başarılar diğer k değerlerinin başarıları arasında en yüksek olanlarıdır. Bu çizelgeden görüldüğü gibi k değerinin artması başarıyı artırmamaktadır. Ayrıca, Çizelge 4.2’ de 4 farklı çekirdek fonksiyonları için destek vektör makine sınıflandırıcıdaki başarılarına bakılacak olursa en iyi başarı olan %100 başarı lineer çekirdek fonksiyonu seçildiğinde bulunmuştur. Buradan, kullanılan yumurtalık kanseri veri setindeki farklı sınıflara ait örneklerin doğrusal olarak ayrılabilir olduğunu ve doğrusal bir sınıflandırıcı kullanarak bu verilerin iyi bir şekilde ayrıldığı görülmüştür. 46 Çizelge 4.2 ve Çizelge 4.4’ teki FKS ve WTS ile seçilmiş genlerin farklı çekirdek fonksiyonlarında SVM lineer sınıflandırıcısındaki başarıları karşılaştırıldığında gen sayısı azaldığında başarının artarak %100 başarıya ilk 200 gen için elde edildiği görülmüştür. Bu da, WTS ve FKS ile yapılan öznitelik sıralamasının başarılı bir şekilde yapılarak daha az sayıdaki gen bulunan veri setinin sınıflandırma tahminini daha iyi yaptığını göstermektedir. Çizelge 4.1 ve Çizelge 4.2’ de FKS ile seçilmiş genler kNN ve SVM sınıflandırıcı ile sınıflandırıldığında SVM (lineer) ile sınıflandırma kNN (k’ nın tüm değerlerinde) ile yapılan sınıflandırmadan daha yüksek başarı olan %100 başarı göstermiştir. Çizelge 4.3 ve Çizelge 4.4’ te WTS ile seçilmiş genler kNN ve SVM sınıflandırıcı ile sınıflandırıldığında iki sınıflandırıcıda da %100 başarı yakalanmasına karşın, SVM (lineer) sınıflandırıcının ilk 200, 300, 400 gen de %100 başarısını koruyarak önerilen metodun bu sınıflandırıcı ile daha kararlı bir yapı gösterdiği görülmektedir. Çizelge 4.5’ te tüm veri seti öznitelik seçmeden önce kNN (k=1) sınıflandırıcıda %90,07 başarı ile sınıflandırılırken ilk 100 öznitelik seçildiğinde %100 başarı elde edildiği görülmektedir. Bu da, öznitelik seçmenin sonra sınıflandırıcı başarısına olumlu yönde etkisini göstermektedir. Aynı zamanda %100 başarı elde edilerek seçilen 100 özniteliğin veri setinde önemli öznitelik değerleri olduğu kanısına varılabilmektedir. Çizelge 4.10’ dan görüldüğü üzere, temel bileşen analizi (PCA) kullanılarak elde edilen yeni uzayın öznitelik sayını en az 150’ ye indirilerek maksimum başarı elde etmektedir. Başarı oranlarına bakılarak 15154 gen ifade verisi bulunan veri seti 150 gen ifade verisi ile tanımlanabileceği görülmüştür WTS ve FKS ile öznitelik seçilerek daha az sayıda gen ile daha yüksek başarı elde edilmiştir. Çalışmada yapılan sınıflandırma sonuçlarından SVM (doğrusal çekirdek fonksiyonu) ve kNN (k=1) sınıflandırıcıda en iyi başarımı seçilen ilk 100 gen bilgisi ile elde edilmiştir. Bu 100 gen içinde yapılan çalışmaların sonuçları Çizelge 4.8 ve Çizelge 4.9’ da görülmektedir. Bu başarılara bakılarak WTS ile sıralanmış ilk 5 gen ile en iyi başarıya olarak kNN (k=1) sınıflandırıcı ile %98,68 ile yaklaşmıştır. Bu da demek oluyor ki yumurtalık kanseri veri kümesi için biyologların binlerce gen yerine belirlenen 5 gen 47 üzerinde araştırma yapmaları yeterli olacaktır. %100 olmasa da yakın bir başarı ile doğru teşhis %98,68 başarı ile konabilecektir. 48 49 KAYNAKLAR 1. Santanu, G., Anirban, M. and Pranab, K. D. (2012). Gene expression data classification by VVRKFA. Procedia Technology, 4, 330 – 335. 2. Guyon, I., Weston J., Barnhill, S. and Vapnik V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46, 389-422. 3. Hochreiter, S. and Obermayer, K. (2004). Kernel methods in computational biology. In Scholkopf, B., Tsuda, K. and Vert, J. P. (Eds.), MIT press, 323. 4. Cristianini, N. and Taylor, S. J. (2000). An introduction to support vector machines. Cambridge University Press, 6, 113-145. 5. Shen, L. and Tan, EC. (2005). Dimension reduction-based penalized logistic regression for cancer classification using microarray data. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2, 166-175. 6. Alizadeh, A., Eisen, M. B., Davis, R. E., Ma, C., Lossos, I. S., Rosenwald, A., Boldrick, J. C., Sabet, H., Tran, T., Yu, X., Powell, J. I., Yang, L., Marti, G. E., Moore, T., Hudson, J. J., Lu, L., Lewis, D., Tibshirani R. B., Sherlock, G., Chan, W. C., Greiner, T. C., Weisenburger, D. D., Armitage, J. O., Warnke, R., Levy, R., Wilson, W., Grever, M. R., Byrd, J. C., Botstein, D., Brown, P. O. and Staudt, L. M. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403(6769), 503–511. 7. Eisen, M. B., Spellman, P. T., Brown, P. O. and Botstein, D. (1998). Cluster analysis and display of genome wide expression patterns, Proceedings of the National Academy of Sciences, 95(25). 8. Lockhart, D. and Winzeler, E. (2000). Genomics gene expression and DNA arrays. Nature, 405, June(6788), 827–836. 9. Witten, I. H. and Frank, E. (2005). Data mining, practical machine learning tools and techniques. Second Edition, Elsevier Press. 10. Hand, D., Mannila, H. and Smyth, P. (2001). Principles of Data Mining, MIT Press. 11. Wang, J. Y., Bensmail, H. and Gao X. (2013). Multiple graph regularized nonnegative matrix factorization. Pattern Recognition, 46(10), 2840-2847. 12. Wang, J. Y., Wang, X. and Gao, X. (2013). Non-negative matrix factorization by maximizing correntropy for cancer clustering. BMC Bioinformatics, 14, 107. 13. Wang, J. Y., Almasri, I. and Gao, X. (2012). Adaptive graph regularized nonnegative matrix factorization via feature selection. The 21st International Conference on Pattern Recognition (ICPR2012), Tsukuba, Japan, November. 50 14. İnternet: Wang, J.Y., Bensmail, H. and Gao X. (2013). Joint learning and weighting of visual vocabulary for bag-of-feature based tissue classification. Pattern Recognition, URL:http://www.webcitation.org/query?url=http%3A%2F%2Fdx.doi.org%2F10.1016 %2Fj.patcog.2013.05.001&date=2015-08-04, Son Erişim Tarihi:04.08.2015 15. Kohavi, R. and John, G. (1997). Wrappers for feature subset selection. Artificial Intelligence, 97 (1-2), 273-324. 16. Xing, E., Jordan, M. and Karp, R. (2001). Feature selection for high dimensional genomic microarray data. In Proceedings of the 18th International Conference on Machine Learning, 601-608. 17. İnternet: URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.pasteur.fr%2Frecherch e%2Funites%2FBinfs%2Fdefinition%2Fbioinformatics_definition.htm&date=201508-04, Son Erişim Tarihi: 04.08.2015. 18. Baloğlu, U. B. (2006). Dna sıralarındaki tekrarlı örüntülerin ve potansiyel motiflerin veri madenciliği yöntemiyle çıkarılması, Yüksek Lisans Tezi, Fırat Üniversitesi Fen Bilimleri Enstitüsü, Elazığ, 8-9. 19. Luscombe, N. M., Greenbaum, D. and Gerstein, M. (2001). What is bioinformatics? An introduction and overview. Yearbook of Medical Informatics, 83-85. 20. İnternet: URL: http://www.webcitation.org/query?url=http%3A%2F%2Fwww.ncbi.nlm.nih.gov%2FA bout%2Fprimer%2F+bioinformatics.html&date=2015-08-04, Son Erişim Tarihi: 04.08.2015 21. Feng, D.F. and Doolittle, R. F. (1987). Progressive sequence alignment as a prerequisite to correct phylogenetic trees. Journal of Molecular Biology., 25, 351– 360. 22. Lathrop, R. H., Webster, T. A. and Smith, T. F. (1987). Ariadne: pattern-directed inference and hierarchical abstraction in protein structure recognition. Communications of the ACM, 30, 909–921. 23. Altschul, S. F., Gish, W., Miller, W., Myers, E. W. and Lipman, D.J. (1990). Basic , local alignment search tool. Journal of Molecular Biology 215, 403–410 (1990). 24. Bowie, J. U., Luethy, R. and Eisenberg, D. (1991). A method to identify protein sequences that fold into a known three-dimensional structure. Science, 253, 164–170. 25. Critchlow, T., Musick, R. and Slezak, T.(2001). Experiences applying meta-data bioinformatics. Information Sciences, 139,13-17. 26. Feelders, A., Daniels, H. and Holsheimer, M. (2000). Methodological and practial aspect of data mining. Information and Management, 37(5), 273. 51 27. Hornick, F. M., Marcadé, E. and Venkayala, S. (2007). Java data mining: strategy, standard and practice a practical guide for architecture, design and implementation. Morgan Kaufman. 28. Larose, D. T. (2005). Discovering knowledge in data: an introduction to data mining, Wiley Publishing. 29. Anne, M. and Dunn, B. (2005). Identification of factors associated with pastoperative pneumania using a data mining approach. USA: Boston College, May, 53-54. 30. Özmen, S. (2003). Veri Madenciligi Süreci’, Veri Madenciliği ve Uygulama Alanları. İstanbul Ticaret Üniversitesi, İstanbul, 37. 31. Oğuzlar, A. (2003). Veri önişleme. Erciyes Üniversitesi İktisadi İdari Bilimler Fakültesi Dergisi, 21 (Temmuz-Aralık), 72. 32. Introduction to data mining and knowledge discovery (1999). Third Edition, Two Crows Corporation. 33. Olson, D.L. and Delen, D. (2008). Advanced data mining techniques. Springer. 34. Bouchota, J. L., Trimbleb, W. L., Ditzlerc, G., Land, Y., Essingerc, S. and Rosenc, G. (2014). Computational systems biology. Second Edition, Philadelphia, USA, 314. 35. Kononenko, I. (1994). Estimating features: analysis and extension of RELIEF. In: Proceedings of 6th European Conference on Machine Learning,171–82. 36. Kira, K. and Rendell, L. A. (1992). A practical approach to feature selection. In: Proceedings of the 9th International Conference on machine learning, 249–56. 37. Ding, C. and Peng, H. (2005). Minimum redundancy feature selection from microarray gene expression data. Journal of bioinformatics and computational biology, 3, 185– 205. 38. Peng, H. (2005). Feature selection based on mutual information: criteria of maxdependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis Machine Intelligence, 27, 1226–38. 39. Zhang, Y. (2007). Gene selection algorithm by combining reliefF and mRMR. BMC Genom, 9(Suppl 2), 27. 40. Kawak, N. and Choi, C. (2002). Input feature selection for classification problems. IEEE Transaction Neural Networks, 13(1), 143-159. 41. Liu, H. (2002). A comparative study on feature selection and classification methods using gene expression profiles and proteomic patterns. Genome Inform, 13, 51–60. 42. Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 81–106. 52 43. Chandra, B. and Gupta, M. (2011). An efficient statistical feature selection approach for classification of gene expression data. Journal of Biomedical Informatics, 44, 529–535. 44. Ghazavi, S. N. And Liao, T. W. (2008). Medical data mining by fuzzy modeling with selected features. Artificial Intelligence in Medicine, 43, 195-206. 45. Loo, L. H., Roberts, S., Hrebien, L. and Kam, M. (2007). New criteria for selecting differentially expressed genes. IEEE Engineering in Medicine and Biology Magazine, 17-26. 46. Dat, T. H. and Guan, C. (2007). Feature selection based on fisher ratio and mutual information analyses for robust brain computer interface. IEEE International Conference on Acoustics, Speech and Signal Processing, 338-340. 47. Pudil, P., Novovicova, J. and Kittler, J. (1994). Floating search methods in feature selection. Pattern Recognition Letter, 15, 1119-1125. 48. Millionas, M. M. (1994). Swarm, phase, transition, and collective intelligence, artificial life. MA: Addison Wesley. 49. Suganthan, P. N. (1999). Particle swarm optimiser with neighborhood operator, proceedings of the congress on evolutionary computation. USA: IEEE Service Center, 1958–62. 50. Trelea, I. C. (2003). The particle swarm optimization algorithm: convergence analysis and parameter selection. Information Processing Letters, 85, 317–25. 51. Yuan, X., Yuan, X., Yang, F., Peng, J. and Buckles, B. P. (2003). Gene expression classification: decision trees vs. svms. Flairs Conference, Florida, USA, 92-97. 52. Guyon, I., Weston, J., Barnhil, S. and Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46, 389–422. 53. Domingos, P. and Pazzani, M. (1997). On the optimality of the simple bayesian classifier under zero-one loss, Machine Learning, 29, 103–30. 54. Vapnik, V. (1995). The nature of statistical learning theory. New York Springer. 55. Kuncheva, L. I. (1995). Editing for the k-nearest neighbors rule by a genetic algorithm. Pattern Recognition Letters, 16, 809-814. 56. Ho, S. Y., Shu, L. S. and Chen, H. M. (1995). Intelligent genetic algorithm with a new intelligent crossover using orthogonal arrays. Proceedings of the genetic and evolutionary computation conference, Florida, USA 289-296. 57. Enas, G. G. and Choi, S. S. (1986). Choice of smoothing parameter and efficiency of knearest neighbor classification. Computer & Mathematics with Applications, 12A, 235-244. 53 58. Kunhuang, C., Kungjeng, W., Kungmin, W. and Melani, A. (2014). Applying particle swarm optimization-based decision tree classifier for cancer classification on gene expression data. Applied Soft Computing, 24, 773–780. 59. Thanh, N., Abbas, K., Douglas, C. and Saeid, N. (2015). Hidden Markov models for cancer classification using gene expression profiles. Information Sciences,316, 293– 307. 60. Jin, C., Li. Z., Bangjun, W., Fanzhang, L. and Jiwen, Y. (2015). A fast gene selection method for multi cancer classification using multiple support vector data description. Journal of Biomedical Informatics, 53, 381–389. 61. Haider, B. and Suresh, D. (2015). A hamming distance based binary particle swarm optimization (HDBPSO) algorithm for high dimensional feature selection, classification and validation. Pattern Recognition Letters, 52: 94-100. 62. Ehsan, L. and Azita K. (2014). Gene expression microarray classification using PCA– BEL. Computers in Biology and Medicine, 54, 180–187. 63. Devi, A., Vanitha, C., Devaraj, D. and Venkatesulu M. (2015). Gene expression data classification using support vector machine and mutual information-based gene selection. Procedia Computer Science, 47, 13-21. 64. Thanh, N., Abbas, K., Douglas, C. and Saeid, N. (2015). A novel aggregate gene selection method for micro array data classification. Pattern Recognition Letters, 6061, 16-23. 65. Dajun, D., Kang, L., Xue, L. and Minrui, F. (2014). A novel forward gene selection algorithm for microarray data. Neurocomputing, 133, 446-458. 66. Jie, X., Xiao, H. H., Fu, D., Yan, Q., Xiao, Y. X., Yuan, L. and Haishui, C. (2015). A novel hybrid system for feature selection based on an improved gravitational search algorithm and k-NN method. Applied Soft Computing, 31, 293–307. 67. Chandra, B., Naresh, K. and Babu, V. (2014). Classification of gene expression data using Spiking Wavelet Radial Basis Neural Network. Expert Systems with Applications, 41, 1326–1330. 68. Latkowski, T. and Osowski, S. (2015). Computerized system for recognition of autism on the basis of gene expression microarray data. Computers in Biology and Medicine, 56, 82–88. 69. Lu, H. J., Chun, L., Zheng, E. and Yi, L. (2014). Dissimilarity based ensemble of extreme learning machine for gene expression data classification. Neurocomputing, 128, 22–30. 70. Bolón-Canedo, V., Sánchez-Maro˜no, N. and Alonso-Betanzos, A. (2015). Distributed feature selection: an application to microarray data classification. Applied Soft Computing, 30, 136–150. 54 71. Ghosha, S., Mitraa, S. and Dattagupta, R. (2014). Fuzzy clustering with biological knowledge for gene selection. Applied Soft Computing, 16, 102–111. 72. Tabakhi, S., Najafi, A., Ranjbari, R. and Moradi, P. (in Press). Gene selection for microarray data classification using a novel ant colony optimization. Neurocomputing. 73. Subhajit, K., Kaushik, D. S. and Madhubanti, M. (2015). Gene selection from microarray gene expression data for classification of cancer subgroups employing PSO and adaptive K-nearest neighborhood technique. Expert Systems with Applications, 42, 612–627. 74. İnternet: URL: http://www.webcitation.org/query?url=http%3A%2F%2Fdatam.i2r.astar.edu.sg%2Fdatasets%2Fkrbd%2F&date=2015-08-05, Son Erişim Tarihi: 04.08.2015. 75. Petricoin, E. F., Ardekani, A. M., Hitt, B. A., Levine, P. J., Fusaro, V.A., Steinberg, S. M., Mills, G. B., Simone, C., Fishman, D. A., Kohn, E. C. and Liotta, L.A. (2002). Use of proteomic patterns in serum to identify ovarian cancer. The Lancet,359, 572–77. 55 ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, adı : DEMİRCİOĞLU, Hatice Zehra Uyruğu : T.C. Doğum tarihi ve yeri : 19.05.1985/Ankara Medeni hali : Evli Telefon : 312 595 87 70 Faks :- e-mail : hdemircioglu@sgk.gov.tr. Eğitim Derece Eğitim Birimi Mezuniyet tarihi Yüksek Lisans Gazi Üniversitesi/ FBE/ Bilgisayar Müh. A.B.D Devam Ediyor Lisans Ankara Üniversitesi/ Elektronik Mühendisliği 2008 Lise Özel Çağrı Fen Lisesi 2003 İş Deneyimi Yıl Yer Görev 2011-Halen SGK Sosyal Güvenlik Uzman Yardımcısı 2009-2011 SGK Sözleşmeli Programcı Yabancı Dil İngilizce Hobiler Yüzme, Masa tenisi, Kitap Okuma, Bilgisayar teknolojileri GAZİ GELECEKTİR...