Untitled - Gazi Üniversitesi Açık Arşiv

advertisement
BİYOİNFORMATİKTE ÇOK BOYUTLU VERİLERİN BOYUT
İNDİRGENEREK SINIFLANDIRILMASI
Hatice Zehra DEMİRCİOĞLU
YÜKSEK LİSANS TEZİ
BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
TEMMUZ 2015
Hatice Zehra DEMİRCİOĞLU tarafından hazırlanan “BİYOİNFORMATİKTE ÇOK
BOYUTLU VERİLERİN BOYUT İNDİRGENEREK SINIFLANDIRILMASI” adlı tez
çalışması aşağıdaki jüri tarafından OY BİRLİĞİ ile Gazi Üniversitesi Bilgisayar
Mühendisliği Anabilim Dalında YÜKSEK LİSANS TEZİ olarak kabul edilmiştir.
Danışman: Doç. Dr. Hasan Şakir BİLGE
Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum
...………………
Başkan : Prof. Dr. H. Gökhan İLK
Elektrik & Elektronik Mühendisliği Anabilim Dalı, Ankara Üniversitesi
Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum
…………………..
Üye : Doç. Dr. Suat ÖZDEMİR
Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi
Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum
…………………..
Tez Savunma Tarihi: 01/07/2015
Jüri tarafından kabul edilen bu tezin Yüksek Lisans Tezi olması için gerekli şartları yerine
getirdiğini onaylıyorum.
…………………….…….
Prof. Dr. Şeref SAĞIROĞLU
Fen Bilimleri Enstitüsü Müdürü
ETİK BEYAN
Gazi Üniversitesi Fen Bilimleri Enstitüsü Tez Yazım Kurallarına uygun olarak
hazırladığım bu tez çalışmasında;

Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar
çerçevesinde elde ettiğimi,

Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun
olarak sunduğumu,

Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak
gösterdiğimi,

Kullanılan verilerde herhangi bir değişiklik yapmadığımı,

Bu tezde sunduğum çalışmanın özgün olduğunu,
bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan
ederim.
Hatice Zehra DEMİRCİOĞLU
01/07/2015
iv
BİYOİNFORMATİKTE ÇOK BOYUTLU VERİLERİN BOYUT
İNDİRGENEREK SINIFLANDIRILMASI
(Yüksek Lisans Tezi)
Hatice Zehra DEMİRCİOĞLU
GAZİ ÜNİVERSİTESİ
FEN BİLİMLERİ ENSTİTÜSÜ
Temmuz 2015
ÖZET
Günümüzde biyoinformatik alanda devasa boyuttaki verileri veri madenciliği yöntemleri
kullanarak işlemek büyük önem kazanmaktadır. Mikrodizi teknolojisi ile elde edilen gen
ifade verileri üzerinde çeşitli boyut indirgeme ve öznitelik seçme yöntemleri kullanılarak
hastalığa neden olan genlerin tespit edilmesi biyoinformatik alanda önemli bir yel
almaktadır. Bu çalışmada, mikrodizi teknolojisinden elde edilen yumurtalık kanseri gen
ifade veri kümesi üzerinde öznitelik seçme yöntemlerinden ve boyut indirgeme
yöntemlerinden bazıları kullanılarak veri kümesi küçültülerek çeşitli sınıflandırma
yöntemleri ile başarıları ölçülerek yumurtalık kanseri olan hastalarda hangi genlerin daha
önemli olduğuna karar verilmeye çalışılmıştır. Öznitelik seçme yöntemlerinden Fisher
Korelasyon Skorlama ve Weltch-T İstatistiği yöntemleri kullanılarak veri setindeki gen
öznitelik sayısı bine indirgenerek, ilk 100 gen içinde sınıflandırma başarıları bulunmuştur.
Çeşitli sınıflandırıcı başarımları arasında destek vektör makineleri(lineer çekirdek
fonksiyonu) sınıflandırıcısı ile %100 başarı elde edilmiştir.
Bilim Kodu
: 902.1.067
Anahtar Kelimeler : Biyoinformatik, veri madenciliği, yumurtalık kanseri, öznitelik
seçimi,boyut indirgeme, sınıflandırma
Sayfa Adedi
: 55
Danışman
: Doç. Dr. Hasan Şakir BİLGE
v
CLASSIFICATION BY DIMENSION REDUCTION OF MULTIDIMENSIONAL
DATA SETS IN BIOINFORMATICS
(M. Sc. Thesis)
Hatice Zehra DEMİRCİOĞLU
GAZİ UNIVERSITY
GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES
July 2015
ABSTRACT
Nowadays, Processing the big data in bioinformatics area by using data mining techniques
have gained importance. Identifying genes that cause disease by using various size
reduction and feature selection methods on gene expression data obtained by microarray
technology
is
an
significant
role
in
bioinformatics.
Obtained from those methods, size reducted data set measured with various methods of
classification performance has been studied which genes are more important in patients
with ovarian cancer.Using feature selection methods with the Fisher Correlation Score
method and Weltch-T statistic method reduced the number of thousand features,
classification successes were found for the first100 genes fetures in the data set. Among
the various classifiers successes, support vector machine(linear kernel function) classifier
were obtained with a 100% success.
Science Code
Key Words
Page Number
Supervisor
: 902.1.067
: Bioinformatics, data mining, ovarian cancer, feature selection,
dimension reduction, classification
: 55
: Assoc. Prof. Dr. Hasan Şakir BİLGE
vi
TEŞEKKÜR
Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren Hocam Doç. Dr.
Hasan Şakir BİLGE’ ye ve manevi desteğiyle beni yalnız bırakmayan anneme, babama,
kardeşlerime, eşime ve oğluma teşekkürü bir borç bilirim.
vii
İÇİNDEKİLER
Sayfa
ÖZET ..............................................................................................................................
iv
ABSTRACT ....................................................................................................................
v
TEŞEKKÜR ....................................................................................................................
vi
İÇİNDEKİLER ...............................................................................................................
vii
ÇİZELGELERİN LİSTESİ.............................................................................................
ix
ŞEKİLLERİN LİSTESİ ..................................................................................................
x
SİMGELER VE KISALTMALAR.................................................................................
xi
1. GİRİŞ.......................................................................................................
1
2. VERİ MADENCİLİĞİ ............................................................................
5
2.1. Veri Madenciliği Aşamaları ................................................................................
5
2.1.1. Problem tanımlama ...................................................................................
5
2.1.2. Veri anlama ...............................................................................................
5
2.1.3. Veri önişleme ............................................................................................
5
2.1.4. Veri temizleme ..........................................................................................
6
2.1.5. Modelleme ................................................................................................
8
2.1.6. Değerlendirme...........................................................................................
8
2.1.7. Yaygınlaştırma ..........................................................................................
9
2.2. Boyut İndirgeme ve Öznitelik Seçme Yöntemleri ..............................................
9
2.2.1. Temel Bileşen Analizi (PCA) ...................................................................
9
2.2.2. İstatistiksel yöntemler ...............................................................................
10
2.2.3. Sarmal yöntemler ......................................................................................
14
2.2.4. Hibrit yöntemler ........................................................................................
16
viii
Sayfa
2.3. Sınıflandırma Yöntemleri ...................................................................................
17
2.3.1. Naive bayes sınıflandırıcı .........................................................................
17
2.3.2. Destek vektör makineleri (SVM) ..............................................................
18
2.3.3. Doğrusal diskriminant analizi (LDA) .......................................................
18
2.3.4. k-En yakın komşu (kNN) .........................................................................
19
3. LİTERATÜR ÇALIŞMALARI...............................................................
21
4. DENEYSEL ÇALIŞMALAR .................................................................
29
5. SONUÇ ....................................................................................................
45
KAYNAKLAR ...............................................................................................................
49
ÖZGEÇMİŞ ....................................................................................................................
55
ix
ÇİZELGELERİN LİSTESİ
Çizelge
Sayfa
Çizelge 4.1. FKS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma
sonuçları .......................................................................................................
31
Çizelge 4.2. FKS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma
sonuçları .......................................................................................................
32
Çizelge 4.3. WTS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma
sonuçları .......................................................................................................
33
Çizelge 4.4. WTS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma
sonuçları .......................................................................................................
34
Çizelge 4.5. FKS sıralı indirgenmiş gen verisinin ortalama sınıflandırma
sonuçları …… ............................................................................................
39
Çizelge 4.6. WTS sıralı indirgenmiş gen verisinin ortalama sınıflandırma
sonuçları. ......................................................................................................
40
Çizelge 4.7. WTS ve FKS sonrasında sıralanan ilk 100 gen özniteliğinin
veri setindeki sıra numaraları .......................................................................
41
Çizelge 4.8. FKS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları ...............
42
Çizelge 4.9. WTS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları ..............
43
Çizelge 4.10. Temel bileşen analizi (PCA) kullanılarak yeni uzaya taşınan
boyutu indirgenmiş veri setinin ortalama sınıflandırma sonuçları ............
44
x
ŞEKİLLERİN LİSTESİ
Şekil
Sayfa
Şekil 2.1. Veri Madenciliği Aşamaları ...........................................................................
8
Şekil 4.1. FKS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları ..........
35
Şekil 4.2. FKS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları .........
36
Şekil 4.3. WTS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları .........
37
Şekil 4.4. WTS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları ........
38
xi
SİMGELER ve KISALTMALAR
Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda
sunulmuştur.
Simgeler
Açıklamalar
log
Logaritma
μ
Ortalama
σ
Standart Sapma
ε
Elemanı
∑
Toplam
P
Olasılık
Kısaltmalar
Açıklamalar
AHP-HMM
Analytic Hierarchy Process-Hidden Markov Model
DT
Decision Tree
FKS
Fisher Korelasyon Skorlama
KNN
k En Yakın Komşu
LDA
Linear Discriminant Analysis
MRMR
Minimum Redundancy - Maximum Relevance
PCA
Principle Component Analysis
SVM
Support Vector Machine
SVM-RFE
Support Vector Machine- Recursive
WTS
Weltch T Statistics
1
1. GİRİŞ
İlk zamanlarda, kanser sınıflandırması deneyimli biyologlar tarafından öznel verdikleri
kararlar ile yapılırdı. Mikro dizilim teknolojisi bulunduktan sonra, kanser teşhisinde ve
sınıflandırılmasında yaygın olarak kullanılmaya başlanmıştır [1]. Mikro dizilim
teknolojisinin en önemli uygulaması hastalığı oluşturan küçük gen alt kümelerinin gen
ifadelerinin düzeylerinden bulunarak kanserli ve normal hücrelerin ayırt edilmesini
sağlayabilmesidir [2].
Hem biyolojik hem de mikro dizilim teknolojisinden kaynaklı yüksek seviyedeki gürültü
ve örnek sayısının azlığı gen ifade verilerinin sınıflandırılmasını güçleştirmektedir. Gen
ifade verilerinden kanser teşhisine yönelik hesaplama için literatürde birçok yöntem
önerilmiştir. Hastalığın teşhisi için hastalığa yol açan az sayıdaki gen alt kümelerinin
seçilmesiyle işe başlanır. Bu seçme yöntemleri literatürde filtreleme, sarmal ve gömülü
yöntemler olmak üzere üçe ayrılmıştır [3]. Filtreme metotlarına örnek olarak doğrudan
sınıflandırıcıya bağımlı olmayan sınıf etiketlerine bağımlılık gösteren fisher korelasyon, ttest, weltch t-test, karşılıklı ilişki gibi istatistiksel yöntemler gösterilebilir. Sarmal
metotlara örnek olarak sınıflandırma doğruluğunu maksimum tutarak öznitelik alt
kümesinin değerlendirmesini amaç fonksiyonu olarak sınıflandırıcı kullanan k en yakın
komşu, destek vektör makineleri, bayes sınıflandırıcı gösterilebilir [4]. Gömülü
yöntemlerde ise özel öğrenme metodu ile ilgili gen alt kümesi seçimi yapılır [5].
Mikro dizilim teknolojisi farklı deneysel koşullar karşısındaki büyük sayıdaki genlerin
ifade seviyeleri üzerine çalışmaya yardımcı olmuştur. Bu yöntemlerin uygulamaları tıbbi
tanı alanları, biyotıp, gen ifadesi profili oluşturma gibi alanları içermektedir [6,7,8]. Gen
canlılarda kalıtsal bilginin depolanması için temel birimdir. Teknik açıdan bakıldığından,
bir kromozomun bir parçasını oluşturan belirgin bir nükleotid dizisi gibi davranır. Protein
olmayan genler için fonksiyonel RNA’lar sentezinde ve proteinler gibi fonksiyonel gen
ürünlerinin sentezinde bir genden gelen bilgi kullanılır. Bu sentezleme işlemine gen ifadesi
denmektedir.
Biyoinformatiğin gelişimiyle büyük boyuttaki verilerin depolanması amacıyla gen
bankaları kurulmuştur. Bu veri bankalarından önemli ve anlamlı verilerin elde edilebilmesi
2
için veri madenciliği yöntemleri kullanılmaktadır. Veri madenciliğinin daha iyi
anlaşılmasında farklı tanımların incelenmesi etkili olacaktır. Veri madenciliği, anlamlı
örüntü ve kuralları bulmak için büyük miktardaki verilerin analizi ve keşfidir [9]. Veri
tabanlarında saklı kalmış verilerin istatistik, matematik ve örüntü tanıma teknikleri
kullanılarak gözden geçirilmesiyle yeni ilişki ve örüntülerin bulunması işlemidir [10].
Bugünlerde kanser teşhisi klinik değerlendirme, fiziki muayene ve tıbbi öyküye bağlıdır.
Fakat bu teşhis uzun zaman almaktadır. Kritik aşamada bulunmuş bir tümör var ise tedavisi
için çok geç kalınmış olabilir. Teşhis araştırmalarında fiyatı makul olan ve hastalığı
algılayan yeterli sayıdaki genleri içeren mikro dizilim gen ifade verilerine bağlı olan teşhis
işlemleri geliştirmek de çok önemlidir. Gen ifade verilerini sınıflandırmak çok sayıda gen
ve az sayıda örnek olması hasebiyle zorlu bir iştir. Çok sayıda olan genlerden bazıları
hastalıkla ilişkili olmayan genlerdir. Bu yüzden, sınıflandırma doğruluğu maksimum
olacak şekilde gen sayısını azaltabilmek çok önemlidir. Makine öğrenmesinde, boyut
indirgeme ve öznitelik seçme olarak iki temel yaklaşım vardır. İlki yani boyut indirgeme,
negatif olmayan matrisi çarpanlarına ayırma gibi orijinal özniteliklerin birleşiminden yeni
özellikler oluşturur [11-13]. Öznitelik seçimi ise, orijinal özniteliklerden en çok alakalı
olanların seçimi yöntemidir [14]. Filtreleme yaklaşımı ve sarmal yaklaşım öznitelik
seçmede yaygın olarak kullanılan yöntemlerdendir [15]. Filtreleme metotları ön işleme
adımı olarak öznitelik seçme yapmaktadırlar. Yani, sınıflandırma doğruluğu olmadan
öznitelikleri seçmektedirler. Sarmal yöntemlerde ise, olası öznitelik alt kümelerini seçmek
için tahmini bir algoritma doğruluğu kullanılır ve en yüksek doğruluğu sağlayan
özniteliklerin alt kümesi seçilir. Sarmal yöntemler filtreleme yöntemlerine göre daha
yüksek doğruluk sağlamasına rağmen, hesaplama maliyetini fazladır ve aşırı-oturma
riskinin yüksektir. Gen ifade verilerindeki öznitelik sayısının çok fazla olması
probleminde, sarmal yöntemler uygun değildir ve filtreleme yöntemleri hesaplama
verimliliğinden dolayı benimsenmiştir [16].
Bu çalışmada mikro dizi çiplerinden elde edilmiş olan yumurtalık kanseri veri setinde
bulunan az miktardaki (253 adet) örnek sayısına karşın, çok sayıdaki özniteliğin(15154
adet) yani gen ifade verilerinden öznitelik seçerek ve boyut indirgeyerek veri setindeki
sınıflandırma bilgisine (hasta/normal) en çok katkı sağlayan önemli genlerin sınıflandırma
başarıları kıyaslanarak tespit edilmesi amaçlanmıştır. Bu çalışmada kullanılan Weltch-t
testi, Fisher korelasyon skorlama ve Temel bileşen analizi yöntemleriyle gen ifade verisi
3
miktarı azaltılarak sınıflandırma başarısının iyileştirilmesi ve anlamlı genlerin tespiti
sağlanmıştır.
Son yıllarda biyoinformatik moleküler biyoloji ve DNA genom teknolojilerinin
gelişmesiyle birlikte ortaya çıkan yeni bir bilim dalıdır. Çığ gibi büyüyen genetik
araştırmalarda büyük verilerle uğraşıldığı için bunları depolayacak geniş veritabanlarına
ihtiyaç duyulmuştur. Bu veritabanları ve hesaplamalar kullanılarak biyolojik problemlerin
çözümlenmeye çalışılması biyoinformatik olarak tarif edilmiştir [17].
Kelime yapısı
detaylı incelendiğinde biyoloji ve informatik kelimelerinin bir araya gelmesiyle
oluşturulmuştur. İnformatik kelimesi ise, İngilizce kökenli olup bilgi manasındadır.
Kelimenin sonuna ‘-tic’ takısı getirildiğinde ‘teori’ anlamında kullanılmaktadır. Bu bilgiler
ışığında biyoinformatik, moleküler biyolojideki sorunların çözülmesinde bilgisayar
algoritmalarının kullanılması olarak tanımlanmıştır [18]. Biyoinformatiğin farklı bir
tanımında ise, moleküller bakımından biyolojiyi kavramsallaştırır ve bu moleküllerle ilgili
bilgiyi anlamak ve düzenlemek için matematik, bilgisayar bilimleri ve istatistik gibi
disiplinlerden türetilen enformatik teknikler uygular. Kısacası, biyoinformatik moleküler
biyoloji için düzenlenmiş bir bilgi sistemidir ve birçok pratik uygulaması vardır [19].
Biyoinformatik, biyoloji, bilgisayar bilimi ve informatik teknolojisini tek bir disiplin haline
getiren bir bilim dalıdır [20].
Biyoinformatiğe tarih yönünden bakıldığında günümüze kadar birçok araştırmacı bu
alanda çalışma yapmıştır. Bu çalışmalardan biyoinformatik alanında temel sayılabilecek
bazı yayınlar yapılmıştır. Etkin çoklu bir dizi hizalama işleme için ilk yaklaşım, daha sonra
CLUSTAL’ da uygulaması [21], protein yapı analizi ve tahmininde ilk yapay zeka
uygulamalarından biri [22], Karlin’ in istatistiksel çalışmasına dayalı bir dizi eşleştirme
algoritmasının uygulaması [23], threading kullanılarak protein yapı tahmininin ilk
uygulaması [24] gibi çalışmalar bunlardan bazılarıdır.
Biyoinformatiğin amaçları üç bölüme ayrılır. Bunlar; veri hazırlanması, sistemlerin
iyileştirilmesi ve sistemlerin uygulanmasıdır. Sırayla açıklanacak olursa ilk amaç,
araştırmacıların kolayca ulaşılabileceği ve yeni sonuçları aktarılabileceği bir şekilde
biyolojik verilerin hazırlanmasıdır. Basit veri bankaları kurularak araştırmacılar tarafından
bu verilerle sorunsuz çalışılmalıdır. İkinci amaç, biriktirilen verilerin bazı sistemlerle
4
analiz edilmesi ve anlaşılır hale getirilmesi gerektiğinden farklı alanlardan uzmanlar
işbirliği yaparak sistemlerin iyileştirilmesi sağlanmalıdır. Araç ve kaynak gelişimi veri
analizi için gereklidir. Analiz edilmiş bir protein dizisinin daha önce belirlenmiş diziler ile
karşılaştırılması halinde ilgili tüm veri tabanlarını kullanmak gerekir. Üçüncü amaç ise,
biyolojik veriler ile geliştirilen sistemlerin yorumlanıp uygulanmasıdır. Akraba türlerinin
tespit edilmesi ve filogenetik soy ağacının ortaya çıkarılması bilgisayar destekli dizi
analizleri sayesinde mümkün olmaktadır [25].
5
2. VERİ MADENCİLİĞİ
2.1. Veri Madenciliği Aşamaları
2.1.1. Problem tanımlama
Bu aşamada veri madenciliği ile sağlanacak bilgi ihtiyaçları tanımlanmaktadır. Örüntülerle
ilgili sorular ve veri tabanında oluşabilecek ilişkilerdir. Veri madenciliği, birçok nitelik
arasındaki var olabilecek ilişkilerin incelenmesi durumunda, kendi sorusunu sunar.
Böylece, sonuca gelindiğinde tahmin edilemeyen ilişkilerin bulunmasını sağlar [26].
2.1.2. Veri anlama
Veri toplama ile başlayan bu aşamadaki veriler, veri madenciliğinin ham verilerdir. Bu
nedenle veri kalitesinin tanımlanması, veri içeriğinin anlaşılması, gizli bilgiden yeni
hipotezler oluşturularak farklı değerlendirmelerin yapılması bu aşamadaki adımlardır.
Farklı kaynaklardan gelen verilerin anlaşılmasından önce birbiriyle bütünleşmiş olması
gerekir. Daha sonra, tablolardaki birincil anahtar bilgileri düzgün bir şekilde girilmiş
olması gerekir, girilmediği takdirde veri tutarsızlıkları olabilir [27,28].
2.1.3. Veri önişleme
Problem ve hedefler tanımlandıktan sonra sıra veri hazırlama aşamasındadır. Veri önişleme
aşaması, verilerin veri madenciliği için hazırlanmasını kapsamaktadır. Veri hazırlama
görevi uzun sürede yapılmaktadır. Verinin dönüşümü, temizlenmesi, birleştirilmesi,
azaltılması gibi işlemleri içermektedir [29].
Günümüzde veri tabanları çok büyük olduğundan veri önişleme aşamasında, amaca
yönelik olmayan değişkenler varsa çıkarılmasına, eksik ve hatalı veri girişi yapılmış ise
bunların ayıklanmasına, eksik verilerin oluşturabileceği sistematik hataların kontrol
edilmesine,
birbiri
yerine
geçebilecek
tekrar
niteliğinde
olan
veri
alanlarının
temizlenmesine, eklenecek yeni değişken verisinin hazırlık aşaması için gereken çaba ve
getirisinin değerlendirilmesine dikkat etmek gerekmektedir [30].
6
2.1.4. Veri temizleme
Veri temizleme, tam olmayan değerleri tamamlama, tutarsız değerleri belirleyerek
gürültüyü azaltma ve verilerdeki anlamsızlıkları giderme gibi çeşitli yöntemler
içermektedir. Veri madenciliğindeki kirli veriler karmaşaya ve sonuçların güvenilir
olmamasına sebebiyet verir. Bu yüzden veri temizleme işlemleri ardından temizlenmiş
verilerin kullanılması gerekmektedir.
Kayıp değerler
Çeşitli nedenlerden dolayı veri seti içinde kayıp veriler bulunmaktadır. Bu nedenler:
- Bazı veriler önemsiz görüldüğü için veri girişi esnasında girilmemesi,
- Kayıtlı verilerle uyumlu olmayan veriler silinmesi,
- Geçmiş kayıtlar veya verilerdeki değişimlerin dikkate alınmaması,
şeklinde sıralanabilir.
Bu nedenlerden dolayı oluşabilecek kayıp değerlerden veri setini arındırmak için:
- Kayıp değer manuel olarak tamamlanabilir. Ancak çok zaman alıcıdır ve büyük veri
setlerinde uygun değildir.
- Kayıp değer yerine o değişkene ait ortalama değer kullanılabilir.
- Kayıp değer yerine aynı sınıfa ait tüm örnekler için değişkenin ortalaması kullanılabilir.
Karmaşık veri
Veri girilirken, veri değiştirme yapılırken veya veri kodlanırken hatalar oluşmaktadır. Bu
hatalara gürültü adı verilmektedir. Bu gürültü verilerin doğruluğunu azaltmaktadır. Gürültü
kaldırılarak veri düzeltilmelidir.
Tutarsız veri
Veri
birleştirme
sırasında
veya
oluşturulmuş
veriler
arasında
tutarsızlıklar
bulunabilmektedir. Aynı veri farklı veri tabanlarında farklı isimlerle oluşturulmuş olabilir.
Dış referanslar kullanılarak bu veri tutarsızlıkları düzeltilebilir. [31].
7
Veri dönüşümü
Veri madenciliği için kullanılan verinin temsil edilmesinde ve kategorilendirmesinde bazı
değişimler yapılabilir. Değişkenler 0 ile 1 şeklinde ölçeklendirilebilir. Bu seçilen
sınıflandırma modelin sonuçlarını etkileyecektir [32].
Veri azaltma
İncelenecek verinin büyüklüğü ile uygulanacak olan algoritma süresi doğru orantılı olarak
değişecektir. Bu yüzden sonucu etkilemeyecek fazla veri uygulamada gereksiz işlemlere
neden olur. Bazı algoritmalar belirli tip veriler üzerinde çalışır, bu tipte olmayan verilerin
göz ardı edilmesi ya da dönüştürülmesi gerekir. Bundan dolayı veri önişleme aşamasında
sonucu etkilemeyecek bir şekilde gereksiz olan verilerin silinmesi, birleştirilmesi ya da
nitelik birleştirme, nitelik azaltma, veri sıkıştırma, veri küçültme, veri ayrıştırma ve
kavram oluşturma gibi diğer bazı yöntemlerle eldeki verinin daha anlamlı ve verimli hale
getirilmesini sağlar.
Veri tanımındaki bazı nitelikler birbirleriyle ilgili olabilir. Birden fazla sayıdaki bu tip
nitelikler birleştirilerek veri tabanı küçültülebilir. Sonuca etki etmeyecek ya da sonucu
değiştiremeyecek kadar düşük öneme sahip bazı nitelikler seçilerek elenebilir. Nitelik
seçme, probleme yönelik bilgiyi değerlendirerek yapılabileceği gibi istatistiksel
yöntemlerle, karar ağaçlarıyla ya da bilgi kazancı değerleriyle tespit edilebilir. Veri
sıkıştırma, sıkıştırma algoritmalarıyla büyük verinin boyutunu azaltarak veri saklamayı ve
veri erişim süresini optimize etmeyi hedefler. Bu yöntemin verimli olması için
uygulanacak olan algoritmanın sıkıştırılmış veri üzerinde çalışabilmesi gerekir.
8
Yayınlaştırma
Değerlendirme
Modelleme
Veri Önişleme
Veri Anlama
Problem Tanımlama
Şekil 2.1. Veri madenciliği aşamaları
2.1.5. Modelleme
Modelleme fazı temel olarak uygun modelleme tekniklerinin belirlenmesi ve uygulanması,
eniyileme için model değişkenlerinin düzenlenmesinden oluşur. Gerektiği durumlarda veri
hazırlama fazına dönülebilir ve aynı veri madenciliği problemi için birden fazla teknik
kullanılabilir [28].
Modelleme ile ilgili en önemli nokta bu sürecin tekrarlanan bir süreç olduğudur. Alternatif
algoritmalar ve teknikler kullanılabileceği için kullanıcılar en iyi sonuca hangi yöntemle
ulaşacaklarına deneme yanılma yöntemi ile ulaşabilirler. Tahmin için örneğin sınıflandırma
veya regresyon analizi seçildikten sonra modelleme için de bir yöntem seçilmelidir.
Seçilecek olan yöntem ne tip bir verinin hazırlanacağı ve nasıl ilerleneceği konusuyla
doğrudan ilgilidir. Veya kullanılacak olan veri madenciliği aracı hazırlanacak olan verinin
özel bir formatta olmasını zorunlu kılar [27,32].
2.1.6. Değerlendirme
Modelleme yapıldıktan sonra bu modelin başlangıçta belirlenen iş hedeflerinin ne kadarını
karşıladığı ölçülmeli ve ortaya çıkan sonucun yaygınlaştırma fazından önce kalite ve etkisi
değerlendirilmelidir. Bununla birlikte problemde ele alınacak noktaların yeterli derecede
9
dikkate alınıp alınmadığı kontrol edilmeli ve sonuçların kullanılıp kullanılmayacağı ile
ilgili net karar verilmelidir [27,28,32].
2.1.7. Yaygınlaştırma
Yaygınlaştırma fazının başarı oranı oluşturulan modelden yararlanılması ile doğru
orantılıdır. Ayrıca bu aşamada veri madenciliği çalışmasının sonuçlarının varsa proje
sponsoruna raporlanması gerekmektedir. Veri madenciliği çalışması değerlendirilmesi
gereken yeni bir bilgiyi ortaya çıkarır ve bu bilginin proje hedefleri ile birleştirilmesi
gerekir.
Ayrıca araştırma sonucunda elde edilen bilginin zamanla değişebileceği de göz önünde
bulundurulmalıdır. Yaygınlaştırma fazında genel parametrelerde radikal bir değişiklik olup
olmadığı izlenmelidir [32,33].
2.2. Boyut İndirgeme ve Öznitelik Seçme Yöntemleri
Boyut indirgeme öznitelik seçimi ile yapılmaktadır. Öznitelik seçme yöntemleri üç tiptir.
İstatistiksel, sarmal ve hibrit yöntemler olarak gruplandırılmıştır. Ayrıca PCA da bir boyut
indirgeme yöntemidir.
2.2.1. Temel Bileşen Analizi (PCA)
PCA varyantın çoğunu içeren eksen üzerine veri yansıtan bir yöntemdir. Bu, kovaryans
matrisinin özdeğer ayrıştırma hesaplanması ve verilerin sadece birkaç önemli özvektör
üzerine yansıtılması sağlanarak yapılır. Bu işleme spektral ayrıştırma adı verilir ve en
büyük özdeğerlere karşılık gelen özvektörler temel bileşenler olarak adlandırılır.
Özvektörler, verinin en fazla değişkenlik gösterdiği yöne dikkat çekmektedir. Özellik
vektörlerinin büyük boyutluluğu çoğu durumda kovaryans matrisinin spektral ayrışmasını
zorlu hale getirir. Sonuç olarak, PCA bir boyut indirgeme tekniği olarak (n×n) benzerlik
veya mesafe matrislerinin analizinde uygulanır [34].
10
2.2.2. İstatistiksel yöntemler
Relief-F metodu
Relief-F [35], gürültülü, tamamlanmamış ve çok sınıflı veri setleri ile ilgilenen Relief [36]
algoritmasının genişletilmişi olarak ortaya konulan bir algoritmadır. Bu algoritma her bir
öznitelik için “alakalılık” ağırlık değeri belirler. m örnekli bir veri setinden rastgele bir R
örneği seçilir. R örneği ile arasındaki farkın en az olan H örneği (en yakın başarı)
arasındaki farka ve sınıfın en yakın kaybı adında farklı sınıfa (M(c)) bağlı olarak alakalılık
değerleri bu fark değerlerine bağlı olarak güncellenir. Farklı sınıfların komşularından gelen
örnekleri ayırt eden özniteliklere daha fazla ağırlık değeri veriliyor. Ağırlıklar en yakın
kayıplar olan M(c)’ lerin ortalama katkıları dikkate alınarak güncelleniyor. Ortalama katkı
her bir sınıfın önceki olasılığının hesabını da içermektedir. i’ inci özniteliğin ağırlığı Xi, Eş.
3.1 kullanılarak güncellenir.
(3.1)
fonksiyon R örneği ile en yakın başarı H arasındaki
Denklemde bulunan
uzaklığı,
fonksiyonu ise R örneği ile en yakın kayıplar M(c) arasındaki
uzaklığı hesaplamaktadır.
Minimum artıklık maksimum alakalılık (mRMR) metodu
Ding ve Peng [37] tarafından önerilen mRMR metodu aralarındaki artıklığı en aza
indirerek en yüksek alakalılıkla öznitelikleri seçmektedir. mRMR, genler ve sınıf
değişkenleri arasındaki f istatistiğini sürekli değişkenler için maksimum alakalılığın skoru
olarak kullanmakta iken, ayrık veri setleri için alakalılığın ölçüsü olarak ortak bilgi [38,39]
metodunu kullanmaktadır. Xi özniteliğinin F testi değeri Eş. 3.2 ile bulunmaktadır.
(3.2)
11
C = {Cj}, j=1,2,…,l değerleri için sınıf kümesidir.
ortalaması,
değeri
, i’ inci öznitelik olan Xi’ nin
, ise Cj sınıfına ait Xi’ nin ortalamasıdır. Cj sınıfına ait verilen varyant
ve boyut değeri
için toplanmış varyant değeri
değeri Eş. 3.3 ile
bulunmaktadır.
(3.3)
S öznitelik alt kümesi için maksimum alakalılık kriteri Eş. 3.4 ile hesaplanır.
(3.4)
Metoda göre, Eş. 3.4 ile ilk öznitelik seçilir ve kalan öznitelikler optimizasyon kriter
fonksiyonuna bağlı olarak doğrusal artan arama algoritması ile seçilir. F testi uzaklık
çarpımı mRMR (mRMR-FDM) ve f testi benzerlik katsayısı mRMR (mRMR-FSQ) sürekli
değişkenler için en popüler iki doğrusal arama programlarıdır. Verilen X öznitelik kümesi
için, mRMR-FDM için optimizasyon durumu eşitlik Eş. 3.5’ te verilmiştir.
(3.5)
Denklemde
,
ile
öznitelikleri arasındaki öklid uzaklığıdır.
Verilen X öznitelik kümesi için, mRMR- FSQ için optimizasyon durumu eşitlik Eş. 3.6’ da
verilmiştir.
(3.6)
T istatistiği metodu
Bu metot, C1 ve C2 gibi iki sınıfı olan gen ifade verilerinde öznitelik seçme metodu olarak
kullanılır. Her bir öznitelik Xi için, t istatistiği Eş. 3.7’ deki gibi hesaplanmaktadır.
12
(3.7)
C1 sınıfındaki i’ inci öznitelik olan
Denklemde
sınıfındaki
’ nin ortalama değerini,
ise C2 sınıfındaki
’ nin ortalama değerini,
C1 sınıfındaki
ise C2
’ nin standart sapma değerini,
’ nin standart sapma değerini göstermektedir. Çıkan her bir t
istatistik değeri her bir gen için önemlilik derecesiyle doğru orantılıdır. Önemli genleri
seçmek için çıkan değerler büyükten küçüğe sıralanmalıdır.
Ortak bilgi metodu
Gen ifade veri seti gibi sürekli değişkenler içeren veri setleri için ortak bilgi Eş. 3.8 ve Eş.
3.9’ daki gibi hesaplanır.
(3.8)
(3.9)
Entegral işlemini yapabilmek için uygulamada
,
,
için olasılık yoğunluk
fonksiyonlarının kesin değerlerini bulmak imkânsızdır. Bu yüzden bu sürekli öznitelik
uzayını birçok ayrık parçaya ayrılıp bu parçaların ayrık duruma göre belirtilen entropileri
ve ortak bilgi değerleri hesaplanarak bulunur [40].
Bilgi kazancı metodu
Bilgi
kazancı,
öznitelik
ya
da
gen
seçme
kriteri
olarak
karar
ağaçlarında
kullanılmaktadır[41,42].
C={Cj}, j=1,2,…,l değerleri için sınıf kümesidir.Her bir Xi özniteliği için bilgi kazancı Eş.
3.10, Eş. 3.11 ve Eş. 3.12’ deki gibi hesaplanmaktadır.
(3.10)
(3.11)
13
(3.12)
Bilgi kazancı ayrık öznitelikler için kullanılır. Bilgi kazancı hesaplanmadan önce nümerik
öznitelikler ayrık hale getirilir. Gen ifade verileri için genellikle entropi tabanlı
ayrıklaştırma metodu kullanılır. t istatistik metodundakine benzer şekilde bilgi kazancı
değeri daha büyük olan öznitelikler seçilir[43].
X2 istatistiği metodu
Sınıflarla ilgili her bir öznitelik için X2 istatistiğinin değeri hesaplanır. Bilgi kazancına
benzer şekilde X2 istatistiğinin değeri hesaplanmadan önce her bir nümerik öznitelik
ayrıklaştırılır. Her bir Xi özniteliği için X2 istatistiği Eş. 3.13 ile hesaplanır.
(3.13)
, c sınıfı için değeri x olan Xi’ deki örnek sayısını vermektedir.
Denklemdeki
Beklenen frekans değeri
Eş. 3.14 ile hesaplanır.
(3.14)
Denklemdeki
Xi’ deki x değerli örnek sayısını,
c sınıfının örnek sayısını, n ise
toplam örnek sayısını göstermektedir. Sıralanmış X2 istatistiğinin değerlerine göre
öznitelikler seçilir.
Welch t istatistiği metodu
İki sınıflı veri setlerinde, welch t istatistiği değeri her bir öznitelik değeri için hesaplanır.
Her bir sınıf için özniteliklerin ayrı ayrı standart sapma, ortalama değerleri ve sınıfların
örnek sayıları bulunup oranlanarak Eş. 3.15’ teki gibi hesaplanır[44,45].
14
(3.15)
i’ nci özniteliğin iki sınıftan biri olan “-” sınıfında bulunan
Denklemde yer alan
örneklerinin değerlerinin ortalamasını,
ise i’ nci özniteliğin “+” sınıfında bulunan
örneklerinin değerlerinin ortalamasını,
i’ nci özniteliğin “-” sınıfında bulunan
örneklerinin değerlerinin standart sapmasını,
i’ nci özniteliğin “+” sınıfında bulunan
örneklerinin değerlerinin standart sapmasını,
i’ nci özniteliğin “-” sınıfında bulunan
örneklerin sayısını,
ise i’ nci özniteliğin“+” sınıfında bulunan örneklerin sayısını
göstermektedir. Bulunan değerler sıralanarak önemli gen öznitelikleri seçilmektedir.
Fisher korelasyon skorlama metodu
İki sınıflı veri setlerinde t ve welch t istatistiğindekine benzer şekilde, fisher korelasyon
skorlama değeri her bir öznitelik değeri için hesaplanır. Her bir sınıf için özniteliklerin ayrı
ayrı standart sapma ve ortalama değerleri bulunup oranlanarak Eş. 3.16’ daki gibi
hesaplanır[46] .
(3.16)
Denklemde bulunan
ve
iki ayrı sınıfın i. öznitelik için ortalama değerleridir.
ve
iki ayrı sınıfın i. öznitelik için standart sapma değerleridir. Bulunan fisher korelasyon
skorlama değerleri büyükten küçüğe sıralanarak önemli genlerin seçimi sağlanır.
2.2.3. Sarmal yöntemler
Ardışık ileri arama algoritması (SFS)
Ardışık ileri arama ve geri arama algoritmaları basit ve hızlı oldukları için yaygın olarak
kullanılmaktadır. İleri arama metodu boş bir küme ile başlar ve seçilen kümeye her
defasında bir öznitelik ekleyerek tüm öznitelik kümesine ulaşıncaya kadar devam eder.
Geri arama ise tüm öznitelik kümesi ile başlar ve her defasında kümeden bir öznitelik
15
çıkararak devam eder. İleri ve geri aramanın her ikisinde de küme istenen öznitelik
sayısına ulaşıldığında arama durdurulur. Bunlar hesaplama açısında etkili yöntemlerdir
ancak örneğin dört en iyi özniteliğin seçildiği küme üç en iyi öznitelik içermesi gerektiği
gibi iç içe etki olarak adlandırılan durumdan olumsuz etkilenirler. Ardışık ileri değişen
arama ve ardışık geri değişen arama yöntemleri daha iyi alt kümeyi bulmak için her bir
ardışık aşamadan sonra dinamik geri izleyerek iç içe geçme sorunundan kaçınmayı
amaçlayarak Pudil ve ark. [47] tarafından önerilmiştir. İleri arama metodu küçük boyutlu
veri setlerinde daha iyi sonuçlar vermektedir.
Ardışık geri arama algoritması (SBS)
Ardışık geri arama daha büyük boyuttaki veri setlerinde iyi sonuç vermektedir. Geri arama
ise tüm öznitelik kümesi ile başlar ve her defasında kümeden bir öznitelik çıkararak devam
eder. İleri ve geri aramanın her ikisinde de küme istenen öznitelik sayısına ulaşıldığında
arama durdurulur.
Parçacık sürü optimizasyonu algoritması (PSO)
Parçacık sürü optimizasyonu Kennedy ve Eberhart tarafından geliştirilen basitleştirilmiş
bir sosyal modele bağlı bir hesaplama tekniğidir [48–50]. m tane parçacıktan oluşan bir
sürü D boyutlu bir problem uzayını aramaktadır. Her bir parçacığa rastgele hızlar ve rastsal
pozisyonlar atanmaktadır. Pozisyon problemin çözümüne karşılık gelmektedir. Her bir
parçacık uçarken, kendisi ve sürünün üyeleri (ya da komşularındaki üyeler) tarafından
şimdiye kadar elde ettiği iyi konuma çekilmektedir. i’ inci parçacığın pozisyonu Eş. 3.17
ve hızı Eş. 3.18’ deki gibidir.
(3.17)
(3.18)
i’ inci parçacığın en iyi önceki pozisyonu, başka bir deyişle en iyi uyan değerli pozisyonu
Eş. 3.19’ deki gibidir.
(3.19)
16
Popülasyondaki (veya civarındaki) tüm parçacıklar arasında en iyi parçacığın indeksi g
sembolü ile temsil edilir. Her bir parçacığın hızı Eş. 3.20 ve pozisyonu Eş. 3.21’ deki
denklemler ile güncellenir.
(3.20)
=
+
Eş. 3.20’ deki
(3.21)
, bir sonraki iterasyonda mevcut hızını ne kadar koruduğuna karar veren
eylemsizlik ağırlığıdır. Eylemsizlik ağırlığının uygun seçimi taneciklerin sömürü ve keşif
yeteneği arasında bir denge sağlayabilir.
öğrenme faktörleridir.
ve
pozitif ivmelenme katsayıları adında
Öğrenme katsayıları genellikle 2 olarak alınır.
ve
, [0,1]
aralığında değişen rastgele değer alan değişkenlerdir. Bir parçacığın hızı en yüksek hızı
’ dır. Eylemsizlik ağırlığının ayarlanması ile
gösteren testler ve analizler vardır.
ayarının etkisi yerine gelebileceğini
her boyuttaki değişkenin aralığını ayarlar ve
ayrıntılı deneylerde seçme ve ayarlama olmaksızın parçacıkların hızını başlatmakta
kullanılır. PSO uygulanma aşamaları, başlatma, uygunluk değerlendirme ve hız ve
pozisyon güncelleme ve durdurma kriterinin testi aşamalarını içeren genetik algoritma gibi
diğer algoritmalara benzemektedir.
2.2.4. Hibrit yöntemler
İstatistiksel yöntemler genellikle veri seti üzerinde tekrarlı hesaplama içermediklerinden
daha hızlıdırlar. Verideki belirli bir sınıflandırıcıyla etkileşimini içermediklerinden verinin
asıl özelliklerini değerlendirmektedirler. Hibrit yöntemler, sarmal ve istatistiksel
yöntemlerin avantajlarını birlikte kullanabilmek için ortaya çıkmış yöntemlerdir. Bu yapılar
hem sınıflandırıcı hem de arama algoritması içermektedir. Bu yapılar için hibrit denildiği gibi
gömülü tabiri de kullanılmaktadır.
Hibrit yapılara örnek olarak karar ağaçları, özyinelemeli öznitelik seçme tabanlı destek vektör
makineleri (SVM-RFE), analitik hiyerarşi süreci tabanlı gizli markov model (AHP-HMM)
verilebilir.
17
Karar ağaçları (DT)
Yukarıdan aşağıya doğru bir ağaç yapısına sahip olan karar ağaçlarında seçilecek
nitelikleri tespit etmede kullanılacak öğrenme algoritması büyük önem teşkil etmektedir
[51]. Özniteliklerin iyi seçilme başarısı ile doğru orantılı olarak sınıflandırma başarısı da
artacaktır. Karar ağaçlarında nitelik seçme yöntemi olarak kullanılan yöntemler istatistiksel
yöntemlerdendir. Karar ağaçlarında X2, t-testi, f-testi, gini index, bilgi kazancı ve ortak
bilgi gibi ölçütler kullanılarak öznitelik seçimi yapılmaktadır. Ayrıca karar ağaçları bir
sınıflandırıcıya ihtiyaç duymaktadır. Bu da hesaplama maliyetini artırmaktadır.
Özyinelemeli öznitelik seçme tabanlı destek vektör makineleri (SVM-RFE)
Destek vektör makineleri ve özyinelemeli öznitelik seçme yapılarının birlikte kullanıldığı bir
algoritmadır [52]. SVM sınıflandırıcısı ile bir eğitim işlemi yapıldıktan sonra eğitildikten
sonraki sonuç ile bazı kriterlere dayanarak ağırlık vektörleri ile ağırlıklandırma işlemi
gerçekleştirilmektedir. Elde edilen yeni değerler vasıtasıyla veriler sıralanmakta ve en küçük
değerli öznitelik bilgisi alt kümeden elenmektedir.
2.3. Sınıflandırma Yöntemleri
2.3.1. Naive bayes sınıflandırıcı
Naive Bayes sınıflandırıcı özellikler arasında bağımsız varsayımla basit bir olasılık
sınıflandırıcıdır. Domingos and Pazzani [53] bu varsayımın beklenenden daha az etkisi
olduğunu bulmuşlardır. Naive Bayes sınıflandırıcı eğitim verisinden öğrenir ve sonra test
örneklerinin sınıflarını önceki en yüksek olasılıktan tahmin eder. C, örneklerin sınıfını
gösteren rastgele bir değişken; X, (X1, X2 , ….., Xm )’ den oluşan bir gözlemlenen örnek
değerlerini gösteren rastgele bir vektör; cj , j’ inci sınıf etiketi ve x, (x1, x2 ,…, xm )’ den
oluşan belirli bir gözlemlenen nitelik değer vektörü olsun. Test örneği x’ in sınıfını tahmin
etmek için Bayes teoremi olasılığın hesabını Eş. 3.22’ ye göre yapmaktadır.
(3.22)
18
Sonra, test örneğinin sınıfı en yüksek olasılıklı olan sınıf olarak tahmin edilir.
Denklemdeki
anlamına gelmektedir. Test
ifadesi
örnekleri için, eğitim verisi kullanılarak hesaplama çok kolaydır.
2.3.2. Destek vektör makineleri (SVM)
Destek vektör makineleri [54] farklı sınıfların özellik kümeleri arasındaki ayrımı en yüksek
seviyeye çıkarmak için özellik vektör uzayında optimal hiper düzlemler oluşturarak
sınıflandırma yapmaktadır. Bir hiper düzlem oluşturmak için, Eş. 3.23’ deki
hata
fonksiyonu en aza indirmek için tekrarlı bir öğrenme algoritması kullanılmaktadır.
(3.23)
Kısıtlamalar Eş. 3.24’ deki gibidir. i=1,2,….,n için,
ve
Denklemde, w katsayılar vektörü, b bir katsayı,
(3.24)
zor ya da gürültülü örneklerin yanlış
sınıflandırılmasına izin veren parametrelerdir. Her bir i eğitim örneği için x i sınıf etiketi yi
tarafından temsil edilen bağımsız değişkenlerdir. Çekirdek fonksiyonu K giriş verisini daha
çok-boyutlu özellik uzayına taşır. Çekirdek fonksiyonu, doğrusal olmayan karar sınırını
oluşturmak için kullanılır.
2.3.3. Doğrusal diskriminant analizi (LDA)
İki veya daha fazla örnek grup arasındaki farklılıklar üzerinde çalışan diskriminant
analizinde sınıfların gruplanmasında matematiksel eşitlikler kullanılır. Bu eşitlikler
Diskriminant fonksiyonu olarak adlandırılır ve en çok benzeyen gruplar bulunarak
grupların ortak özelliklerini belirlenir. Grupları ayırmak için kullanılan karakteristikler
diskriminant değişkenleridir. Diskriminant analizi, iki veya daha fazla sayıdaki grubun
farklılıklarının diskriminant değişkenleri kullanılarak ortaya konulmasıdır. Farklılığın en
fazla hangi değişkenlerde olduğunun tespiti ve grupları ayıran faktörlerin tespitinde
diskriminant analizi önemli rol oynar.
19
2.3.4. k-En yakın komşu (kNN)
Bu algoritmada noktalar arası mesafelerden yararlanılmıştır ve her bir örneğe ait ne kadar
nokta varsa değerlendirilerek ona göre işlem gerçekleştirilir. k en yakın komşu algoritması
basit bir algoritma gibi görünse de birçok çalışmada başarısını kanıtlamış ve en yaygın
kullanılan sınıflandırıcı algoritmaları arasında yerini almıştır [55,56]. Yapılan çalışmalara
bakıldığında en yaygın olarak Öklid mesafesinin kullanılmıştır. Noktalar arası (öznitelikler
arası) mesafe farkının kareleri toplamının karekökü alınarak elde edilen öklid mesafesi
hesabında eğitim kümesindeki özniteliklerin değerleri ile test kümesindeki özniteliklerin
değerlerin uzaklıkları bulunmaktadır [57]. Her bir sınıf için ayrı bir değer hesaplanır ve
elde edilen sonuca göre örnek en büyük değere sahip sınıfa atanmaktadır. En yakın kaç
komşu değerine bakılacağı önemli bir noktadır ve tek sayıda komşularına bakılmaktadır.
20
21
3. LİTERATÜR ÇALIŞMALARI
Chen ve ark. (2014), gen seçimi için karar ağacı sınıflandırıcı ile birlikte parçacık sürüsü
optimizasyonunu veri kümesinde bulunan binlerce gen içinden daha az sayıda bilgi verici
olan genleri seçmek için yeni bir model olarak önermişlerdir. Önerdikleri metodun
başarısını destek vektör makineleri, kendi kendini düzenleyen harita, geriye yayılım sinir
ağı, karar ağacı gibi bilinen yöntemlerin sınıflandırma başarıları ile karşılaştırıldığında
daha üstün başarı elde etmişlerdir. Biri Tayvan Ulusal Sağlık Sigortası Araştırma
Veritabanı ndan elde edilmiş veriler olmak üzere diğerleri internetten ulaşılabilecek veriler
olmak üzere 11 farklı kanser veri kümesi ile çalışmışlardır. Bilinen sınıflandırıcılardan olan
DVM ile %72,46, kendi kendini düzenleyen harita ile %52,60, geriye yayılım sinir ağı ile
%42,58, karar ağacı ile %93,14 elde edilirken geliştirilen PSOC4.5 metodu ile %97,26
oranında sınıflandırma başarısı elde etmişlerdir. PSO parametre ayarları ve yerel optimum
yakalama sorunu üzerinde daha fazla çalışmalar yapılması gerekmektedir. Genetik
algoritma ile bir hibrit metot geliştirilebilir. Bu hibrit metottaki genetik algoritmanın
mutasyon operatörü kullanılarak parçacıkların çeşitlilik göstermesi sağlanarak yerel
optimum sorunu çözülebileceği söylenerek gelecekte yapılabilecek çalışmalara dikkat
çekmiştir [58].
Thanh ve ark. (2015), denetimli öğrenen gizli Markov modeli tasarımı ile elde edilen gen
ifade profilleri ile kanser sınıflandırmasına bir yaklaşım sunmaktadır. Her bir tümör tipi
gen ifadesi veri olasılığını maksimum yapan gizli Markov model ile modellenmiştir.
Bilinen farklı genler analitik hiyerarşi sürecinin (AHP) değişikliğine dayanan yeni bir
metod ile seçilmektedir. Geleneksel AHP metodu aksine, değiştirilmiş AHP her bir gen
seçimi metodunun sonuçlarının sıralanmasını sağlamaktadır. Gen seçimi metodu olarak ttesti, entropi, alıcı işletim karakteristik eğrisi, Wilcoxon testi ve sinyal gürültü oranı
kullanılmaktadır. Değiştirilmiş AHP istikrarlı ve kararlı bir gen alt kümesi oluşturmak için
her bir gen seçme metodunun sıralama sonuçlarını birleştirmektedir. Deneysel çalışmalarda
gizli Markov model yaklaşımının diğer altı sınıflandırma metoduna göre daha iyi
performans gösterdiği görülmüştür. Sonuç olarak AHP ile oluşturulan gen alt kümesi, bilgi
kazancı, simetrik belirsizlik, Bhattacharyya uzaklığı ve ReliefF gibi diğer gen seçim
metotlarından daha fazla doğruluk ve kararlılık göstermiştir. Değiştirilen AHP sadece gizli
Markov modelleme (HMM) sınıflandırıcısının değil diğer sınıflandırıcıların da
22
sınıflandırma performanslarını artırmıştır. Lösemi, bağırsak kanseri, prostat kanseri,
DLBCL (diffuse large B-cell lymphomas) verileri üzerinde k en yakın komşu (kNN),
olasılıklı sinir ağı (PNN), destek vektör makineleri (SVM), çok katmanlı algılayıcı (MLP),
bulanık ARTMAP (FARTMAP), grup öğrenen AdaBoost ve yeni önerilen hibrit (AHPHMM) metodun sınıflandırma başarıları karşılaştırılmıştır. HMM %2,20 ile diğer
sınıflandırıcılar arasında en küçük AUC standart sapma değerini vermiştir.
DLBCL
verisinin HMM ile sınıflandırılması ile diğer sınıflandırıcı sonuçları arasında en yüksek
sonuç olan %98,83 doğruluk ve %98,14 AUC değeri elde edilmiştir [59].
Jin ve ark. (2015), yaptıkları çalışma ile çoklu destek vektör veri açıklama tabanlı hızlı bir
öznitelik seçme metodu önermektedir. Tekrarlı olarak ilgisiz öznitelikler çıkarılarak
özyinelemeli bir öznitelik eleme tasarısı önerilmektedir. Önerilen metot çoklu SVDD-RFE
(MSVDD-RFE)’ dir. Bu metot her bir sınıf için alakalı gen alt kümesini bağımsız bir
şekilde seçmektedir. Bu seçilen alakalı gen alt kümeleri birleşerek nihai gen alt kümesini
oluşturmaktadır. MSVDD-RFE metodunun etkinliği ve doğruluğu beş genel mikro dizilim
veri seti üzerinde geçerliliği sağlanmıştır. Bu önerilen metot diğer metotlardan daha hızlı
ve daha efektiftir. Lösemi, kolon, tümör ve novartis veri setleri üzerinde ortalama %90
üzerinde
başarı
yakalanmıştır.
Akciğer
kanseri
veri
setinde
istenilen
başarı
yakalanamamıştır. Önerilen metodun bu sınıf üzerindeki sınıflandırma başarısını artırmak
için metoda grup öğrenmesi çalışması eklenmesi düşünülmektedir [60].
H. Banka ve S. Dara (2015), ikili parçacık sürüsü optimizasyonu tabanlı Hamming uzaklığı
yöntemi önerilmiştir. Hamming uzaklığı, önemli öznitelikleri seçmek için ikili parçacık
sürüsü optimizasyonundaki parçacık hızlarını güncelleme amacıyla yaklaşık değer olarak
verilmektedir.
Hesaplanan yaklaşık değer Hamming uzaklıkları kullanan önerilen
HDBPSO yöntemiyle gen ifade verilerindeki önemli öznitelik alt kümelerinin daha iyi
performans ile bulunabileceği görülmüştür. Leukemia, Colon, defuse dB-celllymphoma
veri setleri üzerinde önerilen HDBPSO öznitelik seçme yöntemi uygulanarak çeşitli
sınıflandırıcılar ile bu yönteminin başarısı ölçülmüş ve diğer öznitelik seçme yöntemlerinin
başarıları ile karşılaştırılmıştır. %50 eğitim, %50 test olarak kullanılmış ve 10 kat çapraz
doğrulama yapılmıştır. Kolon veri seti için önerilen metot ile elde edilen öznitelik alt
kümesi LibLinear, SVM, MLP ve J48 sınıflandırıcılar ile sınıflandırıldığında %100 başarı
göstermiştir. Lymphoma veri seti için önerilen metot LibLinear sınıflandırıcı ile %100
başarı göstermiştir. Leukemia veri seti için ise önerilen metot LibLinear, SVM, RF ve
23
MLP sınıflandırıcı ile %100 başarı göstermiştir. Her bir veri seti için diğer öznitelik seçme
yöntemlerinin sınıflandırma başarıları, önerilen öznitelik seçme yönteminin sınıflandırma
başarısından kötü çıkmıştır [61].
E. Lotfi and A.Keshavarz (2014) gen ifade verilerinin sınıflandırılması için temel bileşen
analizi (PCA) ve beyin duygusal öğrenme (BEL) ağı tabanlı yeni hibrit bir yöntem
önermişlerdir. BEL ağı nöropsikolojik özellikleri yansıtan duygusal beynin sayısal sinir
modeli halidir. Bu sınıflandırıcının önemli bir ayırt edici özelliği hesaplama karmaşıklığı
diğer sınıflandırıcılardan daha az olmasıdır. Çalışmada 5 kat çapraz doğrulama
kullanılmıştır. Yeni önerilen hibrit PCA-BEL yöntemi ile küçük yuvarlak mavi hücreli
tümörler (SRBCTs), yüksek dereceli gliomalar (HGG), akciğer (lung), kolon (colon) ve
meme(breast) kanseri veri setleri sınıflandırılarak bulunan sınıflandırma başarıları sırasıyla
%100, %96, %98,32, %87,40 ve %88’ dir [62].
Devi ve ark. (2015) karşılıklı bilgi (MI) tabanlı gen seçimi ve destek vektör makineleri
(SVM) kullanarak hibrit bir yöntem önermişlerdir. Genler ve sınıf etiketleri arasındaki
karşılıklı bilgi önemli genleri anlamak için kullanılır. Seçilen genler SVM sınıflandırıcıyı
eğitmek için kullanılmış ve sınıflandırıcının testi bir çıkarımlı çapraz doğrulama (LOOCV)
kullanılarak değerlendirilmiştir. Lenfoma ve kolon kanser veri setleri üzerinde çalışılmıştır.
Kolon kanseri veri seti için karşılıklı bilgi (MI) ile bulunan 3 gen ile eğitilen sınıflandırıcı
doğrulukları KNN ile %61,29, ANN ile %61,29, SVM (doğrusal) ile %74,19, SVM
(Radyal) ile %64,51, SVM (quad) ile %38,70, SVM (pol) ile %64,51 bulunmuştur.
Lenfoma veri seti için karşılıklı bilgi (MI) ile bulunan alakalı 4 gen ile eğitilen
sınıflandırıcı doğrulukları KNN ile %90,9, ANN ile%100, SVM (doğrusal) ile %100, SVM
(Radyal) ile %90,9, SVM (quad) ile %86,36, SVM (pol) ile %90,9 bulunmuştur [63].
Thanh ve ark. (2015), beş farklı istatistiksel yöntemin gen sıralama hesaplamasını
ilişkilendirerek gen seçimi yapan yeni bir yöntem olarak değiştirilmiş analitik hiyerarşi
yöntemini (MAHP) önermişlerdir. İki-örnek t testi, entropi testi, alıcı işletimi karakteristik
eğrisi (ROC), Wilcoxon testi ve sinyal gürültü oranı olmak üzere beş farklı istatistiksel
gene sıralama metodunun hesaplanan sonuçlarını karşılaştırarak gen seçimi yapar. Bilgi
kazancı (IG), simetrik belirsizlik (SU), ReliefF ve Bhattacharyya uzaklığı (BD) öznitelik
seçme yöntemleriyle kıyaslanmıştır. Bir çıkarımlı çapraz doğrulama (LOOCV) ile test ve
eğitim kümeleri oluşturulmuştur. DLBCL, lösemi, prostat ve kolon kanseri verileri
24
kullanılmıştır. Doğrusal Ayırma Analizi (LDA), K en yakın komşu (kNN), olasılıklı sinir
ağı (PNN), destek vektör makineleri (SVM), çok katmanlı algılama
(MLP)
sınıflandırıcıları ile önerilen yöntemin ve mevcut bahsedilen diğer gen seçme metotlarının
sınıflandırma başarıları her bir veri kümesi için ayrı ayrı bulunarak karşılaştırılmıştır.
Lösemi veri kümesi için, en yüksek başarı %97,36 sınıflandırıcılar arasından KNN ve gen
seçim metotları arasından bu çalışmada önerilen metot (MAHP) uygulandığında
bulunmuştur. Kolon veri kümesi için, en yüksek başarı %87,9 LDA ve MAHP birlikte
uygulandığında bulunmuştur. Prostat veri kümesi için, en yüksek başarı %91,18 LDA ve
MAHP birlikte uygulandığında bulunmuştur. DLBCL veri kümesi için, en yüksek başarı
%98,31 LDA ve MAHP birlikte uygulandığında bulunmuştur [64].
Dajun ve ark. (2014), çeşitli ilişkilerle en önemli genlerin seçimini yapmak için yeni ileri
gene seçim algoritmasını (FGSA) önermektedirler. Beş kat çapraz doğrulama
kullanılmıştır. Artrit veri kümesinde Elastik Net algoritması ile %88, İleri Gen Seçim
Algoritması(FGSA) algoritması ile %91,85 başarı elde edilmiştir. Kolon veri kümesinde
üstünde Elastik Net algoritması ile %93,69, FGSA algoritması ile %94,77 başarı elde
edilmiştir.
Lösemi veri kümesi üstünde FGSA sınıflandırıcı ile %98.41 başarı elde
edilmiştir [65].
Jie ve ark.(2015), geliştirilmiş yer çekimi arama algoritmasına dayalı ikili problemlere
uygun yeni hibrit bir yöntem önermişlerdir. Bu algoritma genel arama ve yerel aramayı
hızlandırmak için sıralı karesel programlama yapmak için parçalı doğrusal kaotik
haritalama yapar. Yerçekimi arama algoritmasına parçalı doğrusal kaotik haritalama
(PWL) ve sıralı karesel programlama (SQP) algoritmaları katılarak geliştirilmiş yerçekimi
algoritması(IGSA) ortaya konulmuştur. Bu algoritma UCI makine öğrenmesi sitesindeki
çeşitli öznitelik seçen örneklerle yöntemleriyle karşılaştırılmış daha az alakalı gen ve ve
daha iyi başarı elde edilmiştir. Geliştirilmiş yer çekimi arama algoritması (IGSA) 23 lineer
olmayan kıyaslama fonksiyonu ile ve 5 sezgisel algoritma ile karşılaştırılarak test
edilmiştir. Bu sezgisel algoritmalar sırasıyla Genetik Algoritma(GA), ikili parçacık sürü
optimizasyonu (BPSO), Kuantum esinli parçacık sürü optimizasyonu (QBPSO), ikili
yerçekimi arama algoritması (BGSA), geliştirilmiş yerçekimi arama algoritması (IGSA)’
dır. Wisconsin meme kanseri veri kümesinde önerilen BIGSA optimizasyonu kNN
sınıflandırıcıda 26 gen ile diğer optimizasyonlar arasında en yüksek AUC değeri 98,1 elde
edilmiştir. kNN sınıflandırıcı için k değeri 1 seçilmiştir. Bir çıkarımlı çapraz doğrulama
25
(LOOCV) ile test ve eğitim kümeleri oluşturulmuştur. PIMA Diabetes veri kümesinde
önerilen BIGSA optimizasyonu kNN sınıflandırıcıda 8 gen ile diğer optimizasyonlar
arasında en yüksek AUC değeri 75.1 elde edilmiştir [66].
B. Chandra ve K.V. Naresh Babu (2014), dalgacık Radyal Tabanlı Sinir Ağı (WRNN)’ nın
gen ifade verilerine uygulamayı önermişlerdir. Çivileme fonksiyonu olarak doğrusal
olmayan bütünleşmiş ve yangın model ve diğer çivileme aralığı türetilmiş ve Dalgacık
Radyal Tabanlı Sinir Ağı (WRNN)’ nda kullanılmış ve bu yeni modele Çivileme Dalgacık
Radyal tabanlı Sinir Ağı (SWRNN) adı verilmiştir. Karaciğer tümörü, Genel Kanser
Haritası (GCM), Glioma, meme kanseri,11-tümor ve Hepato hücresi veri kümelerinde test
edilmiştir. On kat çapraz doğrulama ile test ve eğitim kümeleri oluşturulmuştur. WRNN,
standart metot ve SWRNN metodu ile yapılan sınıflandırma başarıları her bir veri kümesi
için en yüksek olanı SWRNN metodundan elde dilmiştir. Veri kümelerinde sırasıyla
%99,651, %99,79, %98,47, %96,02, %73,79 ve %97,77 sınıflandırma başarıları elde
edilmiştir [67].
T.Latkowski ve S. Osowski (2015), en iyi temsil eden gen özniteliklerinin bulunarak
sınıflandırıcıya girdi olarak verilmesini sağlayan farklı gen seçim yöntemlerinin bir
uygulamasını sunmaktadır. Birkaç gen seçim metodu ile seçilen genler Genetik algoritma
ve destek vektör makineleri birlikte uygulanarak başarı elde edilmiştir. 10 kat çapraz
doğrulama yapılmış ve tüm verilerin %40’ı test ,%60’ı eğitim olarak kullanılmıştır.%%60
seçilen eğitim verisine 8 farklı öznitelik seçme yöntemi uygulanıyor. Fisher korelasyon
analizi (FDA), Relief F algoritması (RFA), iki örnek t testi (TT), Kolmogorov–Smirnov
testi (KST), Kruskal–Wallistest (KWT), aşamalı regresyon metodu (SWR),sınıfla öznitelik
ilişkisi (COR), SVM-RFE metodu olmak üzere 8 öznitelik seçme metodu ile seçilmektedir.
Her bir yöntemde seçilen öznitelikler genetik algoritma ile tekrar seçilmektedir. Az sayıda
bulunan en iyi özniteliklere ait test bilgileri destek vektör makineler sınıflandırıcısı ile
sınıflandırılıyor ve başarımı ölçülmektedir. Önerilen yöntemle %86.07 ile diğer
sınıflandırıcılar arasında en yüksek başarı elde etmiştir. Ayrıca aynı sayıda en iyi değil de
rastgele seçilen genlerin sınıflandırıcıdaki başarısı %67,16 bulunmuştur [68].
Hui ve ark. (2014), benzemezlik ile oylama tabanlı aşırı öğrenme makineleri (V-ELM)
birlikteliğine dayanan bir metot önermişlerdir. Aşırı öğrenme makineleri (ELM) üstün
genelleme performansları ve hızlı öğrenmeleri ile veri sınıflandırmak için kullanılan
26
yöntemlerden olmasına rağmen tek başına kullanıldığı zaman sınıflandırmada kararsız
olduğu gözlemlenmiştir. Bu yüzden, bu çalışmada aşırı öğrenme makineleri topluluğu
olarak kullanılmıştır. Topluluk havuzundan birkaç aşırı öğrenme makinesi farklı
benzemezlik ölçülerine dayanarak çıkarılarak topluluk sınıflandırıcısı olarak aşırı öğrenme
makineleri çoğunluk oylaması ile gruplandırılmıştır. Benzemezlik aşırı öğrenme
makinesini (D-ELM) doğrulamak için benzemezlik ölçüsü ve çift hata ölçüsü kullanılır.
Diyabet, kalp ve lösemi veri setleri kullanılmıştır. Her bir veri seti üzerinde farklı sayıda (1
ile 60 arası) seçilen ELM’ ler için DF-D-ELM, D-D-ELM, toplayarak önyükleme
(Bagging (Bootstrap aggregating)) ve V-ELM’ nin sınıflandırma başarılarına bakılmıştır.
Lösemi veri setinde DF-D-ELM metodunda birçok farklı ELM sayısında diğer üç metottan
daha yüksek olan %100 başarı göstermiştir. Kalp veri setinde, en yüksek başarı olan
%76,77 ELM sayısı 40 iken D-D-ELM metodunda ve ELM sayısı 35 iken DF-D-ELM
metodunda bulunmuştur. Diyabet veri setinde, ELM sayısı 25 iken DF-D-ELM metodunda
sağlanmıştır. DF−D−ELM, D−D−ELM, V-ELM ve toplayarak önyükleme (Bagging)
algoritmalarının her üç veri setindeki sınıflandırma doğruluğu grafiksel olarak
karşılaştırılmış ve en yüksek başarının DF−D−ELM‘ de olduğu görülmektedir.
DF−D−ELM algoritması rastgele orman (random forest) algoritması ile sınıflandırma
doğruluğu açısından kıyaslanmış ve her üç veri seti için DF−D−ELM algoritması en iyi
sonuçları verdiği grafiklerde gösterilmiştir. Sonuç olarak, D-ELM daha az sayıda aşırı
öğrenme makinesi ile daha iyi sınıflandırma doğruluğu göstermiştir. D-ELM’ e bağlı çift
hata ölçüsü (DF-D-ELM), D-ELM’ e bağlı benzemezlik ölçüsüne (D-D-ELM) göre daha
iyi performans göstermiştir [69].
Bolón-Canedo ve ark.(2015), öznitelik seçme işleminin paylaştırılması için yeni bir metot
önermişlerdir. Bu metot öznitelikler ile ilgili olan yani dikey paylaştırma yaparak veriyi
paylaştırır ve daha sonra sınıflandırma doğruluğundaki gelişmeye göre öznitelik alt
kümelerini güncelleyerek birleştirme işlemi yapar. Bu metot Kolon, Lösemi, CNS,
DLBCL, Prostat, Akciğer, yumurtalık kanseri, Meme olmak üzere 8 mikro dizilim veri seti
üzerinde
uygulanarak
çalışma
zamanı
ve
performans
açısından
sonuçları
değerlendirilmiştir. Bu metot çalışma zamanını gözle görülür şekilde kısaltmasına karşın,
performans aynı kalmış ya da paylaştırılmamış veri setlerine uygulanan standart
algoritmalar ile karşılaştırıldığında önerilen metot ile performansın iyileştirilmiş olduğu
görülmektedir. Tek değişkenli ve çok değişkenli olmak üzere iki farklı öznitelik seçme
sıralayıcısı vardır. Çalışmada öznitelik seçme sıralayıcısı olarak tek değişkenli metotlardan
27
olan bilgi kazancı ve ReliefF seçilmiştir. Önerilen paylaştırılmış algoritmanın iki temel
farklı versiyonu vardır. Birincisi paylaştırılmış sıralayıcı filtre (DRF), ikincisi verileri
rastgele bölen paylaştırılmış filtre (DF)’ dir. DRF ve ondan türeyen bilgi kazancının sıfır
olduğu DRF0 doğruluk açısından en iyi performansı göstermiştir [70].
Sampreeti ve ark.(2014), gen ifade verilerinde boyut indirgemek ve özellik kümelemek
için rastgele aramaya dayalı büyük uygulamaların bulanık kümelemesi (FCLARANS)
öznitelik seçme yöntemini önermişlerdir. Gen ontoloji ve farklı gen ifadelerine dayalı
alansal bilgiler kullanılmaktadır. Alansal bilgilerin kullanımı biyolojik olarak anlamlı
bölümlerin otomatik olarak seçilmesinde etkili rol oynar. Gen ontoloji çalışması
istatistiksel önemli kümelerin bulunmasına yardımcı olur. Bu kümelerin temsilcileri olarak
farklı ifade edilmiş genleri seçmek için kat değişimleri hesaplanmaktadır.
Genlerin
indirgenmiş alt kümesini topluca oluşturmak için her bir kümeden en iyi temsilci geni
seçebilmek adına kat değişimi hesaplanarak genlerin farklı ifadesi hesaplanmaktadır.
Kolon, Medullo-blastoma, mide, lösemi veri setleri kullanılmıştır. Her bir veri setinde
EBayes, PLSCV, RFMDA, SAM, FCLARANS (önerilen) olmak üzere beş algoritma ve
kNN, MLP, NB, karar ağacı, rastgele orman sınıflandırıcıları kullanılmıştır. %100 başarı
oranı 32 gen ile mide veri setinde FCLARANS ve kNN ile rastgele orman ve kNN birlikte
kullanımlarında elde edilmiştir [71].
Sina ve ark. (2015), genler arasındaki ilişkiyi maksimum, artıklığı minimum tutarak bir
filtreleme yaklaşımı kullanan karınca koloni algoritması içeren MGSACO isimli
denetimsiz bir gen seçme metodu önermişlerdir. Seçilen genlerin altkümelerinin
değerlendirilmesi için hiçbir öğrenme modeline ihtiyaç duymayan önerilen metoda yeni bir
uygunluk fonksiyonu uygulanmıştır. Önerilen metodun sınıflandırma başarısı beş halka
açık mikro dizilim gen veri seti üzerinde uygulanmıştır. Yedi tane iyi bilinen denetimli ve
denetimsiz gen seçme metodu ile önerilen yöntem karşılaştırılmış ve iyi bilinen
sınıflandırıcılardan destek vektör makineleri, naiveBayes ve karar ağacı sınıflandırıcıların
hata oranları karşılaştırılmıştır. Kolon, SRBCT, Lösemi, Prostat tümörü, akciğer kanseri
veri setlerinde 20 gen seçimi ve destek vektör makineleri sınıflandırıcı ile beş veri setinde
elde edilen ortalama hata oranları arasında %21,28 ile en düşük önerilen metotta
(MGSACO) çıkmıştır. Belirtilen veri setlerinde 20 gen seçimi ve karar ağacı sınıflandırıcı
ile beş veri setinde elde edilen ortalama hata oranları arasında %20,14 ile en düşük
önerilen metotta çıkmıştır. Belirtilen veri setlerinde 20 gen seçimi ve karar ağacı
28
sınıflandırıcı ile beş veri setinde elde edilen ortalama hata oranları arasında %23,83 ile en
düşük önerilen metotta çıkmıştır. Önerilen metot (MGSACO), karınca koloni
algoritmasına dayalı denetimsiz öznitelik seçme metodu (UFSACO), rastgele alt uzay
metodu (RSM), karşılıklı ilişki (MC), alakalılık artıklık öznitelik seçimi (RRFS), süreli
varyans (TV), Laplace puanı (LS) metotlarıyla gen seçimleri(10 ila 100 adet) her bir veri
seti için destek vektör makineleri, naiveBayes ve karar ağacı olmak üzere üç
sınıflandırıcıda sınıflandırılıp hata sonuçları bulunmuştur. Beş veri setinde her bir
sınıflandırıcıyla bulunan hata sonuçlarının ortalaması alınarak destek vektör makineleri,
naiveBayes ve karar ağacı sınıflandırıcıdaki yedi gen seçim metodunun hata oranları
karşılaştırılmıştır. SVM sınıflandırıcı için %1,4 ile, NB sınıflandırıcı için %2,0 ile, karar
ağacı için %1,5 ile en düşük hata oranları yedi metot arasından önerilen metotta elde
edilmiştir. Metodun döngüsel geliştirilmesi ve nüfus tabanlı olmasından dolayı, denetimsiz
gen seçim metodu olan MGSACO, denetimli minimum artıklık maksimum alakalılık gen
seçim metodu olan mRMR ile karşılaştırıldığında önerilen metodun önemli ölçüde daha iyi
performans gösterdiği görülmüştür. Deney sonuçları, MGSACO mevcut yöntemlere göre
farklı sınıflandırıcıların ve veri kümeleri üzerinde önemli ölçüde üstün olduğunu
göstermektedir [72].
Subhajit ve ark. (2015), gen seçme tekniklerine dayalı k en yakın komşu ile beraber
parçacık sürüsü optimizasyonu (PSO) yöntemi önerilmiştir. Bu yöntem, minimum sayıda
olası anlamlı gen alt kümelerini seçmede kullanılmıştır. Küçük yuvarlak mavi hücre
tümörü (SRBCT), akut lenfoblastik lösemi (ALL) and akut miyeloid lösemi (AML) ve
karışık kökenli lösemi (MLL) veri setleri üzerinde önerilen yöntem uygulanmıştır. Kör test
numuneleri, bilgilendirici genlerin sayıları ve hesaplama süresi açısından önerilen
yöntemin yararları deneysel sonuçlar ile görülmüştür [73].
29
4. DENEYSEL ÇALIŞMALAR
Bu tez çalışmasında halka açık bir veri kümesi olan yumurtalık kanseri gen veri seti
üzerinde deneysel çalışmalar yapılmıştır [74]. Bu veri seti aynı zamanda Petricoin ve ark.
tarafından 2002 yılında yapılan çalışmada kullanılan veri setidir [75]. Yumurtalık kanseri
veri setinde 253 adet örnek(denek/insan) ve 15154 adet gen ifade verisi bulunmaktadır.
253 tane örneğin 91 tanesi sağlıklı birey, 162 tanesi yumurtalık kanseri hastalığına
yakalanmış (biyopsi sonucuna göre) birey olarak tanımlanmıştır. 15154 adet gen ifade
verisi, hastalıkta rol oynayabilecek genlerin hasta bireyler ve normal bireyler üzerinde
etkin değerlerini gösteren gen ifadeleri olarak açıklanabilir.
Hastaların %80’ inden fazlası yumurtalık kanserinin geç klinik evresinde bulunmakta
olduğu ve bu evredeki hastaların %35’i 5 yıllık hayatta kalım süresi ile ilişkilendirilmiştir.
Buna karşılık, birinci evrede bulunan yumurtalık kanserli hastaların %90’ından fazlası 5
yıllık hayatta kalım süresi ile ilişkilendirildiği ve bu evredeki hastaların çoğunun sadece
cerrahi müdahale ile hastalıklarının tedavi edilmekte olduğu belirtilmiştir. Genlerin
bilgileri kütle / yük (m / z) konumlarındaki en yüksek genlik değerleri ile tanımlanarak
elde edilmiştir. Veri setindeki örneklerin bilgileri, Northwestern Üniversitesi Hastanesi
Ulusal Yumurtalık Kanseri Erken Teşhis Programı (NOCEDP)’ ndan elde edilmiştir [75].
Yumurtalık kanseri gen ifade veri kümesindeki veriler normalize edilmiştir. Maksimumminimum normalizasyonu kullanılarak değerler 0-1 değer aralığına çekilmiştir. Normalize
edilen yeni veri kümesinde kayıp değerler (NaN) olması ihtimali bulunduğundan ‘NaN’
değer bulunan genler veri kümesinden çıkarılabilmesi için filtreleme yapılmıştır. Ancak,
yumurtalık kanseri gen kümesinde kayıp değerler olmadığından filtrelendikten sonra da
örnek ve öznitelik sayısı aynı kalmıştır. Veri setinde çok sayıda gen bulunduğundan,
öncelikle Fisher korelasyon skorlama (FKS) ve Weltch t istatistiği (WTS) olmak üzere iki
farklı öznitelik seçme yöntemi kullanılarak gen öznitelikleri çıkan sonuçlar ışında ilgililik
sıralamasına tabi tutulmuştur. Bu sıralamaya göre öznitelik kümesinden ilk 100 örnek
alınmış daha sonra ilk 200 örnek alınmış ve 100 artırımlı olarak tüm veri setinin
sınıflandırma başarıları ölçülmüştür. Fisher korelasyon skorlama ve weltch t testi sonucu
en yüksek değere sahip ilk 100 gen seçilerek, seçilen genler iki farklı sınıflandırma
yöntemi ile sınıflandırmaya tabi tutulmuştur. k en yakın komşu (kNN) ve destek vektör
30
makineleri (SVM) sınıflandırıcılar kullanılarak sınıflandırma başarıları ölçülmüştür.
Sınıflandırma yapılırken her bir sınıfa ait örneklerin %40’ ı eğitim, %60’ ı test verisi olarak
rastgele örnekler seçilmiştir. Öncelikle rastgele seçilen bir eğitim ve test verisi seçilerek
başarı tabloları ve grafikleri Çizelge 4.1, Çizelge 4.2, Çizelge 4.3, Çizelge 4.4 deki
çizelgeler ve Şekil 4.1, Şekil 4.2, Şekil 4.3, Şekil 4.4’deki şekiller elde edilmiştir. Daha
sonra eğitim ve test verileri olarak 10 faklı kez sınıflandırma başarıları hesaplanmıştır. Bu
10 kez yapılan sınıflandırma başarıları tablosu Çizelge 4.5 ve Çizelge 4.6’ da verilmiştir.
Sınıflandırıcılardan kNN için 1, 3, 5, 7, 9 ve 11 olarak farklı k değerleri ve SVM için ise
doğrusal, radyal, polinomsal ve karesel olarak farklı çekirdek fonksiyonları ile
sınıflandırma başarıları ölçülmüştür. Çizelge 4.1 ve Şekil 4.1’ de FKS ile elde edilen
değerlere göre ilk 100, ilk 200, ilk 300 ve 100 artırımlı olarak tüm veri kümesindeki genler
alınarak kNN sınıflandırıcının farklı değerleri ile sınıflandırma başarıları gösterilmektedir.
Çizelge 4.2 ve Şekil 4.2 ’te FKS ile elde edilen değerlere göre ilk 100, ilk 200, ilk 300 ve
100 artırımlı olarak tüm veri kümesindeki genler alınarak SVM sınıflandırıcının farklı
değerleri ile sınıflandırma başarıları gösterilmektedir. Çizelge 4.3 ve Şekil 4.3’ te WTS ile
elde edilen değerlere göre ilk 100, ilk 200, ilk 300 ve 100 artırımlı olarak tüm veri
kümesindeki genler alınarak kNN sınıflandırıcının farklı değerleri ile sınıflandırma
başarıları gösterilmektedir. Çizelge 4.4 ve Şekil 4.4’ te WTS ile elde edilen değerlere göre
ilk 100, ilk 200, ilk 300 ve 100 artırımlı olarak tüm veri kümesindeki genler alınarak SVM
sınıflandırıcının farklı değerleri ile sınıflandırma başarıları gösterilmektedir.
Çizelge 4.1’ de Fisher korelasyon ile sıralanmış genlerden ilk 100 gen için en yüksek
başarı değerleri elde edilmiştir. Gen seçilmeksizin tüm veri setine kNN (k=1 için)
sınıflandırıcısı uygulandığında %88,74 bulunurken, ilk 100 gen için %99,34 başarı elde
edilmiştir. k değişkeninin farklı değerleri için ilk 100 gende yapılan sınıflandırma sonucu
en iyi sınıflandırma başarısı k değerinin 1 alındığı durumda elde edilmiştir. En iyi
sınıflandırma başarısı FKS ile ilk sıralanmış 1000 örneğe kadar kNN sınıflandırıcının k
değişkeninin farklı değerlerinin hepsinde de tüm veri setinden elde edilen başarıdan daha
fazla başarı elde edilmiştir. Bu sonuçlardan önerilen ilgililik sıralaması yapılarak
sıralandırılmış gen öznitelikleri seçilerek gen veri setinin boyutu indirgenerek daha az
boyutlu veri kümesinin sınıflandırılması daha iyi başarı elde etmeye yaramıştır.
31
Çizelge 4.1. FKS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları
FKS
sıralı
indirgenmiş
gen verisi
KNN
KNN
KNN
KNN
KNN
KNN
(k=1)
(k=3)
(k=5)
(k=7)
(k=9)
(k=11)
%
%
%
%
%
%
İlk 100 gen
99,34
98,01
98,01
98,01
98,01
98,01
İlk 200 gen
98,68
98,01
98,01
98,01
96,69
96,69
İlk 300 gen
98,68
98,01
97,35
97,35
96,03
95,36
İlk 400 gen
98,68
97,35
96,69
96,69
95,36
96,03
İlk 500 gen
98,01
97,35
96,03
96,03
95,36
95,36
İlk 600 gen
97,35
96,69
95,36
95,36
94,70
94,04
İlk 700 gen
96,69
96,69
96,03
96,03
94,04
93,38
İlk 800 gen
97,35
96,03
96,03
95,36
94,04
94,04
İlk 900 gen
98,01
96,69
96,03
95,36
94,70
94,04
İlk1000 gen
98,01
96,69
96,03
95,36
94,70
93,38
Tüm veri
88,74
86,75
86,75
87,42
85,43
85,43
Çizelge 4.2’ de Fisher korelasyon ile sıralanmış genlerden ilk 100 gen için en yüksek
başarı değerleri elde edilmiştir. Gen seçilmeksizin tüm veri setine SVM (çf=lineer için)
sınıflandırıcısı uygulandığında %98, 68 bulunurken, ilk 100 gen için %100 başarı elde
edilmiştir. SVM’ nin farklı çekirdek fonksiyonları için ilk 100 gende en iyi sınıflandırma
başarısı SVM çekirdek fonksiyonunun doğrusal (çf=lineer) seçildiği durumda elde
edilmiştir. En iyi sınıflandırma başarısı önerilen metot ile ilk sıralanmış 1000 örneğe kadar
SVM sınıflandırıcının tüm çekirdek fonksiyonlarının hepsinde de tüm veri setinden elde
edilen başarıdan daha fazla başarı elde edilmiştir.
32
Çizelge 4.2. FKS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları
FKS sıralı
SVM
SVM
SVM
SVM
indirgenmiş
(ÇF=Lineer)
(ÇF=Polinom)
(ÇF=Quadratik)
(ÇF=Radyal)
gen verisi
%
%
%
%
İlk 100 gen
100,00
98,01
97,35
63,58
İlk 200 gen
100,00
98,68
96,03
63,58
İlk 300 gen
100,00
98,68
94,04
63,58
İlk 400 gen
99,34
98,68
94,04
63,58
İlk 500 gen
99,34
98,68
94,70
63,58
İlk 600 gen
99,34
98,68
94,04
63,58
İlk 700 gen
99,34
98,68
93,38
63,58
İlk 800 gen
99,34
98,68
93,38
63,58
İlk 900 gen
99,34
96,03
92,05
63,58
İlk 1000 gen
99,34
94,70
91,39
63,58
Tüm veri
98,68
63,58
43,71
63,58
Çizelge 4.3’ te Weltch t testi ile sıralanmış genlerden ilk 100 gen ve k=11 için en yüksek
başarı değeri %100 sınıflandırma başarısı elde edilmiştir. Gen seçilmeksizin tüm veri
setine kNN (k=11 için) sınıflandırıcısı uygulandığında %85,43 bulunurken, ilk 100 gen
için %100 başarı elde edilmiştir. En iyi sınıflandırma başarısı WTS ile ilk sıralanmış 1000
örneğe kadar kNN sınıflandırıcının k’ nın farklı değerlerinin hepsinde de tüm veri setinden
elde edilen başarıdan daha fazla başarı elde edilmiştir. Bu sonuçlardan önerilen ilgililik
sıralaması yapılarak sıralandırılmış gen öznitelikleri seçilerek gen veri setinin boyutu
indirgenerek daha az boyutlu veri kümesinin sınıflandırılması daha iyi başarı elde etmeye
yaramıştır.
33
Çizelge 4.3. WTS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları
WTS
sıralı
indirgenmiş
gen verisi
kNN
kNN
kNN
kNN
kNN
kNN
(k=1)
(k=3)
(k=5)
(k=7)
(k=9)
(k=11)
%
%
%
%
%
%
İlk 100 gen
98,01
98,68
98,01
98,01
98,01
100
İlk 200 gen
98,68
97,35
98,01
97,35
96,03
97,35
İlk 300 gen
99,34
98,01
98,01
96,69
96,03
96,03
İlk 400 gen
98,01
97,35
97,35
96,69
96,03
94,7
İlk 500 gen
98,01
96,69
96,69
96,03
95,36
94,7
İlk 600 gen
98,01
96,69
96,69
95,36
96,03
95,36
İlk 700 gen
98,01
96,69
96,03
96,03
96,03
95,36
İlk 800 gen
98,01
96,69
96,03
95,36
96,03
94,7
İlk 900 gen
98,68
96,03
96,03
95,36
96,03
95,36
İlk 1000 gen
98,68
96,03
96,69
95,36
95,36
94,7
Tüm veri
88,74
86,75
83,44
87,42
85,43
85,43
Çizelge 4.4’ de Weltch t testi ile sıralanmış genlerden ilk 100 gen için %99,34 başarı elde
edilmiştir. Gen seçilmeksizin tüm veri setine SVM (çf=lineer için) sınıflandırıcısı
uygulandığında %98, 68 bulunurken, ilk 200 gen için %100 başarı elde edilmiştir. SVM’
nin farklı çekirdek fonksiyonları arasında en iyi sınıflandırma yapan doğrusal olurken, en
kötü ise radyal çekirdek fonksiyon olmuştur. SVM çekirdek fonksiyonu karesel (quadratic)
seçildiğinde en iyi başarı ilk 100 gen için bulunmuştur. En iyi sınıflandırma başarısı
önerilen metod ile ilk sıralanmış 1000 örneğin SVM ile sınıflandırılması radyal hariç diğer
tüm çekirdek fonksiyonlarının hepsinde de tüm veri setinden elde edilen başarıdan daha
fazla başarı elde edilmiştir.
34
Çizelge 4.4. WTS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları
WTS sıralı
SVM
SVM
SVM
SVM
indirgenmiş
(ÇF=Lineer)
(ÇF=Polinom)
(ÇF=Quadratik)
(ÇF=Radyal)
gen verisi
%
%
%
%
İlk 100 gen
99,34
98,01
97,35
63,58
İlk 200 gen
100
98,68
96,03
63,58
İlk 300 gen
100
99,34
94,04
63,58
İlk 400 gen
100
99,34
9073
63,58
İlk 500 gen
100
99,34
92,05
63,58
İlk 600 gen
100
99,34
93,38
63,58
İlk 700 gen
100
98,01
92,72
63,58
İlk 800 gen
100
98,01
92,05
63,58
İlk 900 gen
99,34
95,36
88,74
63,58
İlk 1000 gen
99,34
94,7
86,09
63,58
Tüm veri
98,68
63,58
43,71
63,58
Şekil 4.1, Şekil 4.2, Şekil 4.3 ve Şekil 4.1, Çizelge 4.1, Çizelge 4.2, Çizelge 4.3 ve Çizelge
4.4’ deki bilgileri içermekte olup ilk 100 örnekten 100 artırımlı olarak tüm veri kümesine
kadar seçilen özniteliklerin sınıflandırma başarılarını göstermektedir. Şekil 4.1 ve Şekil 4.3
iki farklı yöntemle sıralanmış özniteliklerin kNN sınıflandırıcısındaki başarılarını, Şekil
4.2 ve Şekil 4.4 ise iki farklı yöntemle sıralanmış özniteliklerin SVM sınıflandırıcısındaki
başarılarını göstermektedir.
35
Şekil 4.1. FKS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları
36
Şekil 4.2. FKS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları
37
Şekil 4.3. WTS sıralı indirgenmiş gen verisinin kNN ile sınıflandırma sonuçları
38
Şekil 4.4. WTS sıralı indirgenmiş gen verisinin SVM ile sınıflandırma sonuçları
39
Çizelge 4.5. FKS sıralı indirgenmiş gen verisinin ortalama sınıflandırma sonuçları
FKS
sıralı
KNN
KNN
KNN
KNN
KNN
KNN
SVM
SVM
SVM
SVM
indirgenmiş
(k=1)
(k=3)
(k=5)
(k=7)
(k=9)
(k=11)
(ÇF=
(ÇF=
(ÇF=
(ÇF=
%
%
%
%
%
%
Lin.)
Pol.)
Quad)
Rad)
%
%
%
%
gen verisi
İlk 100 gen
100
98,6
98,0
97,3
97,3
97,35
99,34
98,01
98,01
88,7
İlk 200 gen
100
98,0
97,3
98,0
96,6
96,69
100
98,68
96,69
88,7
İlk 300 gen
100
97,3
96,6
96,6
96,0
96,03
100
99,34
97,35
88,7
İlk 400 gen
100
97,3
96,6
96,6
94,7
94,04
100
98,68
98,01
88,7
İlk 500 gen
99,3
97,3
96,6
96,0
94,7
94,7
100
99,34
96,69
88,7
İlk 600 gen
99,3
98,0
96,0
96,0
94,7
93,38
100
98,01
96,03
88,7
İlk 700 gen
100
96,6
96,6
96,0
94,7
93,38
100
96,03
94,7
88,7
İlk 800 gen
100
96,6
96,6
95,6
94,0
94,04
100
97,35
94,7
88,7
İlk 900 gen
100
96,6
96,0
94,7
94,0
94,7
99,34
95,36
93,38
88,7
İlk1000gen
99,3
96,0
96,0
95,3
94,7
94,04
99,34
90,07
92,72
88,7
Tüm veri
90,0
84,1
82,1
80,7
81,4
81,46
99,34
35,76
42,38
88,7
Çalışmanın farklı test ve eğitim verileri ile eğitilerek ve test edilerek sınıflandırıcıların
başarılarının ortalaması alınmıştır. Çizelge 4.5’ te bu 10 farklı eğitim ve test verisi ile
yapılan sınıflandırıcı başarılarının ortalaması görülmektedir. En iyi başarının destek vektör
makineleri lineer çekirdek fonksiyonunda ve k en yakın komşu sınıflandırıcısının k=1
olduğu durumda elde edildiği görülmektedir. Ayrıca tüm veri seti öznitelik seçmeden önce
kNN (k=1) sınıflandırıcıda %90,07 başarı ile sınıflandırılırken ilk 100 öznitelik
seçildiğinde %100 başarı elde edildiği görülmektedir.
40
Çizelge 4.6. WTS sıralı indirgenmiş gen verisinin ortalama sınıflandırma sonuçları
FKS
sıralı
KNN
KNN
KNN
KNN
KNN
KNN
SVM
SVM
SVM
SVM
indirgenmiş
(k=1)
(k=3)
(k=5)
(k=7)
(k=9)
(k=11)
(ÇF=
(ÇF=
(ÇF=
(ÇF=
%
%
%
%
%
%
Lin.)
Pol.)
Quad.)
Rad.)
%
%
%
%
gen verisi
İlk 100 gen
98,0
97,3
97,3
97,3
97,3
97,35
100
97,35
96,69
61,5
İlk 200 gen
97,3
96,6
96,6
96,6
96,6
96,69
100
98,01
94,7
61,5
İlk 300 gen
97,3
96,0
96,6
96,0
96,0
95,36
99,34
98,68
91,39
61,5
İlk 400 gen
97,3
95,3
96,0
95,3
95,3
94,04
99,34
98,01
93,38
61,5
İlk 500 gen
97,3
96,0
96,0
95,3
94,7
94,04
99,34
88,74
93,38
61,5
İlk 600 gen
96,6
96,0
96,0
95,3
94,0
94,04
99,34
82,78
93,38
61,5
İlk 700 gen
96,0
95,3
95,3
95,3
94,7
92,72
99,34
74,83
92,72
61,5
İlk 800 gen
96,0
95,3
94,7
94,7
94,7
92,05
99,34
75,5
92,05
61,5
İlk 900 gen
96,6
95,3
94,7
94,0
94,7
93,38
99,34
70,86
90,73
61,5
İlk1000gen
96,6
95,3
95,3
93,3
93,3
93,38
99,34
70,2
90,73
61,5
Tüm veri
87,4
83,4
81,4
81,4
80,7
78,15
98,68
38,41
50,99
61,5
Çizelge 4.7.’ de Weltch T istatistiği ve Fisher korelasyon skorlama sonucu tüm veri
setindeki gen ifade verilerine ait ağırlıklandırma değerlerine göre sıralanarak gen ifade
verilerinin veri setindeki sıralamaları listelenmiştir. İlk 18’ deki WTS ve FKS ile seçilmiş
veri setindeki gen sıra değerlerine bakılacak olursa sadece 1 tane hariç aynı gen
numaralarının farklı sırada olduğu görülmektedir. Bu sonuç, benzer değerleri kullanarak
ağırlıklandırma değerleri bulan WTS ve FKS istatistiksel metotları sıralama yaparken aynı
genleri farklı sırada seçmesi doğru şekilde ağırlıklandırma değerleri bulunduğunu
göstermektedir.
41
Çizelge 4.7. WTS ve FKS sonrasında sıralanan ilk 100 gen özniteliğinin veri setindeki sıra
numaraları
NO
FKS
WTS
NO
FKS
WTS
NO
FKS
WTS
NO
FKS
WTS
1
1680
1680
26
1688
1738
51
2314
2313
76
578
579
2
1679
1679
27
2312
543
52
546
546
77
572
566
3
1681
1681
28
2194
2191
53
2234
541
78
9605
6802
4
1682
1682
29
1689
1687
54
6783
6782
79
570
2190
5
1678
2237
30
2241
544
55
1604
1734
80
577
578
6
1683
2238
31
1594
1594
56
2195
6781
81
569
547
7
2237
1678
32
1738
1600
57
6781
1605
82
568
2667
8
1684
2236
33
1601
2310
58
2171
2195
83
571
573
9
2238
2239
34
544
1603
59
1734
576
84
573
577
10
2236
1683
35
543
2194
60
2172
2172
85
547
564
11
2239
2240
36
1602
2311
61
2242
575
86
9604
1595
12
1685
2235
37
2313
1598
62
1605
568
87
567
2665
13
1736
1684
38
2309
545
63
2190
569
88
1595
565
14
1686
1736
39
1600
542
64
541
570
89
9610
563
15
2192
1737
40
1599
2309
65
576
567
90
183
6803
16
1737
2192
41
1674
2312
66
2170
6783
91
580
9608
17
2235
1685
42
545
1674
67
575
2171
92
9594
9607
18
2240
2241
43
6782
2234
68
9607
572
93
9603
9609
19
1687
1677
44
1593
1688
69
9608
574
94
9595
580
20
2193
1735
45
181
2242
70
1606
1690
95
9596
562
21
1677
2193
46
182
1593
71
1596
2314
96
9593
9606
22
1735
1602
47
1598
1689
72
9606
1596
97
581
2668
23
2311
1599
48
1603
181
73
579
2666
98
9597
581
42
Çizelge 4.7. (devam) WTS ve FKS sonrasında sıralanan ilk 100 gen özniteliğinin veri
setindeki sıra numaraları
24
2191
1686
49
542
1604
74
574
571
99
566
9590
25
2310
1601
50
1690
182
75
9609
2308
100
6802
9589
Çalışmada ilk 1000 gen için gen sayısı azaldıkça sınıflandırma başarısının arttığı görülerek,
WTS ve FKS ile sıralama yapılan ilk 10 gen içinden en az kaç tanesi kullanılarak en iyi
başarıya yakın başarı yakalanacağı sorusuna cevap verebilmek için, ilk 100 gen içindeki
ilk 1, ilk 2, ilk 3, ilk 4 ve bir artırımlı olarak ilk 10 genin birlikte sınıflandırma başarılarına
bakılmıştır. Bu sınıflandırma başarılarına bakılırken her sınıftan örnek olacak şekilde 10
farklı eğitim ve test seti hazırlanmıştır ve sınıflandırma başarıları elde edilmiştir. Bu 10
farklı indeks değerlerindeki sınıflandırma başarılarının ortalaması alınarak Çizelge 4.8 ve
Çizelge 4.9’ daki tablolar elde edilmiştir.
Çizelge 4.8. FKS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları
FKS sıralı
KNN
KNN
KNN
KNN
KNN
KNN
SVM
SVM
SVM
SVM
indirgenmiş
(k=1)
(k=3)
(k=5)
(k=7)
(k=9)
(k=11)
(ÇF=
(ÇF=
(ÇF=
(ÇF=
%
%
%
%
%
%
Lin.)
Pol.)
Quad)
Rad)
%
%
%
%
gen verisi
İlk 1 gen
98,0
97,3
97,3
97,3
97,3
97,35
97,35
96,03
96,69
97,3
İlk 2 gen
98,0
98,0
98,0
97,3
97,3
97,35
98,01
97,35
97,35
97,3
İlk 3 gen
98,0
97,3
97,3
97,3
96,6
96,69
97,35
97,35
97,35
97,3
İlk 4 gen
98,0
96,6
97,3
97,3
96,0
96,69
97,35
97,35
97,35
97,3
İlk 5 gen
98,0
98,0
98,0
97,3
96,6
97,35
97,35
97,35
97,35
97,3
İlk 6 gen
98,0
98,0
97,3
96,6
96,6
96,69
97,35
97,35
97,35
97,3
İlk 7 gen
98,6
97,3
97,3
98,0
98,0
98,01
97,35
99,34
96,69
97,3
İlk 8 gen
98,6
97,3
97,3
98,0
98,0
98,01
97,35
98,68
96,69
97,3
İlk 9 gen
98,6
97,3
97,3
97,3
98,0
97,35
97,35
98,68
96,69
97,3
43
Çizelge 4.8. (devam) FKS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları
İlk 10 gen
98,6
97,3
98,0
97,3
98,0
97,35
97,35
98,68
96,69
97,3
Çizelge 4.9. WTS sıralı ilk 10 gen verisinin ortalama sınıflandırma sonuçları
sıralı
KNN
KNN
KNN
KNN
KNN
KNN
SVM
SVM
SVM
SVM
indirgenmiş
(k=1)
(k=3)
(k=5)
(k=7)
(k=9)
(k=11)
(ÇF=
(ÇF=
(ÇF=
(ÇF=
%
%
%
%
%
%
Lin.)
Pol.)
Quad.)
Rad)
%
%
%
%
FKS
gen verisi
İlk 1 gen
98,0
97,3
97,3
97,3
97,3
97,35
97,35
96,03
96,69
96,6
İlk 2 gen
98,0
98,0
98,0
97,3
97,3
97,35
98,01
97,35
97,35
97,3
İlk 3 gen
98,0
97,3
97,3
97,3
96,6
96,69
97,35
97,35
97,35
97,3
İlk 4 gen
98,0
96,6
97,3
97,3
96,0
96,69
97,35
97,35
97,35
97,3
İlk 5 gen
98,6
97,3
97,3
97,3
98,0
98,01
97,35
98,68
96,69
96,6
İlk 6 gen
98,6
97,3
97,3
98,0
98,0
98,01
96,69
98,01
96,69
96,6
İlk 7 gen
98,6
97,3
97,3
97,3
98,
97,35
96,69
99,34
96,69
96,6
İlk 8 gen
98,6
97,3
98,0
97,3
97,3
97,35
96,69
99,34
96,69
96,6
İlk 9 gen
98,6
97,3
98,0
97,3
98,0
97,35
96,69
99,34
96,69
96,6
İlk 10 gen
98,6
97,3
98,0
97,3
98,0
97,35
96,69
98,68
96,69
96,6
Çizelge 4.10’ da temel bileşen analizi kullanılarak veri seti yeni bir uzaya taşınarak boyut
indirgeme yapılmıştır. Temel bileşen analizi tüm veri setini en iyi ifade eden genleri
vermektedir. Temel bileşen analizi’ nde elde edilen veri setini farklı k değerlerindeki kNN
sınıflandırıcı
ve
farklı
çekirdek
fonksiyonlarındaki
destek
vektör
makineleri
sınıflandırıcıları ile sınıflandırma başarıları ölçülerek Çizelge 4.10 elde edilmiştir. Çizelge’
deki başarı oranlarına bakılarak 15154 gen ifade verisi bulunan veri seti 150 gen ifade
verisi ile tanımlanabileceği görülmüştür.
44
Çizelge 4.10. Temel bileşen analizi (PCA) kullanılarak yeni uzaya taşınan boyutu
indirgenmiş veri setinin ortalama sınıflandırma sonuçları
PCA
ile
boyut
indirgenmiş
KNN
KNN
KNN
KNN
KNN
KNN
SVM
SVM
SVM
SVM
(k=1)
(k=3)
(k=5)
(k=7)
(k=9)
(k=11)
(ÇF=
(ÇF=
(ÇF=
(ÇF=
%
%
%
%
%
%
Lin.)
Pol.)
Quad)
Rad)
%
%
%
%
gen verisi
İlk 10 gen
87,42
86,7
86,0
85,4
84,1
82,78
98,68
91,39
97,35
68,8
İlk 20 gen
87,42
87,4
84,1
86,7
86,0
85,43
98,68
85,43
86,09
63,5
İlk 30 gen
88,08
86,7
84,
88,0
86,0
84,77
98,68
81,46
85,43
63,5
İlk 40 gen
88,74
86,7
85,4
87,4
85,4
84,77
98,68
72,19
84,11
63,5
İlk 50 gen
88,74
86,7
85,4
88,0
86,0
84,77
100
69,54
82,78
63,5
İlk 60 gen
88,74
86,7
86,0
87,4
86,0
84,11
100
65,56
84,11
63,5
İlk 70 gen
88,74
86,7
84,7
86,7
86,0
84,11
100
63,58
83,44
63,5
İlk 80 gen
88,74
86,7
84,7
86,7
86,0
84,11
100
62,91
81,46
63,5
İlk 90 gen
88,74
86,7
85,4
87,4
86,0
84,77
100
63,58
78,81
63,5
İlk100 gen
88,74
87,4
84,7
87,4
86,0
84,11
100
63,58
74,83
63,5
İlk110 gen
88,74
87,4
84,7
87,4
86,0
84,11
100
63,58
75,55
63,5
İlk120 gen
88,74
87,4
84,7
87,4
86,0
84,11
100
63,58
75,55
63,5
İlk130 gen
88,74
87,4
84,7
87,4
86,0
84,11
100
63,58
75,55
63,5
İlk140 gen
88,74
87,4
84,7
87,4
86,0
84,11
100
63,58
75,55
63,5
İlk150 gen
88,74
87,4
84,7
87,4
86,0
84,11
100
63,58
75,55
63,5
Tüm veri
88,74
87,4
84,7
87,4
86,0
84,11
100
63,58
75,55
63,5
45
5. SONUÇ
Bu çalışmada, biyoinformatikte çok boyutlu veri kümelerindeki özellikle kanser veri
kümelerindeki binlerce öznitelik bilgisinin Fisher korelasyon skorlama ve Welcth t testi ile
boyut indirgeyerek diğer bir deyişle ilgili öznitelikleri seçerek sınıflandırma başarıları
değerlendirilmiştir. Mikro dizilim çip verilerinden gelen binlerce gene ait veriler biyologlar
tarafından gözle değerlendirilip genlerin hastalık ile alakalılığı hakkında bir kanıya
varılıyor. Çalışma mikro dizi çip verilerinden alakalı olan daha az sayıdaki gen ifade
verileri olan genler üzerinde ilgili çalışmaların yapılabileceğini göstermektedir.
Çalışmada eğitim ve test verileri her iki sınıftan %40 eğitim ve %60 test verisi alınarak test
ve eğitim verilerinde her iki sınıftan da örneklerin var olması sağlanarak sınıflandırma
sırasında iyi eğitilip her grubun test edilmesi sağlanmıştır. Ayrıca eğitim verilerinin
sayısının test verilerinin sayısından az olarak seçilmesi aşırı öğrenmeye karşı tedbir
alınarak sınıflandırma başarısının artması ve daha çok test verisi üzerinde sınıflandırıcı test
edilmiştir.
Çizelge 4.1 ve Çizelge 4.3’ deki FKS ve WTS ile seçilmiş genlerin farklı k değerlerinde
kNN sınıflandırıcısındaki başarıları karşılaştırıldığında WTS ile sıralanan ilk 100 gen ve
k=11 değerinde kNN %100 başarı ile FKS’ den daha yüksek başarı elde edilmiştir.
Çizelge 4.2’ de FKS değerlerine göre büyükten küçüğe sıralandığındaki ilk100, ilk 200 ve
100 artırımlı olarak ilk 1000 gen özniteliğinin farklı k değerlerinde kNN sınıflandırıcıdaki
başarıları yüzde olarak ifade edilmiştir. Bu tablodan görülmektedir ki k=1 değerinde yani
en yakın 1 komşuluk alındığında kNN sınıflandırıcıdaki başarılar diğer k değerlerinin
başarıları arasında en yüksek olanlarıdır. Bu çizelgeden görüldüğü gibi k değerinin artması
başarıyı artırmamaktadır. Ayrıca, Çizelge 4.2’ de 4 farklı çekirdek fonksiyonları için
destek vektör makine sınıflandırıcıdaki başarılarına bakılacak olursa en iyi başarı olan
%100 başarı lineer çekirdek fonksiyonu seçildiğinde bulunmuştur. Buradan, kullanılan
yumurtalık kanseri veri setindeki farklı sınıflara ait örneklerin doğrusal olarak ayrılabilir
olduğunu ve doğrusal bir sınıflandırıcı kullanarak bu verilerin iyi bir şekilde ayrıldığı
görülmüştür.
46
Çizelge 4.2 ve Çizelge 4.4’ teki FKS ve WTS ile seçilmiş genlerin farklı çekirdek
fonksiyonlarında SVM lineer sınıflandırıcısındaki başarıları karşılaştırıldığında gen sayısı
azaldığında başarının artarak %100 başarıya ilk 200 gen için elde edildiği görülmüştür. Bu
da, WTS ve FKS ile yapılan öznitelik sıralamasının başarılı bir şekilde yapılarak daha az
sayıdaki gen bulunan veri setinin sınıflandırma tahminini daha iyi yaptığını
göstermektedir.
Çizelge 4.1 ve Çizelge 4.2’ de FKS ile seçilmiş genler kNN ve SVM sınıflandırıcı ile
sınıflandırıldığında SVM (lineer) ile sınıflandırma kNN (k’ nın tüm değerlerinde) ile
yapılan sınıflandırmadan daha yüksek başarı olan %100 başarı göstermiştir.
Çizelge 4.3 ve Çizelge 4.4’ te WTS ile seçilmiş genler kNN ve SVM sınıflandırıcı ile
sınıflandırıldığında iki sınıflandırıcıda da %100 başarı yakalanmasına karşın, SVM (lineer)
sınıflandırıcının ilk 200, 300, 400 gen de %100 başarısını koruyarak önerilen metodun bu
sınıflandırıcı ile daha kararlı bir yapı gösterdiği görülmektedir.
Çizelge 4.5’ te tüm veri seti öznitelik seçmeden önce kNN (k=1) sınıflandırıcıda %90,07
başarı ile sınıflandırılırken ilk 100 öznitelik seçildiğinde %100 başarı elde edildiği
görülmektedir. Bu da, öznitelik seçmenin sonra sınıflandırıcı başarısına olumlu yönde
etkisini göstermektedir. Aynı zamanda %100 başarı elde edilerek seçilen 100 özniteliğin
veri setinde önemli öznitelik değerleri olduğu kanısına varılabilmektedir.
Çizelge 4.10’ dan görüldüğü üzere, temel bileşen analizi (PCA) kullanılarak elde edilen
yeni uzayın öznitelik sayını en az 150’ ye indirilerek maksimum başarı elde etmektedir.
Başarı oranlarına bakılarak 15154 gen ifade verisi bulunan veri seti 150 gen ifade verisi ile
tanımlanabileceği görülmüştür WTS ve FKS ile öznitelik seçilerek daha az sayıda gen ile
daha yüksek başarı elde edilmiştir.
Çalışmada yapılan sınıflandırma sonuçlarından SVM (doğrusal çekirdek fonksiyonu) ve
kNN (k=1) sınıflandırıcıda en iyi başarımı seçilen ilk 100 gen bilgisi ile elde edilmiştir. Bu
100 gen içinde yapılan çalışmaların sonuçları Çizelge 4.8 ve Çizelge 4.9’ da
görülmektedir. Bu başarılara bakılarak WTS ile sıralanmış ilk 5 gen ile en iyi başarıya
olarak kNN (k=1) sınıflandırıcı ile %98,68 ile yaklaşmıştır. Bu da demek oluyor ki
yumurtalık kanseri veri kümesi için biyologların binlerce gen yerine belirlenen 5 gen
47
üzerinde araştırma yapmaları yeterli olacaktır. %100 olmasa da yakın bir başarı ile doğru
teşhis %98,68 başarı ile konabilecektir.
48
49
KAYNAKLAR
1. Santanu, G., Anirban, M. and Pranab, K. D. (2012). Gene expression data
classification by VVRKFA. Procedia Technology, 4, 330 – 335.
2. Guyon, I., Weston J., Barnhill, S. and Vapnik V. (2002). Gene selection for cancer
classification using support vector machines. Machine Learning, 46, 389-422.
3. Hochreiter, S. and Obermayer, K. (2004). Kernel methods in computational biology. In
Scholkopf, B., Tsuda, K. and Vert, J. P. (Eds.), MIT press, 323.
4. Cristianini, N. and Taylor, S. J. (2000). An introduction to support vector machines.
Cambridge University Press, 6, 113-145.
5. Shen, L. and Tan, EC. (2005). Dimension reduction-based penalized logistic
regression for cancer classification using microarray data. IEEE/ACM Transactions
on Computational Biology and Bioinformatics, 2, 166-175.
6. Alizadeh, A., Eisen, M. B., Davis, R. E., Ma, C., Lossos, I. S., Rosenwald, A.,
Boldrick, J. C., Sabet, H., Tran, T., Yu, X., Powell, J. I., Yang, L., Marti, G. E., Moore,
T., Hudson, J. J., Lu, L., Lewis, D., Tibshirani R. B., Sherlock, G., Chan, W. C.,
Greiner, T. C., Weisenburger, D. D., Armitage, J. O., Warnke, R., Levy, R., Wilson,
W., Grever, M. R., Byrd, J. C., Botstein, D., Brown, P. O. and Staudt, L. M. (2000).
Distinct types of diffuse large B-cell lymphoma identified by gene expression
profiling. Nature, 403(6769), 503–511.
7. Eisen, M. B., Spellman, P. T., Brown, P. O. and Botstein, D. (1998). Cluster analysis
and display of genome wide expression patterns, Proceedings of the National
Academy of Sciences, 95(25).
8. Lockhart, D. and Winzeler, E. (2000). Genomics gene expression and DNA arrays.
Nature, 405, June(6788), 827–836.
9. Witten, I. H. and Frank, E. (2005). Data mining, practical machine learning tools and
techniques. Second Edition, Elsevier Press.
10. Hand, D., Mannila, H. and Smyth, P. (2001). Principles of Data Mining, MIT Press.
11. Wang, J. Y., Bensmail, H. and Gao X. (2013). Multiple graph regularized nonnegative
matrix factorization. Pattern Recognition, 46(10), 2840-2847.
12. Wang, J. Y., Wang, X. and Gao, X. (2013). Non-negative matrix factorization by
maximizing correntropy for cancer clustering. BMC Bioinformatics, 14, 107.
13. Wang, J. Y., Almasri, I. and Gao, X. (2012). Adaptive graph regularized nonnegative
matrix factorization via feature selection. The 21st International Conference on
Pattern Recognition (ICPR2012), Tsukuba, Japan, November.
50
14. İnternet: Wang, J.Y., Bensmail, H. and Gao X. (2013). Joint learning and weighting of
visual vocabulary for bag-of-feature based tissue classification. Pattern Recognition,
URL:http://www.webcitation.org/query?url=http%3A%2F%2Fdx.doi.org%2F10.1016
%2Fj.patcog.2013.05.001&date=2015-08-04, Son Erişim Tarihi:04.08.2015
15. Kohavi, R. and John, G. (1997). Wrappers for feature subset selection. Artificial
Intelligence, 97 (1-2), 273-324.
16. Xing, E., Jordan, M. and Karp, R. (2001). Feature selection for high dimensional
genomic microarray data. In Proceedings of the 18th International Conference on
Machine Learning, 601-608.
17. İnternet: URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.pasteur.fr%2Frecherch
e%2Funites%2FBinfs%2Fdefinition%2Fbioinformatics_definition.htm&date=201508-04, Son Erişim Tarihi: 04.08.2015.
18. Baloğlu, U. B. (2006). Dna sıralarındaki tekrarlı örüntülerin ve potansiyel motiflerin
veri madenciliği yöntemiyle çıkarılması, Yüksek Lisans Tezi, Fırat Üniversitesi Fen
Bilimleri Enstitüsü, Elazığ, 8-9.
19. Luscombe, N. M., Greenbaum, D. and Gerstein, M. (2001). What is bioinformatics?
An introduction and overview. Yearbook of Medical Informatics, 83-85.
20. İnternet: URL:
http://www.webcitation.org/query?url=http%3A%2F%2Fwww.ncbi.nlm.nih.gov%2FA
bout%2Fprimer%2F+bioinformatics.html&date=2015-08-04, Son Erişim Tarihi:
04.08.2015
21. Feng, D.F. and Doolittle, R. F. (1987). Progressive sequence alignment as a
prerequisite to correct phylogenetic trees. Journal of Molecular Biology., 25, 351–
360.
22. Lathrop, R. H., Webster, T. A. and Smith, T. F. (1987). Ariadne: pattern-directed
inference and hierarchical abstraction in protein structure recognition.
Communications of the ACM, 30, 909–921.
23. Altschul, S. F., Gish, W., Miller, W., Myers, E. W. and Lipman, D.J. (1990). Basic
,
local alignment search tool. Journal of Molecular Biology 215, 403–410 (1990).
24. Bowie, J. U., Luethy, R. and Eisenberg, D. (1991). A method to identify protein
sequences that fold into a known three-dimensional structure. Science, 253, 164–170.
25. Critchlow, T., Musick, R. and Slezak, T.(2001). Experiences applying meta-data
bioinformatics. Information Sciences, 139,13-17.
26. Feelders, A., Daniels, H. and Holsheimer, M. (2000). Methodological and practial
aspect of data mining. Information and Management, 37(5), 273.
51
27. Hornick, F. M., Marcadé, E. and Venkayala, S. (2007). Java data mining: strategy,
standard and practice a practical guide for architecture, design and implementation.
Morgan Kaufman.
28. Larose, D. T. (2005). Discovering knowledge in data: an introduction to data mining,
Wiley Publishing.
29. Anne, M. and Dunn, B. (2005). Identification of factors associated with pastoperative
pneumania using a data mining approach. USA: Boston College, May, 53-54.
30. Özmen, S. (2003). Veri Madenciligi Süreci’, Veri Madenciliği ve Uygulama Alanları.
İstanbul Ticaret Üniversitesi, İstanbul, 37.
31. Oğuzlar, A. (2003). Veri önişleme. Erciyes Üniversitesi İktisadi İdari Bilimler
Fakültesi Dergisi, 21 (Temmuz-Aralık), 72.
32. Introduction to data mining and knowledge discovery (1999). Third Edition, Two
Crows Corporation.
33. Olson, D.L. and Delen, D. (2008). Advanced data mining techniques. Springer.
34. Bouchota, J. L., Trimbleb, W. L., Ditzlerc, G., Land, Y., Essingerc, S. and Rosenc, G.
(2014). Computational systems biology. Second Edition, Philadelphia, USA, 314.
35. Kononenko, I. (1994). Estimating features: analysis and extension of RELIEF. In:
Proceedings of 6th European Conference on Machine Learning,171–82.
36. Kira, K. and Rendell, L. A. (1992). A practical approach to feature selection. In:
Proceedings of the 9th International Conference on machine learning, 249–56.
37. Ding, C. and Peng, H. (2005). Minimum redundancy feature selection from microarray
gene expression data. Journal of bioinformatics and computational biology, 3, 185–
205.
38. Peng, H. (2005). Feature selection based on mutual information: criteria of
maxdependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern
Analysis Machine Intelligence, 27, 1226–38.
39. Zhang, Y. (2007). Gene selection algorithm by combining reliefF and mRMR. BMC
Genom, 9(Suppl 2), 27.
40. Kawak, N. and Choi, C. (2002). Input feature selection for classification problems.
IEEE Transaction Neural Networks, 13(1), 143-159.
41. Liu, H. (2002). A comparative study on feature selection and classification methods
using gene expression profiles and proteomic patterns. Genome Inform, 13, 51–60.
42. Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 81–106.
52
43. Chandra, B. and Gupta, M. (2011). An efficient statistical feature selection approach
for classification of gene expression data. Journal of Biomedical Informatics, 44,
529–535.
44. Ghazavi, S. N. And Liao, T. W. (2008). Medical data mining by fuzzy modeling with
selected features. Artificial Intelligence in Medicine, 43, 195-206.
45. Loo, L. H., Roberts, S., Hrebien, L. and Kam, M. (2007). New criteria for selecting
differentially expressed genes. IEEE Engineering in Medicine and Biology
Magazine, 17-26.
46. Dat, T. H. and Guan, C. (2007). Feature selection based on fisher ratio and mutual
information analyses for robust brain computer interface. IEEE International
Conference on Acoustics, Speech and Signal Processing, 338-340.
47. Pudil, P., Novovicova, J. and Kittler, J. (1994). Floating search methods in feature
selection. Pattern Recognition Letter, 15, 1119-1125.
48. Millionas, M. M. (1994). Swarm, phase, transition, and collective intelligence, artificial
life. MA: Addison Wesley.
49. Suganthan, P. N. (1999). Particle swarm optimiser with neighborhood operator,
proceedings of the congress on evolutionary computation. USA: IEEE Service Center,
1958–62.
50. Trelea, I. C. (2003). The particle swarm optimization algorithm: convergence analysis
and parameter selection. Information Processing Letters, 85, 317–25.
51. Yuan, X., Yuan, X., Yang, F., Peng, J. and Buckles, B. P. (2003). Gene expression
classification: decision trees vs. svms. Flairs Conference, Florida, USA, 92-97.
52. Guyon, I., Weston, J., Barnhil, S. and Vapnik, V. (2002). Gene selection for cancer
classification using support vector machines. Machine Learning, 46, 389–422.
53. Domingos, P. and Pazzani, M. (1997). On the optimality of the simple bayesian
classifier under zero-one loss, Machine Learning, 29, 103–30.
54. Vapnik, V. (1995). The nature of statistical learning theory. New York Springer.
55. Kuncheva, L. I. (1995). Editing for the k-nearest neighbors rule by a genetic algorithm.
Pattern Recognition Letters, 16, 809-814.
56. Ho, S. Y., Shu, L. S. and Chen, H. M. (1995). Intelligent genetic algorithm with a new
intelligent crossover using orthogonal arrays. Proceedings of the genetic and
evolutionary computation conference, Florida, USA 289-296.
57. Enas, G. G. and Choi, S. S. (1986). Choice of smoothing parameter and efficiency of knearest neighbor classification. Computer & Mathematics with Applications, 12A,
235-244.
53
58. Kunhuang, C., Kungjeng, W., Kungmin, W. and Melani, A. (2014). Applying particle
swarm optimization-based decision tree classifier for cancer classification on gene
expression data. Applied Soft Computing, 24, 773–780.
59. Thanh, N., Abbas, K., Douglas, C. and Saeid, N. (2015). Hidden Markov models for
cancer classification using gene expression profiles. Information Sciences,316, 293–
307.
60. Jin, C., Li. Z., Bangjun, W., Fanzhang, L. and Jiwen, Y. (2015). A fast gene selection
method for multi cancer classification using multiple support vector data description.
Journal of Biomedical Informatics, 53, 381–389.
61. Haider, B. and Suresh, D. (2015). A hamming distance based binary particle swarm
optimization (HDBPSO) algorithm for high dimensional feature selection,
classification and validation. Pattern Recognition Letters, 52: 94-100.
62. Ehsan, L. and Azita K. (2014). Gene expression microarray classification using PCA–
BEL. Computers in Biology and Medicine, 54, 180–187.
63. Devi, A., Vanitha, C., Devaraj, D. and Venkatesulu M. (2015). Gene expression data
classification using support vector machine and mutual information-based gene
selection. Procedia Computer Science, 47, 13-21.
64. Thanh, N., Abbas, K., Douglas, C. and Saeid, N. (2015). A novel aggregate gene
selection method for micro array data classification. Pattern Recognition Letters, 6061, 16-23.
65. Dajun, D., Kang, L., Xue, L. and Minrui, F. (2014). A novel forward gene selection
algorithm for microarray data. Neurocomputing, 133, 446-458.
66. Jie, X., Xiao, H. H., Fu, D., Yan, Q., Xiao, Y. X., Yuan, L. and Haishui, C. (2015). A
novel hybrid system for feature selection based on an improved gravitational search
algorithm and k-NN method. Applied Soft Computing, 31, 293–307.
67. Chandra, B., Naresh, K. and Babu, V. (2014). Classification of gene expression data
using Spiking Wavelet Radial Basis Neural Network. Expert Systems with
Applications, 41, 1326–1330.
68. Latkowski, T. and Osowski, S. (2015). Computerized system for recognition of autism
on the basis of gene expression microarray data. Computers in Biology and Medicine,
56, 82–88.
69. Lu, H. J., Chun, L., Zheng, E. and Yi, L. (2014). Dissimilarity based ensemble of
extreme learning machine for gene expression data classification. Neurocomputing,
128, 22–30.
70. Bolón-Canedo, V., Sánchez-Maro˜no, N. and Alonso-Betanzos, A. (2015). Distributed
feature selection: an application to microarray data classification. Applied Soft
Computing, 30, 136–150.
54
71. Ghosha, S., Mitraa, S. and Dattagupta, R. (2014). Fuzzy clustering with biological
knowledge for gene selection. Applied Soft Computing, 16, 102–111.
72. Tabakhi, S., Najafi, A., Ranjbari, R. and Moradi, P. (in Press). Gene selection for
microarray data classification using a novel ant colony optimization. Neurocomputing.
73. Subhajit, K., Kaushik, D. S. and Madhubanti, M. (2015). Gene selection from
microarray gene expression data for classification of cancer subgroups employing PSO
and adaptive K-nearest neighborhood technique. Expert Systems with Applications,
42, 612–627.
74. İnternet: URL: http://www.webcitation.org/query?url=http%3A%2F%2Fdatam.i2r.astar.edu.sg%2Fdatasets%2Fkrbd%2F&date=2015-08-05,
Son
Erişim
Tarihi:
04.08.2015.
75. Petricoin, E. F., Ardekani, A. M., Hitt, B. A., Levine, P. J., Fusaro, V.A., Steinberg, S.
M., Mills, G. B., Simone, C., Fishman, D. A., Kohn, E. C. and Liotta, L.A. (2002). Use
of proteomic patterns in serum to identify ovarian cancer. The Lancet,359, 572–77.
55
ÖZGEÇMİŞ
Kişisel Bilgiler
Soyadı, adı
: DEMİRCİOĞLU, Hatice Zehra
Uyruğu
: T.C.
Doğum tarihi ve yeri : 19.05.1985/Ankara
Medeni hali
: Evli
Telefon
: 312 595 87 70
Faks
:-
e-mail
: hdemircioglu@sgk.gov.tr.
Eğitim
Derece
Eğitim Birimi
Mezuniyet tarihi
Yüksek Lisans
Gazi Üniversitesi/ FBE/ Bilgisayar Müh. A.B.D
Devam Ediyor
Lisans
Ankara Üniversitesi/ Elektronik Mühendisliği
2008
Lise
Özel Çağrı Fen Lisesi
2003
İş Deneyimi
Yıl
Yer
Görev
2011-Halen
SGK
Sosyal Güvenlik Uzman Yardımcısı
2009-2011
SGK
Sözleşmeli Programcı
Yabancı Dil
İngilizce
Hobiler
Yüzme, Masa tenisi, Kitap Okuma, Bilgisayar teknolojileri
GAZİ GELECEKTİR...
Download