Prostat Kanseri Teşhisinde Veri Madenciliği Yöntemlerinin Başırım Karşılaştırması Sait Can Yücebaş1, 1 Çanakkale Onsekiz Mart Üniversitesi, Bilgisayar Mühendisliği Bölümü, Çanakkale can@comu.edu.tr Özet: Bütünsel genom ilişkilendirme çalışmalarında (GWAS), tekli nükletotit polimorfizm (SNP) profillerinin birçok hastalık ile ilişkisi olduğu keşfedilmiştir. Bu çalışmalarda kullanılan verilerin yüksek miktarda ve çok boyutlu olması, profillerin hastalıklarla ilişkilendirilmesi ve buradan teşhise gidilmesi sırasında farklı veri madenciliği yöntemlerinin kullanılması ile mümkün olmaktadır. Yapılan çalışmada 1261 kişiden oluşan, her kişiye ait 600.000 SNP ve 12 adet fenotip içeren prostat kanseri veri kümesi kullanılmış, bu veri kümesi üzerinde farklı veri madenciliği yöntemlerinin teşhisteki başarımları test edilmiştir. Test edilen yöntemler arasında Destek Vektör Makinası %72,6’lık kesinlik ve 0,829’luk ROC eğrisi altında kalan alan bakımından en yüksek başarımı verirken, duyarlılık ölçütü en yüksek yöntem %82,35 ile Naive Bayes olmuştur. Anahtar Sözcükler: Veri Madenciliği, Makia Öğrenme, Bütünsel Genom İlişkilendirme Çalışmaları, Tekli Nükletotit Polimorfizm. Performance Comparison of Data Mining Methods on Prostate Cancer Diagnosis Abstract: In genome wide association studies (GWAS), many relations between single nucleotide polymorphism (SNP) and diseases are discovered. These studies work on vast amount of data which is high dimensional so usage of different data mining methods is required in the association and diagnosis phases. In this study, prostate cancer data set which consists of 1261 subjects is used. Each subject has 600,000 SNPs and 12 phenotypes. Diagnostic performances of different data mining methods are tested on this data set. Among these methods Support Vector Machine has superior performance with 72.6% accuracy and 0.829 area under ROC curve. Naïve Bayes was the best model in terms of sensitivity with a value of 82.35%. Keywords: Data Mining, Machine Learning, Genome Wide Association Studies, Single Nucleotide Polymorphism. 1. Giriş Günümüzde genetik alanındaki çalışmalar İnsan Genom Projesi’nin tamamlanmasıyla birlikte büyük bir hız kazanmıştır. Bu çalışmaların bir kolu da genetik varyasyonları inceleyerek bunların hastalıklara yol açıp açmadığını inceleyen bütünsel genom ilişkilendirme (GWAS) çalışmalarıdır. Bu çalışmalar genellikle tek bir nükleotidin değişmesinden kaynaklanan tekli nükleotit polimorfizmi (SNP) [1] üzerine yoğunlaşır. Bu tek nükleotit değişiminden kaynaklanan varyasyonlar yaşayan bir organizmanın belirli hastalıklar geliştirmesine veya belirli hastalıklara savunmasız kalmasına neden olabilmektedir. Bu nedenle SNP’lerin kanser [2], diyabet [3], kardiyo vasküler hastalıklar [4] ve akıl hastalıkları[5] gibi karmaşık hastalıklarla ilişkisi araştırmalara konu olmaktadır [6]. SNP’lerin karmaşıık hastalıklar ile ilişkisinin incelendiği çalışmalarda kullanılan veriler oldukça büyük miktarda ve çok boyutlu veriler olduğundan ilgili verilerin incelenmesinde veri madenciliği yöntemleri tercih edilmektedir. Karar Ağaçları [7], Bayes ağları[8], Destek Vektör Makinaları[9] SNP’lerin karmaşık hastalıklarla ilişkilendrildiği çalışmalarda yaygın olarak kullanılan yöntemlerdir. Literatüre bakıdığında bu yöntemlerin, genom ilişkilendirme, genomlardan hastalık teşhis etme ve teşhis üzerindeki performanslarının birbirleri ile karşılaştırıldığı birçok çalışma görülebilir. İlgili çalışmalarda kullanılan yöntemlerden biri olan Karar Ağaçları diğer yöntemlere göre daha basit, görsel olarak zengin ve daha az maliyetli olmalarıyla tercih edilmişlerdir. 2009 yılında yapılan bir çalışmada [10] hamilelikle gelişen hipertansiyon 4529 hasta üzerinde 52 adet SNP kullanılarak incelenmiştir. Bu inceleme için ID3, ADTree ve C4.5 gibi farklı karar ağaçları kullanılmış ve teşhis performansları karşılaştırılmıştır. Jiao ve arkadaşlarının yaptığı bir çalışmada [11] otizm spectrum bozukluğu 36 hasta ve 25 SNP kullanılarak incelenmiş farklı karar ağacı modelleri ile destek vektör makinalarının karar verme performansları karşılaştırılmış ve birbirine yakın sonuçlar bulunmuştur. Göğüs kanserinin altında yatan SNP leri bulmak adına yapılan bir çalışmada [12] 258 hasta ve 32 SNP kullanılmış, karşılaştırılan karar ağaçları içerisinde en yüksek kesinlik ölçütünü C4.5 ağacı vermiştir. GWAS çalışmalarında tercih edilen diğer bir veri madenciliği yöntemi olan destek vektör makinası (DVM) tip -2 Diyabet üzerinde yapılan bir çalışmada [13] 452 hasta, 456 kontrol, 87 gen ve 408 SNP üzerinde kullanılmış, DVM 12 gen üzerinde bulunan 14 adet SNP’i hastalıkla ilgili olarak göstermiştir. Çoklu myeloma hastalığının erken teşhisi için 300 SNP’in kullanıldığı bir çalışmada DVM %71’lik kesinlik, %65’lik duyarlılık ve %77’lik seçicilik performansı göstermiştir [14]. Diğer bir erken teşhis çalışmasında ağız kanseri incelenmiş ve DVM %55,4 kesinlik sonucu ile %65.2 duyarlılık göstermiştir. DVM performansının diğer yöntemlerle karşılaştırıldığı bir çok çalışma literatürde bulunmaktadır. Bu çalışmaların birinde göğüs kanseri 174 hasta, 150 kontrol ve her birey için 45 tane genin üzerindeki 98 SNP incelenmiştir [15]. DVM, Bayes ağları ve karar ağaçlarının karşılaştırıldığı bu çalışmada performans sonuçları birbirine yakın olmuştur. Wei ve arkadaşları tip-1 diyabet üzerinde yaptıkları çalışmada [16] farklı DVM yöntemlerni karşılaştırılmış sonrasında daha iyi performans gösteren doğrusal olmayan DVM farklı bir yöntem olan lojistik regresyon ile kıyaslanmıştır. Kıyaslama ROC eğrisi altında kalan alana göre yapılmış ve 0,86 – 0,89 arasında değişen duyarlılık, 0,85 – 0,88 seçilik değerleri ile doğrusal olmayan DVM öne çıkmıştır. Bu yöntemlerin yanı sıra seçilen bir ana yöntemin genetik algoritma ile optimize edildiği genetik evrimli modeller [17,18] ve birden fazla ana yöntemin birleştirildiği hibrit modeller [19] de kullanılmaktadır. Makaleye konu olan bu çalışmada, GWAS çalışmalarında kullanılan temel veri madenciliği yöntemlerinin teşhis performansları karşılaştırılmıştır. İlgili karşılaştırma için 1261 kişiden oluşan, her kişiye ait 600.000 SNP ve 12 adet fenotip bilgisinin yer aldığı prostat kanseri veri kümesi kullanılmıştır. edilmiş ve ilişki kuvveti için sınır değer p<0,005 olarak belirlenmiştir. Bu adımda veri kümesindeki SNP sayısı 22.848’e indirgenmiştir. İkinic adımda ise METU-SNP [21] aracının Analitik Hiyerarşik İşleme bileşeni kullanılarak eldeki SNP’ler içerisinde biyolojik anlamlılığı en yüksek SNP’ler seçilmiş ve bu sayede oluşan son temsili SNP alt kümesinde kişi başına incelen SNP sayısı 2710’a indirgenmiştir. Eldeki 20 adet fenotip özniteliğinden 8’i çok fazla bilinmeyen değer içerdiğinden çalışmadan çıkarılmıştır. 2. Materiyal 3. Metod ve Bulgular Çalışmada kullanılan veri kümesi NCBI1’ın dbGaP veri tabanındaki phs000306 numaraları çok etnikli prostat kanseri veri kümesinden2 örneklem alınarak oluşturulmuştur. Oluşturulan bu kümede 628 sağlıklı, 632 hasta yer almakta ve her bireye ait 600.000 SNP ve 20 adet fenotip bulunmaktadır. Veri kümesindeki bireylerin 358’i Afro Amerikan, 227’si Japon ve kalan 675’i Latin etnik kökenindendir. Bu çalışmada SNP’lerin karmaşık hastalıklarla ilişkilendirilmesi ve teşhisinde veri madenciliği yöntemlerinin, çok etnikli prostat kanseri veri kümesi üzerindeki başarım performansları karşılaştırılmıştır. Seçilen her bir yöntemin, alandaki öğrenme metodolojisinin literatürde yaygın kullanılan bir temsilcisi olması amaçlanmıştır. Bu bağlamda tembel öğrenme (Lazy Learning) için K-En Yakın Komşu (KNN), özyineli mantıkla çalışan Karar Ağacı (KA), olasılıksal metod olarak Naive Bayes (NB), olasılıksal olmayan model ve doğrusal olmayan verilerin sınıflandırması için de Destek Vektör Makinası (DVM) seçilmiştir. 2.1 Veri Ön İşleme Genom ilişkilendirme çalışmalarında eldeki SNP sayısı çok olduğunda analizi daha anlamlı hale getirmek için boyut indirgeme yöntemleri kullanılarak temsili SNP alt kümesi oluşturmak literatürde oldukça sık başvurulan bir yöntemdir [20]. İlgili çalışmada kullanılan veri kümesindeki SNP sayısının indirgenerek temsili SNP alt kümesinin oluşturulması için iki adımlı bir boyut indirgeme yapılmıştır. İlk adımda hastalıkla ilişkisi belirli bir kuvvet değerinin üzerinde olan SNP’lerin seçimi için genom ilişkilendirme çalışmalarında kullanılan bir açık kaynak kod aracı olan PLINK3 tercih 1 The National Center for Biotechnology Information Multi Ethnic Genome Wide Scan of Prostate Cancer version 2 3 http://pngu.mgh.harvard.edu/~purcell/plink/index.shtml 2 İlgili yöntemlerin uygulaması için Java tabanlı bir veri madenciliği aracı olan ve literatürdeki uygulamalrda da tercih edilen [22] Rapid Miner’ın 5.3 sürümü kullanılmıştr. Başarım ölçümleri için ayrı bir test kümesi bulunmadığından, test edilen her yöntem için eldeki veri kümesi üzerinde 10 katmanlı çarpraz geçerlilik testi uygulanmıştır. 3.1 Karar Ağacı ve Bulguları Karar ağaçları literatürde ikili sııflama için oldukça tercih edilen bir yöntemdir [23]. Bu tercih altındaki en büyük etmenler gürültü toleransı, düşük hesaplama ihtiyaçları, uygulama kolaylığı ve sağladığı görsellik ile kolay yorumlanabilirliğidir [24]. Bu yöntemde eldeki her öznitelik sınıflama problemini ayırma gücü açısından özyineli olarak test edilir ve bilgi kazancı en yüksek olan öznitelik dallanma için seçilir [25]. Karar Ağacı yapısında başarımı etkileyen en önemli faktörlerden birisi dallanmanın yapılacağı öznitelik seçiminde kullanılan bilgi kazancı hesaplama yöntemidir. Bu adımda bilgi kazancı (Information Gain) kullanıldığında fazla sayıda kategorik değer içeren öznitelikler adına bir taraf tutma olduğu bilinmektedir [25]. Bunu engellmek adına ayrım kriteri olarak bilgi kazancı oranı (Information Gain Ratio) kullanılmıştır. Dallanma yapısı en düşük eleman sayısı 4 ve yaprak oluşması için gerken en düşük eleman sayısı ise 2 olarak belirlenmiştir. Bu şekilde oluşturulan KA modelinin başarım kriterleri Tablo-1’de sunulmuştur. Tablo-1: Karar Ağacı Başarım Değerleri Başarım Kriteri Değer Kesinlik % 69.84 Duyarlılık % 72.58 AUC 0.809 3.2 K-En Yakın Komşu ve Bulguları Bu yöntemde, sınıf bilgileri bilinen örnekler n boyutlu uzayda temsil edilir [26]. Sınıf bilgisi bilinmeyen yen bir örnek geldiğinde, bu örneğe en yakın k sayıdaki komşu örnek bulunur, ve yeni örnek bu komşular içerisinde en yoğun bulunan sınıfa atanır [26]. KNN algoritmasında kurulan modelin eldeki veri setini ezberleme veya yetersiz öğrenme gibi olumsuz koşullara yakalanmaması için K saysıının belirlenmesi oldukça kritktir. Bu sayının belirlenmesi için farklı yöntemler bulunmaktadır [27,28]. Ancak uygun K sayısının belirlenmesi başlıca ayrı bir çalışma konusu olup makaledeki kapsamın dışında tutulmuştur. Yapılan çalışmada K sayısı için (2-5) aralığı verilmiş, başarım performansı en yüksek olan model K=3 olduğunda elde edilmiştir. İlgili modelin başarım değerleri Tablo-2'de sunulmuştur. Tablo-2: K - En Yakın Komşu Başarım Değerleri Başarım Kriteri Değer Kesinlik % 60.32 Duyarlılık % 56.45 AUC 0.754 3.3 Naive Bayes ve Bulguları Adının belirttiği üzere bu yöntem Bayes Teoremi’ne dayanmaktadır. Bu teorem belirli koşullar var olduğunda bir sonucun oluşma olasılığını gösterir. Yöntemin basitliği, eldeki özniteliklerin birbirinden bağımsız olduğunu kabul etmesindendir [29]. Bu kabul çoğu zaman gerçek örnekler için geçerli olmasa da ilgili yöntem daha karmaşık diğer yöntemlere yakın bir başarım performansı sergileyebilmektedir [30]. Naive Bayes yönteminin çok etnikli prostat kanseri veri kümesi üzerindeki başarım değerleri Tablo-3’de sunulmuştur. Tablo-3: Naive Bayes Başarım Değerleri Başarım Kriteri Değer Kesinlik % 68.75 Duyarlılık % 82.35 AUC 0.698 3.4 Destek Vektör Makinası ve Bulguları Vapnik [31] tarafından geliştirilen DVM, farklı sınıflara ait örnekleri birbirinden ayırabilecek ve bu sınıflara en uzak mesafede olacak hiperdüzlemi bullmaya çalışır. DVM uygulamalarında modelin başarılı bir performans sergilemesi için kullanılan çekirdek fonksiyonunun türü, sınıflar arasındaki sınırın uzaklığını belirleyen C katsayısı ve karar sınırının şeklini belirleyen Gamma katsayısının iyi ayarlanması gerekmektedir [32]. Yapılan uygulamada çekirdek fonksiyou olarak benzer veri kümeleri üzerindeki diğer çalışmalarda sıklıkla tercih edilen [16,33] radyal temlli fonksiyon kullanılmıştır. C ve gamma katsayıları sırası ile 10 ve 10-3 olarak belirlenmiştir [19]. Modelin başarım kriterleri Tablo-4’de sunulmuştur. Tablo-4: Destek Vektör Makinası Başarım Değerleri Başarım Kriteri Değer Kesinlik % 72.46 Duyarlılık % 71.34 AUC 0.829 3.5 Karşılaştırmalı Bulgular Yapılan bu çalışmada GWAS çalışmalarında tercih edilen makina öğrenme yöntemlerinden Karar Ağacı, En Yakın Komşu, Naive Bayes ve Destekk Vektör makinasının çok etnikli prostat kanseri verisi üzerindeki başarım performansları test edilmiştir. İlgili yöntemlerin kesnlik, duyarlılık ve AUC performans değerlerinin karşılaştırılması Tablo-5’de sunulmuştur. Tablo-5: Yöntemlerin başarım kriterleri karşılaştırması boyutlu olduğundan ilgili verilerin analizinde veri madenciliği yöntemleri sıklıkla tercih edilmektedir. Yapılan çalışmalarda hemen her kullanılan yöntemin diğerlerine göre avantaj ve dezavantajları olduğu görülmüş, her duruma uygun standard yöntem bulunamamıştır [34]. Buradan yola çıkarak GWAS çalışmalarında literatürde sıkça tercih edilen veri madenciliği yöntemleri olan KNN, KA, NB, DVM’nin başarım kriterleri çok etnikli prostat kanseri veri kümesi üzerinde test edilmiştir. Kesinlik, duyarlılık ve AUC değerlerine göre yapılan bu karşılaştırmada DVM kesinlik ve AUC değerleri bakımından en üstün yöntem olarak karşımıza çıkarken, duyarlılık açısından en yüksek performansı NB vermiştir. Elde edilen sonuçlar değerlendirildiğinde DVM’nin yüksek performans vermesi şaşırtıcı değildir. Bu yöntemin doğrusal olarak ayrılmayan sınıflama problemlerinde iyi performans verdiği, benzer yöntemler arasında da global optimum değere en çok yakınsayan yöntem olduğu bilinmektedir [35,36]. Yöntem Başarım Kriteri KA K NN NB DVM Kesinlik (%) 69.84 60.32 68.75 72.46 Duyarlılık (%) 72.58 56.45 82.35 71.34 AUC 0.809 0.754 0.698 0.829 Her ne kadar ilgili yöntemlerin gösterdikleri sınıflama performansları eldeki veri türüne, sınıflama problemine göre değişiklik gösterse de yüksek perfromans gösterme potansiyeli olan yöntemlerin [19]’deki şekilde hibrit olarak kullanılması veya bu yöntemlerde kullanılan parametrelerin evrimsel algoritmalar ile optimize edilmesi [37,38] ile başarım kriterleri daha da yükeltilbilir. 4. Sonuç ve Öneriler Bütünsel genom ilişkilendirme çalışmalarından elde edilen tekli nükleotit polimorfizmleri bir bireyin belirli hastalıklara karşı zayıf olmasına neden olabilmektedir. Bu nedenle SNP’lerin hastalıklarla ilişkisinin araştırıldığı çalışmalar günümüzde hız kazanmıştır. Bu çalışmalarda incelenen veriler oldukça yüksek miktarda ve çok 5. Teşekkür Bu çalışma, Çanakkale Onsekiz Mart Üniversitesi Bilimsel Araştırma Projeleri Koordinasyon Birimince Desteklenmiştir. Proje Numarası: FBA-2014-286” 6. Kaynaklar [1] Alain Vignal, et al. “A review on SNP and other types of molecular markers and their use in animal genetics.” Genet. Sel. Evol, 34: 275-305 (2002) [2] Douglas F. Easton, Rosalind A. Eeles “Genome-wide association studies in cancer.” Oxford Journals Life Sciences and Medicine Human Molecular Genetics, 17(R2): R109-R115 (2008) [3] Reddy MV, et al. “Association between type 1 diabetes and GWAS SNPs in the southeast US Caucasian population.” Genes Immun, 12 (3):208–12 (2011) [4] G. Lettre, et al.. “Genome Wide Association Study of Coronary Heart Disease and Its Risk Factors in 8,090 African Americans: The NHLBI CARe Project.” Plos Genetics, 7(2) (2011) [5] Mina Ryten, Danyah Trabzuni and John Hardy. “Genotypic analysis of gene expression in the dissection of the aetiology of complex neurological and psychiatric diseases”. Oxford Journals Life Sciences Briefings in Functional Genomics, 8(3): 194-198 (2009) [6] John Hardy and Andrew Singleton. “Genomewide Association Studies and Human Disease”. N Engl J Med, 360:17591768 (2009) [7] Anunciação O, et al.. “A Data Mining Approach for the Detection of High-Risk Breast Cancer Groups”. In: Rocha, M.P, et al. editors. Advances in Bioinformatics. Berlin Heidelberg: Springer. pp. 43–51 (2010) [8] Xia Jiang, M. Michael Barmada, Shyam Visweswaran. “Identifying Genetic Interactions in Genome-Wide Data Using Bayesian Networks.” 34(6): 575–581 (2010) Genet Epidemiol, [9] Abeel T, et al.. “Robust biomarker identification for cancer diagnosis with ensemble feature selection methods.” Bioinformatics, 26(3):39239–8 (2010) [10] Linda Fiaschi et al.. “A Framework for the Application of Decision Trees to the Analysis of SNPs Data”. IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology, CIBCB '09: 106 – 113 (2009) [11] Jiao Y et al.. “Predictive models for subtypes of autism spectrum disorder based on single nucleotide polymorphisms and magnetic resonance imaging”. Advances in Medical Sciences, 56: 334-342 (2011) [12] Orlando Anunciacao et al.. “A Data Mining Approach for the Detection of HighRisk Breast Cancer Groups”. Advances in Bioinformatics - 4th International Workshop on Practical Applications of Computational Biology and Bioinformatics. (2010 ) [13] Hyo-Jeong Ban, et al.. “Identification of Type 2 Diabetes-associated combination of SNPs using Support Vector Machine.” BMC Genetics, 11:26 (2010) [14] M. Waddell et al.. “Predicting Cancer Susceptibility from SingleNucleotide Polymorphism Data: A Case Study in Multiple Myeloma”. KDD conference. Proceedings of the 5th international workshop on Bioinformatics. (2005) [15] Jennifer Listgarten, et al.. “Predictive Models for Breast Cancer Susceptibility from Multiple Single Nucleotide Polymorphisms”. Clinical cancer reseach, 10: 2725–2737. (2004) [16] Zhi Wei et al.. “From Disease Association to Risk Assessment: An Optimistic View from Genome-Wide Association Studies on Type 1 Diabetes”. Plosone, 5(10) ( 2009) [17] Stephen D Turner, Scott M Dudek, Marylyn D Ritchie “ATHENA: A knowledge-based hybrid backpropagationgrammatical evolution neural network algorithm for discovering epistasis among quantitative trait Loci.”. BioData Mining 3:5 (2010) [18] Jesús K. , et al.. “GPDTI: A Genetic Programming Decision Tree Induction method to find epistatic effects in common complex diseases”. Bioinformatics, 123(13):i167-74 (2007) [19] Yücebaş SC, Aydın Son Y. “A Prostate Cancer Model Build by a Novel SVM-ID3 Hybrid Feature Selection Method Using Both Genotyping and Phenotype Data from dbGaP.” PLoS ONE 9(3): e91404 (2014) [20] Nina Zhou and Lipo Wang. “Effective selection of informative SNPs and classification on the HapMap genotype data.”. BMC Bioinformatics, 8:484 (2007) [21] Ustünkar G, Aydın Son Y. “METUSNP: an integrated software system for SNPcomplex disease association analysis.” J Integr Bioinform, 8(1):187 (2011) [22] Magdalena Graczyk, Tadeusz Lasota, Bogdan Trawiński. “Comparative Analysis of Premises Valuation Models Using KEEL, RapidMiner, and WEKA.” Computational Collective Intelligence. Semantic Web, Social Networks and Multiagent Systems. Lecture Notes in Computer Science, 5796: 800-812 (2009) [23] Rokach, L., Maimon, O. “Top-down induction of decision trees classifiers.” IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews 35(4):476- 487 (2002) [24] Rodrigo Coelho, et al.. “Survey of Evolutionary Algorithms for Decision-Tree Induction.” IEEE Transactıons On Systems, Man, And Cybernetıcs—Part C: Applıcatıons And Revıews, 42(3) (2012) [25] J.R. Quinlan. “Induction of Decision Trees.” Machine Learning. 1(1):81-106 (1986) [26] Nitin Bhatia, Vandana. “Survey of Nearest Neighbor Techniques” (IJCSIS) International Journal of Computer Science and Information Security, 8( 2) (2010) [27] Hall P, Park BU, Samworth RJ. "Choice of neighbor order in nearest-neighbor classification". Annals of Statistics, 36(5): 2135–2152 (2008) [28] Nigsch f., et al.. "Melting point prediction employing k-nearest neighbor algorithms and genetic parameter optimization". Journal of Chemical Information and Modeling, 46(6): 2412– 2422 (2006) [29] Rish, Irina. “An empirical study of the naive Bayes classifier.” IJCAI Workshop on Empirical Methods in AI. (2001) [30] P. Domingos and M. Pazzani. “On the optimality of the simple Bayesian classifier under zero-one loss”. Machine Learning, 29:103–130 (1997) [31] Corinna Cortes, Vladimir Vapnik. Support-vector networks.” Machine Learning, 20(3):273-297 (1995) [32] Ben-Hur A, Weston. “A User's Guide to Support Vector Machines.” J. Methods Mol Biol.,609:223-39(2010) [33] Lung-Cheng Huang, Sen-Yen Hsu and Eugene Lin. “A comparison of classification methods for predicting Chronic Fatigue Syndrome based on genetic data.” Journal of Translational Medicine, 7(81) (2009) [34] Solomon K. Musani, et al.. “Detection of Gene - Gene Interactions in Genome-Wide Association Studies of Human Population Data”. Hum Hered, 63:67–84 (2007) [35] Rong Xiao, Jicheng Wang ; Fayan Zhang. “An approach to incremental SVM learning algorithm.”. 12th IEEE Proceedings on Tools with Artificial Intelligence, ICTAI 268-273(2010) [36] Muller, K., et al.. “An introduction to kernel-based learning algorithms.” IEEE Transactions on Neural Networks 12(2): 181–201(2001) [37] Alison A. Motsinger, et al.. “Understanding the Evolutionary Process of Grammatical Evolution Neural Networks for Feature Selection in Genetic Epidemiology.” Proc IEEE Symp Comput Intell Bioinforma Comput Biol. 1(8) (2006) [38] Sushamna Deodhar and Alison Motsinger. “Grammatical Evolution Decision Trees for Detecting Gene-Gene Interactions.” BioData Mining, 3:8 (2010)