Kanser Hastalığı Teşhisinde Mikroarray Deneyi ve Veri Madenciliği

advertisement
Kanser Hastalığı Teşhisinde Mikroarray Deneyi
ve Veri Madenciliği Teknikleri Kullanımı
AD SOYAD
2011-12-30
Özet
Bu makalede biyolojik açıdan DNA,RNA,Protein ilişkisinden bahsedilmiş, fenotip
ile genotip tanımları verilerek, farkları anlatılmıştır. Mikroarray kullanılarak
, bir kanser araştırmasının nasıl yapılabileceğinden bahsedilmiş ve mikroarray
deneyinin adımları sıralanmıştır. Mikroarray deneylerindeki ön işleme ve veri
analizi adımları verildikten sonra veri analizi sırasında kullanılan, veri madenciliği genel tekniklerinden kısaca bahsedilmiştir. En son olarakta , kanser hastalığı
teshişinde mikroarray ve veri madenciliği teknikleri kullanan makalelerden örnekler
verilmiştir.
1
Giriş
1.1
DNA, RNA, Protein Sentezi, Genotip, Fenotip
1953 yılında Watson ve Crick ilk kez bir DNA modelini ortaya koyarak , yaşamın
moleküler sırrını açıklamışlardır. Hücrede protein, lipid, karbonhidrat gibi makromoleküllerin yanında genetik bilginin taşındığı nükleik asitlerde vardır. Nükleik
asitler RNA(ribonükleikasit) ve DNA(deoksiribonükleikasit) olarak ikiye ayrılır.
RNA hücre içerisinde sitoplazmada, DNA ise hücre çekirdeğinde yoğun olmakla
birlikte plastidlerde ve mitokondride az miktarda bulunur. [8]
Kimyasal olarak DNA, nükleotit olarak adlandırılan basit birimlerden oluşan iki uzun polimerden oluşur. Bu polimerlerin omurgaları, ester bağları ile birbirine bağlanmış şeker ve fosfat gruplarından
meydana gelir. Bu iki iplik birbirlerine ters yönde uzanırlar. Her bir
şeker grubuna baz olarak adlandırılan dört tip molekülden (adenin,
timin, guanin, sitozin) biri bağlıdır. 1
Bakınız figure 1
DNA’nın omurgası boyunca bu bazların oluşturduğu dizi, genetik bilgiyi
kodlar. Protein sentezi sırasında bu bilgi, genetik kod aracılığıyla okununca proteinlerin amino asit dizisini belirler. Bu süreç sırasında DNA’daki bilgi, RNA’ya
kopyalanır. Bu işleme transkripsiyon denir. Başka bir deyişle, transkripsiyon
1 http://tr.wikipedia.org/wiki/Deoksiribon%C3%BCkleik_asit
1
Figure 1: DNA
RNA
Mesajcı RNA
(mRNA)
Ribozomal
RNA (rRNA)
Taşıyıcı RNA
(tRNA)
Görevi
DNA’daki bilgiyi protein sentez yeri olan ribozomlara taşır
Ribozomun en önemli kısımlarını oluşturur
Protein sentezinde kullanılmak üzere kullanılacak aminoasitlerin taşınmasında gereklidir
Table 1: RNA Tipleri ve Görevleri
DNA’dan RNA’ya genetik bilginin aktarımıdır. DNA’da bulunan genetik bilginin , bir mesajcı RNA aracılığıyla bir protein veya peptit dizisine çevirisinin
ilk aşaması transkripsiyondur.
RNA ,mesajcı RNA ,ribozomal RNA , taşıyıcı RNA olmak üzere üç tiptir.
Bakınız Tablo 1 Ayrıca çeşitli RNA tipleri genlerin ne derece aktif olduğunu
düzenlemeye yarar.
1.1.1
Fenotip genotip
Eğer bir canlı türünün bireyleri arasında basit bir gözlem yaparsak , çok büyük
bir çeşitlilik olduğunu açıkça görürüz. Örnek olarak insan bireylerinin göz rengi,
boy uzunluğu, saç rengi ve deri rengi bakımından farklılıkları vardır. Ama
bilindiği gibi tüm insanlar tek bir türdendir. Bir türe ait bu bireysel farklılıklar,
kuşaklar arasında tekrarlanırken söz konusu tür kendi özellikleri ile kalmaktadır.
Tür içi ve türler arası bireysel farklılıklar, türün kromozomlarını oluşturan DNA
dizilerindeki farklılıkların sonucudur. Bir organizmanın gelişimini yapısını ve
işlevlerini saptayan çoğu kez genlerdir. Öyleyse DNA da şifrelenmiş genetik
bilgi, tür ve bireysel çeşitlilikten sorumludur. Her organizmanın sahip olduğu
kalıtsal maddenin doğası ile bu madde tarafından ifade edilen fiziksel özelliği
ayırdetmemiz gerekir. Bir bireyin bir nesilden diğerine aktarılan özelliklerine
soyaçekimsel özellikler denir. Bugün biliyoruz ki bu özellikler gen denilen DNA
2
Figure 2: DNA, RNA, Protein
bölgelerinin kontrolündedir. Bir organizmanıngenetik yapısına genotip, kalıtsal
bir özelliğin fizik olarak görünümüne ise fenotip denir. Genler , özel fenotipik
bir karakterin gelişmesi için gizli güçlerdir. Genin bu potansiyeli yalnız öteki
genlerle ve onların ürünleri ile yaptığı etkileşimlerle değil, aynı zamanda çevresel
faktörlerede bağlıdır. Örneğin bir kişinin boy uzunluğu birçok genle denetlenirken
bunların ifadesi iç ve dış çevresel etmenlerle önemli derecede etkilenir. Bu etmenler arasında , dış çevresel etmenler olarak beslenme ile iç etmen olarak ise
ergenlik çağındaki hormanlardan bahsedebiliriz. [3]
Figure 3: Fenotip
Bu konuda iyi bir başlangıç için bakınız [9].
1.2
Mikroarray Deneyleri
Mikroarray’ler başlangıçta gen tanımlarını mRNA miktarlarından yararlanarak
ölçmekte kullanılmışlardır. Daha sonra Single Nucleotide Polymorphhisms (SNPs)
genotiplemesinde kullanılmışlardır. Yakın zamanda ise hastalıklarla ilgili genlerde (tümör) yeniden düzenlemede kullanılmaktadırlar. Her ne kadar mikroarray’lerin daha başka kullanım alanlarıda olsa, klinik araştırmalarda en çok kullanılma alanları bunlardır. Mikroarray’ler ile ilgili daha fazla bilgi için bakınız
[11, 5, 1]
Mikroarray deneyindeki adımlar figure 4 üzerinde daha iyi bir şekilde görülebilir
[5]. Buna göre
1. Biyolojik Soru
2. Deney Tasarımı
3
Özel Adım
Metastas yapan tümör genleri farklı
mıdır?
Kanser hastalarından alınan tümörler
Mikroarray ile genlerin çıkarılması
Kümeleme ile farklı genler olup olmadığının araştırılması
Çıkan sonuçlar üzerinden yorum
yapılması
Genel Adım
Biyolojik Soru
Deney Tasarımı
Mikroarray deneyi
Veri analizi
Biyolojik doğrulama ve yorumlama
Table 2: Mikroarray Deneyi Kanser Araştırması
3. Mikroarray deneyi
4. Veri analizi
5. Biyolojik doğrulama ve yorumlama yapılır.
Veri analizi adımları sırasında,genellikle istatiksel algoritmalar, makine öğrenmesi
ve veri madenciliği algoritmaları kullanılmaktadır.
Mikroarray deneyini kanser araştırması için uygularsak tablo 2 adımları
takip edebiliriz.
Figure 4: Mikroarray Deneyi
1.3
Veri Analizi
Mikroarray deneyi sonucunda figure 6’ya benzeyen bir resim elde edilir. Veri
analizi yapılması için bu resmin ön işlemeden (pre processing) geçmesi gerekmektedir.
4
Genel olarak görüntü işleme, arka plan düzeltme, normalleştirme, özetleme
gibi adımlar sonucunda; mikroarray resim verisi, üzerinde çalışılabilecek
sayısal değerlere dönüştürülür.
Elde edilen bu sayısal verinin üstünde yapılan çalışmada çeşitli matematiksel
algoritmalar kullanılır. Yapılan bu işlemler genellikle 3 parçadan oluşur.
1. Sınıf Keşfetme - Demetleme (Class Discovery - Clustering - Unsupervised
Learning)
2. Sınıf Kestirimi - Sınıflandırma (Class Prediction - Classification - Supervised Learning)
3. Sınıf Karşılaştırma - ( Class Comparison - Differential Expression )
Bunlardan ilk ikisi olan demetleme ve sınıflandırmada veri madenciliği teknikleri
çokça kullanılır.
Figure 5: Veri Analizi
1.3.1
Kümeleme - Clustering
Demetleme işlemi veri setini benzerliklerine göre demetlere ayırma olarak kullanılır. Diğer bir deyişle verinin kendi içindeki karakteristiklerinden yararlanarak, veri içindeki benzerlikleri bulma ve benzer verileri demetler içinde gruplama işlemidir. Genel olarak, tüm verilere ait bilgileri saklamak yerine sadece
demeti ifade eden özet bilgi saklanır. Bu özet bilgi: kütle merkezi , demetin
çapı gibi bilgilerdir.
Birbirine benzeyen verilerde daha iyi sonuç verir. Demetleme, gözetimsiz
öğrenme (unsupervised learning) olarakta adlandırılmaktadır. [10]
Demetleme işlemi bioinformatikte genel olarak birbirine benzeyen gen kümelerini
bulmak için kullanılır.
5
1.3.2
Sınıflandırma
Sınıflandırma , veri setinin özelliklerinin kullanılarak ayrık hedef değişkenlerinin
tahmin edilmesi veya öngörülmesidir. Sınıflandırma, gözetimli öğrenme (supervised learning) olarakta adlandırılmaktadır. Bunun nedeni öğrenme kümesindeki
sınıfların sayısının ve hangi nesnenin hangi sınıfa bağlı olduğunun biliniyor olmasıdır. [10]
Kanser teshişinde daha önce eğitilmiş bir sınıflandırıcı kullanılabilir. Bu
sınıflandırıcı eğitilirken, daha önceden verilmiş hasta genler ve belki diğer bazı
özellikler (sigara içme, akrabalarda benzer hastalık olup olmaması) kullanılır.
Buna göre bu sınıflandırıcı, hastalığın teshişine doktora yardımcı olması için:
”Bu hastada metastas olma ihtimalı azdır veya bu hastada metastas olma ihtimali yüksektir.” şeklinde sonuç verir.
2
İlgili Çalışmalar
Bair and Tibshirani 88 hastadan alınan 2308 gen üzerinde çalışmıştır. Bu veri
seti 63 eğitim seti ve 25 test seti olarak bölünmüştür. Gözetimli bir sınıflandırma
algoritması olan, en yakın büzülmüş ağırlık merkezi algoritması (nearest shrunken
centroid) kullanılmıştır. Bu algoritma ile aynı veri seti üzerinde, daha önce kullanılan istatiksel metodlar ve yapay sinir ağlarına göre daha başarılı sonuçlar
elde etmişlerdir.
MammaPrintTM
Kanser araştırmaları konusunda en başarılı ürün örneklerinden biri olarak MammaPrint
TM
gösterilebilir.
MammaPrint çalışmalarına , Amerika’da Meme kanseri olan kadınlarda yaptıkları
araştırma ile başlamışlardır.[13, 12] Arkasından bu çalışmalarını bir tanı aracına
çevirmişlerdir. [6] En son olarak Avrupa’da farklı hastalar üzerinde bu çalışma
test edilmiştir. [4]
Bu ürün kadınlarda Meme Kanserinin metestaz yapma olasılığı üstünde duran bir çalışmadır. Bulunan tümörün vücudun farklı bölgelerinde metestaz
yapması olasıdır. Kemoterapi veya hormonal terapi ile bu metestaz olasılığının
düşürüldüğü bilinmektedir. Ama genel olarak hastalara özel bir tedavi yoktur[13].
İlk çalışmada [13], asıl hastalağı meme kanseri olan 98 hastadan örnekler
alınmıştır. Bunların 34 tanesi 5 yıl içinde uzak metastas göstermişken, 44 tanesi,
5 yıl boyunca hastalık emerasi göstermemiştir. 18 tanesi BRCA1 germline mutasyonuna sahipken , 2 tanesi BRCA2 taşıyıcısıdır.
Bu tümörlerden 25000 gen çıkarılmıştır. Bu 25000 genden 5000 tanesi seçilmiştir.
Seçim kriteri, ilgili genin en az beş tane hastada görülmesidir. En az beşten fazla
tümörde gözlemlendiğinden dolayı, seçilen bu 5000 gen, istatiksel olarak önemli
bulunmuştur.
Bu 5000 gen gözetimsiz hiyerarşik demetleme algoritmasına sokulmuştur.
5000 tane geni taşıyıp taşımadıklarına göre farklı demetlere ayrılmışlardır. Bu
işlem sonucunda, 98 tane tümör 2 farklı gruba (A demeti, 62 ve B demeti, 36
tümör olmak üzere) bölünmüştür. Bu gruplardan birinde metastaz daha fazla
görülürken, diğerinde hastalık normal ilerleme göstermektedir.
Bu bilgi kullanılarak 231 gen’in hastalık sonucu ile diğerlerine göre daha
fazla ilgili olduğu bulunmuştur.
6
Bu 231 gen kullanılarak gözetimli bir sınıflandırıcı eğitilmiştir. Sınıflandırıcı
algoritması olarak istatiksel test (pearson coefficient) kullanılmıştır.
Bu sınıflandırıcı’yı onaylamak (validation) için, eğitici setinde olmayan ,
farklı 19 hasta seçilmiştir. Bu hastaların 7 tanesinde, 5 yıl boyunca metastaz görülmemiştir. Diğer 12 tanesinde ise metastaz görülmüştür. Sınıflandırıcı
onay veri setinde, sadece 2 tane yanlış yapmıştır. Yani 19 hastadan 17 tanesi
için doğru teshiş vermiştir.
Daha sonra elde edilen sınıflandırıcı, 295 yeni hastada test edilmiştir. [12]
Bu 295 hastadan 180 tanesinde , kötü tahmin ( metastaz ihtimali yüksek) , 115
tanesi iyi tahmin ( metastaz ihtimali düşük ) vermiştir.
Bakınız figure 6 üzerinde 2 Metastaz ihtimali daha fazla olan hastaların,
metastaz ihtimali daha az olanlara göre gen farklılıkları , seçici 231 gen için,
görülebilmektedir.
Diğer Çalışmalar
Huang veri madenciliğinde önemli olan, anlaşılabilir sınıflandırma yöntemlerinden,
kural çıkarmayı (rule induction) mikroarray verisi üzerinde denemiştir. Bir
özellik seçme (feature selection) algoritması ile önemli genleri ayırdıktan sonra,
genel kural çıkarma algoritması (generalized rule induction) ile daha anlaşılabilir
kanser tanımlayıcı kuralları çıkarmıştır.
2 farklı lösemi veri seti üzerinde, önerdiği yöntemi denemiştir. Önerdiği
yöntem, önemli genleri ve ilgili kuralları bulma açısında başarılı bir yöntem
olarak görülmektedir.
Yakın zamanda Wang and Simon ve Wang and Gotoh tarafından, yapılan bir
araştırma; kanser sınıflandırması için binlerce gen kullanmak yerine, bunların
arasından seçilen az sayıda gen ile sınıflandırma yapmayı önermişlerdir.
Bu iki çalışma birbirinin devamı niteliğindedir. Uygun seçilmiş genler ile
sınıflandırma yapmaktadırlar.
Birinci çalışma [14] : 5 veri seti üstünde, bu fikrin denenmesidir. Rough set
ve kural çıkarma yöntemi ile, diğer bir çok veri madenciliği yöntemini (Destek
Vektör Makineleri ,Karar Agaçları . . . ) karşılaştırmışlardır.
Diğer çalışmalarında [15], kullanılan veriseti sayısını artırmış ve kendilerine
ait başka bir algoritma önermişlerdir. Bu çalışma [15] ; 11 kanser mikroarray veri
seti üzerinde yapılmıştır. Kanser tahmini için tek gen ile çalışan algoritmaların
da kullanılabileceğini göstermişlerdir. Bir çok veri setinde, çok kullanılan diğer
algoritmalara benzer sonuçlar bulmuşlardır.
Kendi algoritmaları ile , karşılaştırdıkları veri madenciliği metodları arasında
• k-en yakın komşu - k-nearest neighbor
• Destek Vektör Makineleri - Support Vector Machine
• Karar Agaçları - Decision Tree
• Rastgale Orman - Random Forest
bulunmaktadır.
2 figure
6 van de Vijver et al. makalesinden alınmıştır.
7
Figure 6: Mikroarray Örnek
8
3
Sonuç
Günümüzde kanser teşhisi konusunda mikroarray teknolojisinin kullanımı ve
veri madenciliği teknikleri kullanımı hızla artmaktadır. Bu çalışmalar gün geçtikçe
olgunlaşarak, doğruluk derecelerini ve hassasiyetlerini artırmaktadır. Bundan
dolayı, gelecekte doktorların teshiş sırasında yararlanabilecekleri araçlar haline
gelmeleri beklenmektedir.
References
[1] M.M. Babu. An introduction to microarray data analysis. Computational
Genomics: Theory and Application, 2004.
[2] Eric Bair and Robert Tibshirani. Machine learning methods applied to
dna microarray data can improve the diagnosis of cancer. SIGKDD Explorations, 5(2):48–55, 2003.
[3] Ali Nihat Bozcuk. Genetik. Palme Yayınları, 2000.
[4] Marc Buyse, Sherene Loi, Laura van’t Veer, Giuseppe Viale, Mauro
Delorenzi, Annuska M. Glas, Mahasti Saghatchian d’Assignies, Jonas
Bergh, Rosette Lidereau, Paul Ellis, Adrian Harris, Jan Bogaerts, Patrick
Therasse, Arno Floore, Mohamed Amakrane, Fanny Piette, Emiel Rutgers, Christos Sotiriou, Fatima Cardoso, Martine J. Piccart, and On behalf of the TRANSBIG Consortium. Validation and clinical utility of a
70-gene prognostic signature for women with node-negative breast cancer.
Journal of the National Cancer Institute, 98(17):1183–1192, 2006. doi:
10.1093/jnci/djj329. URL http://jnci.oxfordjournals.org/content/
98/17/1183.abstract.
[5] Greg Gibson. Microarray analysis. PLoS Biol, 1(1):e15, 10 2003.
doi: 10.1371/journal.pbio.0000015. URL http://dx.doi.org/10.1371%
2Fjournal.pbio.0000015.
[6] A. Glas, A. Floore, L. Delahaye, A. Witteveen, R. Pover, N. Bakx, J. LahtiDomenici, T. Bruinsma, M. Warmoes, R. Bernards, et al. Converting a
breast cancer microarray signature into a high-throughput diagnostic test.
BMC genomics, 7(1):278, 2006.
[7] Liang-Tsung Huang. An integrated method for cancer classification and
rule extraction from microarray data. J Biomed Sci, 16:25, 2009.
[8] İlhami Kiziroğlu. Genel Biyoloji. Desen Yayınları Ankara, 1998.
[9] L. Kari, R. Kitto, and G. Gloor. A computer scientist’s guide to molecular
biology. Soft Computing - A Fusion of Foundations, Methodologies and
Applications, 5:95–101, 2001. ISSN 1432-7643. URL http://dx.doi.org/
10.1007/s005000000076. 10.1007/s005000000076.
[10] Suat Özdemir. Veri Madenciliği Ders Notları. Gazi Universitesi, 2011.
[11] J. Quackenbush et al. Computational analysis of microarray data. Nature
Reviews Genetics, 2(6):418–427, 2001.
9
[12] Marc J. van de Vijver, Yudong D. He, Laura J. van ’t Veer, Hongyue
Dai, Augustinus A.M. Hart, Dorien W. Voskuil, George J. Schreiber, Johannes L. Peterse, Chris Roberts, Matthew J. Marton, Mark Parrish,
Douwe Atsma, Anke Witteveen, Annuska Glas, Leonie Delahaye, Tony
van der Velde, Harry Bartelink, Sjoerd Rodenhuis, Emiel T. Rutgers,
Stephen H. Friend, and Rene Bernards. A gene-expression signature as
a predictor of survival in breast cancer. New England Journal of Medicine,
347(25):1999–2009, 2002.
[13] Laura J. van ’t Veer, Hongyue Dai, Marc J. van de Vijver, Yudong D. He,
Augustinus A. M. Hart, Mao Mao, Hans L. Peterse, Karin van der Kooy,
Matthew J. Marton, Anke T. Witteveen, George J. Schreiber, Ron M.
Kerkhoven, Chris Roberts, Peter S. Linsley, Rene Bernards, and Stephen H.
Friend. Gene expression profiling predicts clinical outcome of breast cancer.
Nature, 415(6871):530–536, January 2002. ISSN 0028-0836. URL http:
//dx.doi.org/10.1038/415530a.
[14] X. Wang and O. Gotoh. Accurate molecular classification of cancer using
simple rules. BMC medical genomics, 2(1):64, 2009.
[15] X. Wang and R. Simon. Microarray-based cancer prediction using single
genes. BMC bioinformatics, 12(1):391, 2011.
10
Download