DNA Dizilimlerindeki Protein Kod Bölgelerinin Tanımlanması için

advertisement
DNA Dizilimlerindeki Protein Kod Bölgelerinin Tanımlanması için Fourier
Tabanlı Filtreleme Yaklaşımı
Fourier-Based Filtering Approach for Identification of Protein- Coding
Regions in DNA Sequences
Bihter DAŞ
Yazılım Mühendisliği Bölümü
Fırat Üniversitesi, Elazığ, Türkiye
İbrahim TÜRKOĞLU
Bilgisayar Mühendisliği Bölümü
Bingöl Üniversitesi, Bingöl, Türkiye
bihterdas@gmail.com
iturkoglu@bingol.edu.tr
Özetçe — Genomik araştırmalarda protein kod bölgelerinin
belirlenmesi çok zordur. Üç baz periyotuna sahip bu kod
bölgeleri ekson olarak ta adlandırılır. Bu makalenin amacı,
bir DNA dizilimindeki eksonların pozisyonlarını Fourier
tabanlı filtreleme yaklaşımı kullanarak tahmin etmektir. Bu
amaç doğrultusunda insan türünün M8694 genine ait DNA
dizilimleri EIIP haritalama tekniği ile sayısal diziye
dönüştürülmüştür. Sayısallaştırılmış DNA dizilimlerinin
zaman frekans domeni Fourier yöntemi ile elde edilmiş ve
antinotch filtresi kullanılarak 3 periyotlu sinyal
filtrelenmiştir. Filtrelenmiş sinyalin ekson bölgeleri belirlenen
persentil eşik değerine göre başarılı bir şekilde
tanımlanmıştır.
dizilimleri çıkarılır. mRNA olarak isimlendirilen bu
RNA’lar çıkartılırken bir genin DNA dizilimleri baştan
sona tümüyle okunmaz. DNA nın okunmadan atlanan,
mRNA ve protein kodlamasına katılmayan bu bölümlerine
intron, kodlanan kısımlarına ise ekson adı verilir. Bir gene
ait olan DNA diziliminde o dizilimi ekson ve intron olarak
sınıflandırmak bir DNA dizi analizinde oldukça
önemlidir.[1]
Anahtar Kelimeler — DNA dizilimi, Ekson, Antinotch filtresi,
Fourier dönüşümü
Abstract — Identification of protein-coding regions is very
difficult in genomic research. This coding regions have 3-base
periodicity are named as exon. The aim of this paper is to
estimate position of exon in the DNA sequence used filter
approach based Fourier. For this purpose, DNA sequences of
M8694 gene in human species are transformed to numeric
sequences by EIIP mapping technique. Time frequency
domain of numeric DNA sequences is obtained by Fourier
method and 3-period signal is filtered using antinotch filter.
Exon regions of filtered signal are defined successfully
according to the specified percentile threshold.
Şekil 1. Bir DNA dizilimi örneği
Keywords — DNA sequence, Exon, Antinotch filter, Fourier
transform
Bir genin dizi analizinde homoloji (benzerlik)
araştırması yani yeni bulunan bir DNA diziliminin diğer
tüm dizilimlerle karşılaştırılması ve bunun sonucunda
benzerlerdeki veri tabanında ya da literatürde tanımlanmış
bazı biyolojik işlevlerin, yeni bulunan dizilime
yakıştırılması olarak tanımlanabilir. Bu yöntemle
benzerlikler ve protein kodlayan eksonlar araştırılır ve bir
genin mutasyona uğrayıp uğramadığı belirlenebilir [2].
I. GİRİŞ
II. MATERYAL VE YÖNTEM
Genetik
özellikler
hücre
çekirdeğindeki
kromozomlarla taşınır. Kromozomlar DNA ve özel
proteinlerin birleşmesinden oluşur. Bir DNA’nın yapı
birimi nükleotidlerdir. Nükleotidler şeker ve fosfat ve
organik bazlardan oluşur. Bu bazlar Adenin (A), Guanin
(G), Timin (T), Sitozin (C) dir. Bir nükleotid hangi organik
bazı içeriyorsa o bazın ismiyle nitelendirilirler. Protein ve
enzimler üretilirken DNA üzerindeki bazların dizilimleri
örnek alınarak bu genlere karşılık gelen RNA kopya
Sayısal sinyal işleme teknikleri sembolik sinyallere
uygulanamaz. Bu yüzden DNA dizilimlerinin sayısal
haritalama teknikleri ile sayısal sinyallere dönüştürülmesi
gerekir. Bu makalede insan türünün M8694 genine ait baz
dizilimleri NCBI veri tabanından alınmış ve daha sonra
EIIP sayısal haritalama tekniği ile sayısallaştırılmıştır.
Sayısallaştırılmış DNA dizilimlerinin zaman frekans
domeni Fourier yöntemi ile elde edilmiş ve antinotch
filtresi kullanılarak 3 periyotlu sinyal filtrelenmiştir.
978-1-4673-7386-9/15/$31.00 ©2015 IEEE
Filtrelenen dizilimin enerjisi hesaplanmış ve belirlenen
persentil eşik değerine göre enerji diziliminden ekson
(protein kod bölgeleri) tespit edilmiştir. Bu eşik değeri
bulunurken küçükten büyüğe sıralanmış filtrelenen enerji
dizisinin x. elemanı seçilmektedir X değeri ise filtrelenen
enerji dizisinin toplam eleman sayısıyla 0.96 değerinin
çarpımının yaklaşık değeri alınmasıyla elde edilmektedir.
Gerçekleştirilen uygulamanın adımları şekil 2’ de
gösterilmektedir.
DNA dizilimlerinin NCBI veri
tabanından alınması
EIIP haritalama tekniği ile dizilimin
sayısallaştırılması
DNA diziliminin Fourier dönüşümü ile
zaman-frekans temsili
Antinotch Filtresi tasarlanması
3 periyotlu sinyalin filtrelenmesi
Filtrelenmiş dizilimin enerjisinin
hesaplanması
B. DNA Diziliminin Sayısal Haritalama Tekniği ile
Sayısallaştırılması
Sinyal işleme uygulamalarında DNA dizilimleri
üzerinde çalışabilmek için DNA dizilimlerinin sayısal
sinyallere dönüştürülmesi gerekir.
Bu dönüştürme
işleminde tek boyutlu ve çok boyutlu sayısal haritalama
teknikleri kullanılmaktadır. Bu makale çalışmasında tek
boyutlu sayısal haritalama tekniklerinden biri olan EIIP
tekniği kullanılmaktadır [3,4]. Bu teknikte DNA
dizilimindeki her bir nükleotid EIIP temsilindeki yarı
değerlik sayısı ile eşleştirilir. A= 0.1260, G=0.0806,
C=0.1340, T=0.1335 değerleri verilir. Eğer X(n) dizisinde
A, G, C, T için EIIP değerleri yerine koyulursa, oluşan yeni
sayısal dizilim Xe(n) bir DNA dizilimi boyunca serbest
elektron enerji dağılımlarını temsil eder.
X(n)=[ A T T G C A T G C] iken Xe(n)=[0.1260 0.1335
0.1335 0.0806 0.1340 0.1260 0.1335 0.0806 0.1340]
C. Kullanılan Filtreleme Metodu
Bu makale çalışmasında protein kod bölgelerini(ekson)
belirlemede Fourier tabanlı spektral tahmin yöntemi
kullanılmıştır. Eksonların 3-periyotlu davranışı DNA
dizilimlerini filtreleme yoluyla çıkarılmıştır. Filtreleme
yaklaşımı olarak Antinotch filtresi kullanılmıştır.
Antinotch filtre büyüklük cevabı 2π/3 olan keskin tepeden
oluşan bir filtredir. Eğer antinotch filtreye giriş olarak ikili
işaret dizilimleri olan UA(n), UT(n), UC(n), UG(n)
verilirse protein kod bölgelerinde onlara karşılık gelen
çıkışlar yA(n), yT(n), yC(n), yG(n) dir. [5] Bu filtrenin
passband(bant geçiren) değeri yaklaşık 2π/3’dir. Sayısal
filtre kullanılarak özellik hesaplanması
Y(n)=∑𝑖∈𝐹|𝑦𝑖 (𝑛)|2 F={𝐴, 𝑇, 𝐶, 𝐺}
Enerji diziliminde eşik değere göre
exonların tahmini
Elde edilen eksonlar
Şekil 2: Eksonların tespit edilmesi için Fourier dönüşümüne dayalı
filtreleme yaklaşımının akış şeması
A. Verilerin Elde Edilmesi
Bu çalışmada deneysel veriler için National Center for
Biotechnology(NCBI) sitesi Gen bankasından insana ait
Homo sapiens (Human) M8694 Met geni (Gen Bank No.
AH005332.1) verileri alınmıştır. Makaledeki uygulama
için giriş verileri olarak 16000 DNA baz dizilimi alınmıştır.
Bu baz diziliminde protein kod bölgelerinin (eksonların)
ilgili konumları 8604-8719, 10298-10399, 12388-12433,
14134-14199, 15672-15740 değer aralıklarıdır. Bu
aralıkların dışındakiler protein kodlanmayan bölgelerdir.
(1)
Çizilmiş olan Y(n) grafiğinde tepeler kod bölgelerini yani
eksonları gösterirken, zayıf çıkışlar ise kodlanmayan
bölgeleri yani intronları göstermektedir. Bu amaçla DNA
segmentlerinde protein kod bölgelerini (eksonları)
belirlemede bu özellikten yararlanılmıştır.
Vaidyanathan ve Yoon tarafından önerilen ve eksonları
belirlemede kullanılan IRR antinotch filtresi, dar bant
geçiren filtredir ve bu bölgede yüksek bir kazanç sağlar.
Antinotch filtresinin transfer fonksiyonu [6,7]
H(z)=
1
(1−𝑅 2 )(1−𝑧 −2 )
2 (1−2𝑅𝐶𝑜𝑠𝜃𝑧 −1 +𝑅 2 𝑍 −2 )
(2)
D. Uygulama Sonuçları
Eksonlar, bir DNA dizilimde 3 periyotlu baz (kodon)
halinde bulunduklarından genomik uygulamalarında
eksonların belirlenmesi zordur. Gerçekleştirilen ekson
tespiti uygulamasında, Fourier dönüşümüne dayalı
filtreleme yaklaşımı kullanılarak 3 periyotlu DNA
diziliminde eksonların hangi baz pozisyonlarda bulunduğu
tahmin edilmiştir [8,9]. Daha sonra da tahmin edilen bu
pozisyonlar gen bankasından alınan DNA dizilimindeki
gerçek ekson pozisyonlarıyla karşılaştırılmış ve doğruluk
oranları tespit edilmiştir. Şekil 3’de uygulama sonucunda
eksonların pozisyonlarını ifade eden güç spektrumları
gösterilmiştir. Şekil 3’e göre 870, 1000-1200, 1200-1400,
1500 aralığındaki baz pozisyonları 0.0030 enerji eşik
değerini aşmış ve ekson(protein kod bölgesi) olarak dikkate
alınmıştır.
Şekil 3: Baz konumlarına göre eksonları ifade eden güç spektrumları
Tablo 1’de başlangıçta gen bankasından alınan DNA
dizilimlerindeki ekson bölgelerinin pozisyonları ile
yöntemin bulduğu ekson pozisyonları karşılaştırılmış ve
yöntemin her ekson pozisyonu için doğrulukları
çıkarılmıştır. Yöntemin her pozisyondaki başarı ortalaması
yaklaşık %95,30’dur.
Tablo 1: Gen Bankasından Alınan Ekson Pozisyonları İle Filtreleme
Yaklaşımı Sonucu Bulunan Ekson Pozisyonlarının Karşılaştırılması
Gen Bankasında Baz
Pozisyonu(NCBI)
Fourier Tabanlı Antinotch
Filtre Yaklaşımı
Doğruluk
Oranı (%)
8604-8719 (115)
8600-8700 (100)
83,47
10298-10399 (101)
10300-10400 (100)
97,029
12388-12433 (45)
12400-12450 (50)
95,55
14134-14199 (65)
14100-14200 (100)
100
15672-15740 (68)
15650-15750 (150)
100
III. SONUÇ
Genomik araştırmaların temel amacı genler tarafından
kodlanan özel fonksiyonları belirlemek ve bu genlerin
taşıdığı bilgiyi anlamaktır. Genler bir DNA diziliminde
ekson ve intron olarak bulunurlar. DNA dizilimlerinden
protein kod bölgelerini(ekson) tahmin etmede Fourier
tabanlı filtreleme yaklaşımı kullanılmıştır. Bu yaklaşıma
göre 16000 baz uzunluğundaki DNA diziliminde ekson
olan bölgelerin pozisyonları tahmin edilmiş ve gerçek
ekson
pozisyonlarıyla
karşılaştırılmıştır.
Ekson
pozisyonlarını tahmin etmede kullanılan bu yöntemin etkili
ve başarılı olduğu görülmüştür.
KAYNAKÇA
[1] Sahu, S. ve Panda, G. “Identification of Protein-Coding Regions in
DNA Sequences Using A Time-Frequency Filtering Approach”, Genomic
Proteomics&Bioinformatics, October 2010.
[2] Internet:Wikipedia,http://tr.wikipedia.org/wiki/%C4%B0ntron,
Erişim Tarihi: Kasım 2014.
[3] Nair, A.S., Pillai, S.S., “A coding measure scheme employing electronion interaction pseudo potential (EIIP)”, Journal of Bio-information, Cilt:
1, 197 – 202, October, 2006.
[4] I. Cosic, “Macromolecular Bioactivity: Is it resonant interaction
between macromolecules? Theory and Applications”, IEEE Transactions
on Biomedical Eng., Cilt: 41, 1101-1114, December 1994.
[5] Hota, M. ve Srivastava, V. “Identification of protein coding regions
using antinotch filter”, Digital Signal Processing (22), 869-877, June,
2012.
[6] Vaidyanathan, P. P. ve Yoon, B.-J. The role of signal-processing
concepts in genomics and proteomics, J. Franklin Inst. 341 (2004) 111–
135 (Special Issue on Genomics).
[7] Vaidyanathan, P.P. ve Yoon, B.-J. Gene and exon prediction using
allpass-based filters, in: Workshop on Genomic Signal Process. Stat.,
Raleigh, NC, 2002.
[8] Mena-Chalco, J. ,Carrer, H., Zana, Y., Cesar, R. M. Identification of
protein coding regions using the modified Gabor-wavelet transform,
IEEE/ACM Trans. Comput.Biol. Bioinform. 5 (2008) 198–207
[9] Kotlar, D., Levner, Y. Gene prediction by spectral rotation measure:
A new method for identifying protein-coding regions, Genome Res. 13
(2003) 1930–1937.
[10] Daş, B., Türkoğlu, İ., "DNA Dizilimlerindeki Nükleotit Çiftlerinin
Frekans Değerlerine Göre Farklı Sınıflandırma Yöntemleri ile
Karşılaştırılması", Tıp Teknolojileri Ulusal Kongresi (TIPTEKNO'2014),
s.191-194, 25-27 Eylül 2014, Kapadokya.
[11] Daş, B., Türkoğlu, İ., "DNA Dizilimlerinin Sınıflandırılmasında
Karar Ağacı Algoritmalarının Karşılaştırılması", Elektrik – Elektronik –
Bilgisayar ve Biyomedikal Mühendisliği Sempozyumu (ELECO 2014),
s.381-383, 27-29 Kasım 2014, Bursa.
[12] Ramachandran, P., Lu, W.-S., Antoniou, A. Location of exons in
DNA sequences using digital filters, in: Proceedings of IEEE ISCAS, pp.
2337–2340, 2009.
[13] Akhtar, M., Epps, J., Ambikairajah, E., Time and frequency domain
methods for gene and exon prediction in eukaryotes, in: Proc. IEEE
ICASSP, pp. 573–576, 2007.
[14] Abo-Zahhad, M., Ahmed, S. M., Abd-Elrahman, A.S., “Genomic
Analysis and Classification of Exon and Intron Sequences Using DNA
Numerical Mapping Techniques”, International Journal Information
Technology and Computer Science, Cilt: 8, 22-36, 2012.
[15] Hota, MK., Srivastava, VK., “DSP technique for gene and exon
prediction taking complex indicator sequence”, Proc. IEEE TENCON, 16, 2008.
Download